最近科技圈一個有趣的發展,就是史丹佛大學和華盛頓大學的研究人員,他們搞出了一個名為s1的AI「推理」模型,更驚人的是,這個模型的雲端運算成本竟然不到50美元!更厲害的是,s1在數學和編碼能力測試中,表現還能跟OpenAI的o1和DeepSeek的R1等頂尖模型打成平手。這不僅展示了AI技術的飛速進展,也讓人開始思考AI模型是不是會變成一種人人都能用的商品,以及大型AI實驗室的競爭優勢會在哪裡。
s1模型之所以能成功,關鍵在於一種叫做「知識蒸餾」(distillation)的技術。簡單來說,研究團隊先用了一個現成的基礎模型,然後利用Google的Gemini 2.0 Flash Thinking Experimental模型,訓練s1去模仿Gemini 2.0 Flash Thinking Experimental的答案,藉此提取「推理」能力。其實,之前柏克萊大學的研究人員也用類似的方法,只花了約450美元就打造出一個AI推理模型,這都顯示了知識蒸餾在降低AI開發成本方面的巨大潛力。不過,之前OpenAI還指控DeepSeek為了模型蒸餾,不正當地收集他們的API數據,可見大型AI實驗室對於這種低成本的複製技術還是很擔心的。
s1研究團隊的目標很明確,就是要找到實現強大推理性能和「測試時擴展」(test-time scaling)的最簡單方法。「測試時擴展」的概念很有趣,它允許AI模型在回答問題之前,可以花更多時間去思考。他們發現,通過「監督式微調」(SFT)方法,使用相對較小的數據集(只有1000個精心挑選的問題)就能有效地訓練推理模型。相較於DeepSeek用來訓練R1模型的大規模強化學習方法,SFT顯然更省錢。研究人員還發現了一個小技巧,在s1的推理過程中加入「wait」這個詞,竟然可以讓模型更仔細地檢查自己的答案,進而提高準確性。Niklas Muennighoff提到,目前租用訓練s1所需的計算資源,大約只需要20美元。
s1模型的出現,無疑是對大型AI實驗室的一種挑戰。如果用相對較少的資源,就能複製甚至接近頂尖模型的性能,那麼這些公司投入巨額資金開發的模型,價值又在哪裡?文章提到,Meta、Google和Microsoft計劃在2025年投入數千億美元於AI基礎設施,以訓練下一代AI模型。雖然這些投資對於推動AI技術的極限可能仍然必要,但知識蒸餾等技術的發展,正在讓AI技術變得更加普及和可負擔。然而,文章也提醒,知識蒸餾雖然可以廉價地重現AI模型的能力,但並不能創造出比現有模型更優秀的AI模型。此外,Google禁止對其Gemini 2.0 Flash Thinking Experimental模型進行逆向工程,以開發與其自身AI產品競爭的服務,這也引發了關於AI模型使用的法律和倫理問題。
總的來說,s1模型的成功,證明了AI技術的民主化趨勢。隨著知識蒸餾等低成本技術的發展,小型研究團隊和個人開發者也能夠參與到AI模型的開發中來。這將加速AI技術的創新和應用,同時也對大型AI實驗室提出了新的挑戰。未來,我們可能會看到更多基於知識蒸餾等技術的低成本、高性能AI模型出現,從而推動AI技術在各個領域的普及。當然,我們也需要關注AI模型的濫用和潛在的倫理問題,確保AI技術的發展符合社會的整體利益。