近期DeepSeek的R1模型在AI界引起了廣泛討論,特別是其背後所使用的新訓練方法。R1-zero相較於R1,最關鍵的突破在於它展現了獨立於人類指導的思考能力。但這也引出了一個核心問題:為了追求AI模型更高的「人類可讀性」,我們願意犧牲多少性能?

R1-zero透過純粹的強化學習,發展出不依賴人類指導的思考能力。然而,這種獨立思考的代價是人類難以理解其決策過程。為了提升模型的可讀性,DeepSeek在R1中加入了獎勵函數,確保模型以更一致、更易於理解的方式「說話」,但這也直接導致了性能的下降。

這就涉及到一個重要的權衡:為了讓AI模型更易於人類理解和使用,犧牲性能是否值得?就像R1為了保持語言一致性而降低性能一樣,更多的人工干預(例如RLAIF)往往會降低模型的性能,因為這要求模型不能完全遵循其核心學習和權重。

除了性能問題,DeepSeek V3模型高達550萬美元的訓練成本也引發了業界對AI公司成本結構的擔憂。這種高昂的成本,甚至讓人聯想到可能對美國股市,尤其是Nvidia的股價,造成衝擊。

更深層次的問題在於,模型蒸餾技術使得服務成本大幅降低,這對最尖端模型的經濟效益產生了挑戰。如果其他人可以透過蒸餾模型輕易獲利,誰還願意投入巨額資金去研發最前沿的模型?如果創新無法獲得相應的回報,長期來看,這將會阻礙整個AI產業的發展。

正如"Nat and Daniel"上週討論的那樣,對AGI的追求至關重要,因為模型服務的經濟效益正面臨崩潰的風險。如果一個團隊投入大量資金建立模型,而其他人可以通過蒸餾模型以更低的成本提供服務,這種模式是不可持續的。

觀察微軟的策略,他們似乎正在退出訓練模型的競賽,轉而專注於為客戶提供服務。他們的邏輯是:如果OpenAI或其他公司願意資助模型開發,微軟可以蒸餾這些模型並提供服務。對於微軟來說,這無疑是個好消息,因為更便宜的模型和更高的效率意味著更高的利潤空間。

同樣的邏輯也適用於Amazon和Meta。Amazon無需自行建立模型,只需專注於提供服務即可。對於Meta來說,儘管Llama目前的效率有待提升,但這是一個警鐘,提醒他們需要更有效地利用資源。從長遠來看,Facebook的成本將主要由推理(Inference)決定,因此模型越便宜,對他們就越有利。

當然,Nvidia仍然擁有其獨特的「護城河」。首先是CUDA,作為一種廣泛使用的程式語言,CUDA使得開發者能夠充分利用Nvidia GPU的強大計算能力。CUDA的普及程度,使得Nvidia在GPU程式設計領域擁有顯著的優勢。

其次是Nvidia的記憶體頻寬基礎設施,通過Mellanox、InfiniBand和NVLink等技術,Nvidia實現了高效的GPU互連,使得大量GPU能夠像單一GPU一樣協同工作。這種高效的GPU互連技術,對於需要大規模並行處理的應用至關重要。

然而,DeepSeek在效率方面的突破,使得在單一晶片上運行更多計算成為可能,從而降低了對記憶體頻寬的需求。雖然對於最尖端的應用來說,高性能互聯仍然重要,但對於trailing edge的應用,其他更可行的解決方案可能會湧現。

一個值得關注的挑戰是「產品過剩」(Product Overhang)。產品過剩指的是市場上存在大量未被充分利用的技術或產品。如果市場尚未充分利用其GPU的全部潛力,產品過剩可能會對Nvidia產生更大的影響。

這也讓人聯想到Jevons Paradox,即技術進步提高資源利用效率,反而導致資源消耗增加的現象。近期在科技推特上,很多人都在討論Jevons Paradox,尤其是在AI匿名推特圈中。

試想一下,如果AI推理成本趨近於零,就像現在使用CPU一樣,會發生什麼?就像你可以隨時進行Google搜尋或瀏覽社交網路一樣。如果運算成本基本為零,你可以運行這些拍賣,循環處理大量的可能性,最終鎖定目標並為你提供服務。因此,如果GPU運算變得更便宜,從長遠來看,GPU的使用量應該會增加,而不是減少。

總的來說,DeepSeek的R1模型代表了AI發展的一個重要里程碑,它在獨立思考能力和人類可讀性之間做出了權衡。AI產業的經濟結構正在發生變化,企業需要不斷調整策略以適應新的現實。Nvidia面臨著來自效率提升和產品過剩的挑戰,但其CUDA和記憶體頻寬技術仍然具有重要價值。未來的發展將取決於我們如何解決這些問題,並充分利用AI的潛力。

原始影片:https://youtu.be/3YAGjSOkwhA