嘿,科技迷們!最近DeepSeek這件事兒,大家肯定都聽說了吧?簡直在全球科技圈炸開了鍋!今天就來跟大家聊聊這背後的故事,還有它對整個AI產業可能帶來的影響。

David Sacks最近也一直在關注這件事,他和AI領域的專家們聊了很多,所以對DeepSeek的爆紅,他有自己獨到的見解。

Sacks說,DeepSeek這次能引發這麼大的關注,主要有兩個原因。首先,它是一家中國公司,這就自然而然地和中美科技競爭聯繫起來了。其次,DeepSeek選擇開源R1模型,這又引發了關於開源和閉源模式的大討論。如果少了這兩個因素中的任何一個,可能就沒這麼轟動了。

想想看,TikTok上有些使用者可能覺得美國在AI競賽中要落後了,這種情緒也推波助瀾。還有那些支持開源,或者對OpenAI不滿的人,也希望DeepSeek能以更低的成本挑戰OpenAI的地位。

當然,關於DeepSeek的報導,有些是真的,有些可能需要澄清一下。Sacks就說,如果幾週前有人預測,OpenAI之後,第二家發布推理模型的公司會是中國公司,估計沒幾個人會相信。

這裡要稍微解釋一下,現在的AI模型主要分兩種。一種是基礎LLM模型,就像GPT-4o或者DeepSeek的V3,它們很聰明,能回答你提出的問題。另一種是新型推理模型,就像O1,它不僅能給你答案,還會自己研究問題,把複雜問題拆解成小問題,然後一步步解決。這種方法叫做「思維鏈」,現在很火的AI代理就是基於這個概念,讓AI模型能按順序執行任務,解決更複雜的問題。

OpenAI率先發布了這類推理模型,Google也在開發類似的Gemini 2.0 Flash Thinking,Anthropic也有類似的產品,但還沒發布。所以,DeepSeek是第二家發布完整公開版本的推理模型的公司,而且還開源了,難怪會引起轟動。加上它是一家中國公司,還以極低的成本提供API訪問,這些因素疊加在一起,就引爆了新聞。

那麼,中國AI現在發展到什麼程度了呢?Sacks覺得,之前大家可能覺得中國在AI模型方面落後6到12個月,但現在可能只落後3到6個月了。因為O1大概是四個月前發布的,而R1的水平和它差不多。這說明中國在AI領域的進展真的很快。

不過,關於DeepSeek只花了600萬美元就完成模型訓練的說法,Sacks覺得有必要闢謠一下。他和Palmer Luckey、Brad Gerstner都認為,驗證模型訓練的成本非常困難。就算這個數字是真的,600萬美元也只是最終訓練的成本。媒體拿這個數字和美國公司幾十億美元的投入相比,是不合理的。合理的比較,應該比較DeepSeek和OpenAI、Anthropic的最終訓練成本。Anthropic的創始人說,最終訓練成本大概是幾千萬美元。所以,不是600萬美元對10億美元,而是幾千萬美元。

蘋果公司的一位分析師也指出,10億美元的數字可能包括了硬體採購和多年研發的總成本,而不是單純的訓練成本。Sacks也同意這種說法,覺得拿美國AI公司的總投入和中國公司的最終訓練成本相比,是不公平的。

DeepSeek的白皮書倒是很詳細地介紹了模型的訓練過程和結果。雖然沒有提供訓練數據,但你可以對模型進行壓力測試,看看能不能以低成本重現DeepSeek的成果。

總之,驗證600萬美元這個數字很困難,就算我們接受這個數字,重點也不在於DeepSeek是否真的做到了,而是我們要進行合理的比較。

Sacks建議,要評估DeepSeek的總成本,應該考慮研發費用、所有模型的實驗成本、訓練成本以及計算集群的成本。Dylan Patel估計,DeepSeek擁有約5萬個Hoppers,包括1萬個H100、1萬個H800和3萬個H20。這些計算卡的成本加起來就會超過10億美元。所以,DeepSeek只花了600萬美元就完成模型訓練的說法,可能不太靠譜。

Dylan Patel的估計包括了DeepSeek和它的對沖基金,但它們的創始人是同一個人。Sacks補充說,這並不意味著他們做了什麼非法的事情。只是因為出口管制,H100在2022年被禁止出口到中國,H800在2023年也被禁止。這位創始人很有遠見,通過對沖基金購買了這些晶片,並利用AI進行演算法交易。總之,擁有5萬個Hoppers的計算集群,成本肯定超過10億美元。

Sacks說,這還不包括DeepSeek可能擁有的額外晶片,這些晶片可能是通過違反出口限制獲得的,但我們無從得知。所以,他覺得有必要指出,關於DeepSeek低成本訓練的說法,被過度炒作了。

一位分析師說,很難判斷哪些是事實,哪些是虛構,因為每個人都有自己的動機。比如,看好Nvidia的半導體分析師,會希望DeepSeek無法以600萬美元完成訓練的說法是真的。同樣地,開發出顛覆性技術的人,也會希望DeepSeek以600萬美元完成訓練的說法是真的。

Sacks覺得,這些都只是推測。真正讓他印象深刻的是DeepSeek採取的不同方法。

他認為,這是一個「需求是發明之母」的例子。他舉了兩個例子:首先,DeepSeek發明了一種完全不同的強化學習演算法。他們沒有使用通用的PPO演算法,而是使用了一種名為GRPO的演算法,這種演算法佔用更少的計算機記憶體,而且效能更高。也許DeepSeek在計算資源方面受到限制,這促使他們找到了這種方法。

其次,大家都習慣使用Nvidia的CUDA編譯模型,但DeepSeek完全繞過了CUDA,使用了PTX直接與硬體底層溝通,這就像編寫組合語言。Sacks覺得,西方國家有大量的資金,卻沒有想到這些方法。原因並不是我們不夠聰明,而是因為我們沒有受到這些限制。

Sacks想知道,我們如何確保學習這個原則。當一家AI公司剛成立,風險投資家就給他們2億美元時,也許這不是A輪或種子輪的正確答案。也許正確的答案是200萬美元,這樣他們才能進行像DeepSeek這樣的創新。

一位分析師說:「限制造就偉大的藝術。」

Sacks覺得,這也創造了一種新的投資機會。在低成本和高速度的情況下,創造價值的機會可能不在價值鏈的底層,而是在更上游的地方。

一位分析師在Twitter上開玩笑說:「事實證明,包裝才是關鍵。」這句話也點出了重點,如果模型效能持續提升、成本降低,並且快速商品化,那麼價值就會在價值鏈的其他地方產生。也許不是包裝,也許是使用者。

Sacks補充說,也許價值會體現在更廣泛的經濟中。當電力生產在美國起飛時,並不是電力公司賺了很多錢,而是整個經濟體受益。

最後,我們來討論幾個問題:

1. DeepSeek的技術突破,是不是代表中國在AI領域真的崛起了?

2. 開源模式在AI發展中,到底扮演什麼角色?

3. 我們應該如何在AI投資中,鼓勵更多創新?

4. AI發展的未來趨勢會是什麼樣的?

5. AI技術的倫理和安全問題,又該怎麼解決呢?

歡迎大家留言討論,一起交流一下你們的看法!

原始影片:https://youtu.be/j00YbDJwMNQ