當全世界還在為 ChatGPT、Claude 等大型語言模型(LLMs)的驚人能力讚嘆不已時,AI 領域的巨擘、圖靈獎得主 Yann LeCun 卻提出了不同的聲音。這位 Meta 的首席 AI 科學家直言,儘管 LLMs 在過去一年取得了飛速進展,但他個人已不再將其視為最前沿、最有趣的研究方向了。
在他看來,目前 LLMs 的發展更像是「由產業產品團隊進行的邊際改進」,大家忙著擴展數據、堆砌算力、生成合成數據,試圖榨乾現有架構的最後一絲潛力。然而,LeCun 認為,AI 的未來藍圖,以及那些真正令人興奮的突破,存在於解決更根本的問題上。
下一代 AI 的新戰場:超越語言,擁抱世界
那麼,如果 LLMs 不再是焦點,什麼才是 AI 的下一個主戰場?LeCun 指出了他心中四大關鍵研究方向:
- 讓機器理解物理世界:這不僅是 LeCun 的想法,也與輝達(NVIDIA)執行長黃仁勳在 GTC 大會上強調的「物理 AI」概念不謀而合。機器需要真正「懂得」現實世界的運作規則。
- 賦予機器持久性記憶:如何讓 AI 擁有像人一樣能夠長期儲存、提取和利用經驗的記憶能力?這是一個相對被忽視,但至關重要的領域。
- 讓機器具備推理能力:AI 需要超越模式匹配,進行邏輯推導和因果分析。
- 讓機器具備規劃能力:能夠制定複雜計劃並執行以達成目標。
LeCun 承認,目前確實有人嘗試利用 LLMs 進行推理和規劃,但他對此並不看好,認為這種方法「過於簡化」,「肯定有更好的方法」。他對這些目前看似「晦澀難懂」,但預計在未來五年內可能引爆科技界的潛力方向充滿期待。
「世界模型」登場:理解真實世界的關鍵鑰匙
如果不用 LLMs,那該用什麼模型來實現對物理世界的理解、記憶、推理和規劃呢?LeCun 拋出了他的核心理念:「世界模型」(World Models)。
他生動地解釋道:「就像嬰兒透過幾個月的觀察和互動,無需語言就能在腦中建立起對物理世界的直觀理解——知道物體會掉落(重力)、推倒瓶子的不同方式會有不同後果等等。」這種內在模型使我們能夠預測物理世界的變化,並與之有效互動。LeCun 強調,理解和處理真實世界的複雜性,遠遠超過處理相對抽象的語言文字。
因此,他斷言,要建構能夠真正理解真實世界的 AI,其底層架構將與目前主流的、擅長預測離散「詞元」(tokens)的 LLMs「完全不同」。他批評了那些試圖直接在像素層級預測高維度連續數據(如影片幀)的方法,指出這類方法「基本上都失敗了」。原因何在?因為系統會耗費巨量資源去試圖預測那些本質上不可預測的細節,比如「人群中每個路人甲的具體長相和下一秒的表情」。
取而代之,LeCun 力推「聯合嵌入預測架構」(Joint Embedding Predictive Architectures, JEPA)等替代方案。這類架構的核心思想是:不要試圖重建(預測)原始輸入的每一個細節,而是學習輸入數據的『抽象表徵』(latent representation),並在這個抽象的、資訊更密集的空間中進行預測。這種方法在學習圖像表徵方面,已被證明比基於重建的方法(如 Masked Autoencoders, MAE)更有效,計算成本也更低。LeCun 視 JEPA 和相關的世界模型架構為通往下一代 AI 的關鍵路徑。
通用人工智能(AGI)? LeCun:別急,可能還要十年以上
對於近來甚囂塵上的通用人工智能(AGI)或他更偏好的術語「先進機器智能」(AMI),LeCun 顯然抱持著更為審慎的態度。他不認為單純地擴展 LLMs 的規模,讓它們生成更長的 token 序列,就能觸及人類水平的智能。
「AI 研究歷史中,幾乎每隔十年左右就會出現一個新範式,伴隨著『AGI 即將到來』的呼聲。」LeCun 指出,當前的 LLM 熱潮正是這個歷史循環的最新篇章,而且在他看來,「同樣走錯了方向」。
他預計,基於世界模型、具備真正推理和規劃能力的系統,其初步原型或許能在未來 3 到 5 年內出現,但要達到真正的人類水平智能,「可能還需要十年或更長時間」。真正的智能,根植於對物理世界的深刻理解,這遠非僅靠文本數據訓練的 LLMs 所能企及。
他舉了一個極具說服力的例子:一個嬰兒學習理解重力等基本物理規律,需要幾個月的持續觀察和互動;而 LLMs 吸收的文本數據量(約 10^14 字節)雖然與一個嬰兒在頭四年透過視覺接收的數據量(同樣約為 10^14 字節)在數量級上相當,但後者顯然包含了遠比前者豐富得多的關於世界運作方式的知識。僅靠「讀萬卷書」,是無法替代「行萬里路」所帶來的真實世界經驗的。
開源萬歲!AI 進步的活水源頭
在訪談中,LeCun 強烈表達了他對開源 AI 平台的堅定支持。「沒有任何一個公司或組織能壟斷所有好的想法。」他認為,真正的進步源自全球社群的集體智慧——思想的碰撞、經驗的交流、程式碼的共享。PyTorch(由 LeCun 早期在 FAIR 推動)和 Llama 的巨大成功就是最好的證明。
他特別提到了 Llama 的故事:由 Meta 在巴黎一個相對較小的團隊開發,其開源發布(即使最初只是模型權重而非訓練代碼)極大地催化了整個 AI 生態系,「催生了大量基於 Llama 的新創公司」,至今其不同版本的模型下載量已突破驚人的十億次。
LeCun 相信,未來的基礎模型(Foundation Models)必須能夠理解全球所有的語言、文化和價值體系,這必然需要全球性的貢獻。因此,這些模型很可能需要在分散式的環境中進行訓練,利用來自世界各地的數據子集。開源是實現這種廣泛合作和多樣性的「必要條件」。它讓學術界、新創公司乃至大型企業都能在一個共同的基礎上進行創新,同時企業也能保護好自己的專有數據,僅利用開源基礎模型進行微調和應用開發。他預見:「基於開放平台的 AI 系統將是未來的主流,而那些封閉的、專有的平台可能會逐漸式微。」
如何面對 AI 風險?用更強大的 AI 來應對
談及 AI 的潛在風險,如深度偽造(Deepfakes)和假訊息傳播,LeCun 承認這些是真實存在的擔憂。然而,他認為應對之道並非因噎廢食、限制 AI 的發展,而是要「開發更先進、更可靠、更能自我評估且具備常識的 AI 來反制」。換言之,用更強大、更負責任的 AI 來對抗 AI 的濫用。
他對那些關於 AI 可能導致人類滅絕的「生存威脅論」表示強烈懷疑,認為這種論調更像是科幻情節。在他看來,AI 更像是一種賦予人類能力的強大工具或智能助手。同時,他也指出了一個經常被忽視的現實:AI 技術的實際部署和整合過程,往往比預期的「更複雜、成本更高、耗時更長」,這本身就對潛在的負面影響形成了一種緩衝。歸根結底,「可靠性」和「安全性」才是 AI 在實際應用中面臨的核心挑戰。
新興硬體?LeCun:數位晶片短期內仍是王道
對於類神經形態計算(Neuromorphic Computing)、光學計算等新興硬體技術,LeCun 則持相對保守的態度。他回憶起 1980 年代末在貝爾實驗室的經歷,當時他所在的團隊就專注於類比神經網路硬體,但這些技術最終未能跟上數位技術的發展步伐。
他認為,雖然類比計算或脈衝神經網路(Spiking Neural Networks)在原理上可能有低功耗等優勢,但成熟的數位 CMOS 技術已經處在一個非常深的「局部最優點」(deep local minimum),使得其他替代技術(包括光學計算)很難在短期內實現超越,尤其考慮到追趕所需的巨額投資。此外,即使採用類比計算,最終仍需要數位通訊和記憶體接口,這會抵消部分能效優勢。
至於量子計算在 AI 領域的應用,LeCun 表示「極度懷疑」,認為其目前唯一可預見的中期應用是模擬量子系統本身(如量子化學)。
總結來說,LeCun 的觀點是:在可預見的未來,最有效的途徑仍然是「利用日益高效的數位硬體(如 GPU),來運行不斷優化的 AI 模型和架構」。與其寄望於硬體上的革命性突破,不如將更多精力放在 AI 軟體和演算法本身的創新,尤其是他所倡導的世界模型和 JEPA 架構上。