在 Lex Fridman 近期發布的第 494 集 Podcast 中,NVIDIA 執行長黃仁勳(Jensen Huang)帶來了一場資訊量極大的深度對話。這不單只是一場關於 GPU 架構的硬體展示,更是一份涵蓋企業戰略、AI 擴展定律(Scaling Laws)演進,以及硬核管理哲學的科技界大師課。

在長達數小時的對談中,Lex Fridman 試圖從工程、歷史與人性的交會點來拆解 NVIDIA 的成功方程式。以下是本集核心精華的深入剖析。

不再只是晶片公司:打破阿姆達爾定律的機架級革命

訪談一開場,黃仁勳就點破了一個外界對 NVIDIA 常有的迷思:「我們早就不是一家單純設計晶片的公司了。」

隨著大型語言模型(LLM)的參數動輒突破兆級,單一 GPU 的算力早已觸碰物理天花板。黃仁勳在此引入了一個經典的電腦科學概念——阿姆達爾定律(Amdahl's Law)。這個定律指出,系統的整體效能提升,會受限於系統中最慢的那個環節。當你把數萬顆 GPU 串聯時,如果網路頻寬、記憶體讀取或軟體層面沒有同步加速,那麼花大錢買來的算力就會在無謂的等待中浪費掉。

這正是 NVIDIA 轉向「極限協同設計」(Extreme Co-design)的根本原因。黃仁勳向 Lex 解釋,現在 NVIDIA 的基礎產品單位不再是單一晶片,而是「機架」(Rack)。以最新的 Blackwell 架構 GB200 NVL72 為例,這是一個重達數千磅、包含 130 萬個零件的巨獸——72 顆 Blackwell GPU 透過 NVLink Switch System 以每秒 130 TB 的頻寬互聯,構成目前 NVIDIA 提供的最大規模 NVLink 域。它要求光學、散熱、流體力學、電力分配與軟體網路等各領域的頂尖專家,在同一個房間內解決極度耦合的工程難題。

從市場角度看,這種機架級設計的商業影響力同樣驚人。根據產業分析師的預估,僅 Blackwell GB200 系列 AI 伺服器在 2025 年就可能為 NVIDIA 帶來超過 2,100 億美元的營收,每座機架的售價落在 200 萬至 300 萬美元之間,且需求遠超供給。這不再是賣晶片的生意——這是賣「AI 基礎設施」的生意,而 NVIDIA 正在定義這個市場的遊戲規則。

CUDA 的豪賭:用毛利率換取未來的護城河

回顧歷史,Lex 提問了關於 NVIDIA 最具決定性的一役。2006 年前後,NVIDIA 做出了當時華爾街完全無法理解的決策:將 CUDA 通用運算架構硬塞進每一張 GeForce 消費級顯示卡中。

黃仁勳坦言,這是一個極度痛苦的過程。「當時的投資人問我,為什麼要讓遊戲玩家為他們根本用不到的運算晶片面積買單?」這個決策讓 NVIDIA 的製造成本飆升,毛利率暴跌,市值甚至一度蒸發至僅剩 15 億美元。

但這是一場深謀遠慮的豪賭。黃仁勳的名言是:「我們相信,必須把超級電腦放進每一位研究員與大學生的手中。」正是因為有了龐大的安裝基礎(Install Base),當 2012 年 AlexNet 的研究團隊需要算力來訓練深度學習神經網路時,他們手邊那張便宜的遊戲顯卡,成為了引爆現代 AI 革命的第一根火柴。NVIDIA 犧牲了短期的財報數字,卻買下了未來二十年無人能敵的軟體生態護城河。

這道護城河至今仍在發揮作用,但其性質正在發生微妙轉變。根據 2025 年的產業分析,CUDA 生態系統面臨的最具系統性的挑戰來自兩個方向:一是 AMD 的 ROCm 軟體堆疊日趨成熟,二是 OpenAI 的 Triton 等硬體無關抽象層的興起,它們正在試圖將底層硬體商品化,降低軟體鎖定效應。然而,軟體護城河的收窄,已被硬體效能差距的急劇擴大所抵消——NVIDIA 最新架構在次世代 AI 任務(尤其是複雜推理)上的表現,不是漸進式的改善,而是數量級的躍升。AMD 和 Intel 雖然已成功推出可用的替代方案,在特定市場區間提供有吸引力的性價比,但以客觀指標衡量,它們在峰值效能上仍落後 NVIDIA 一個完整的架構世代。

換句話說,CUDA 的護城河形態正在演變——從「唯一的選擇」轉變為「在最頂端仍然是無可替代的選擇」。對於訓練和部署最大規模、最前沿的 AI 模型,NVIDIA 依然是唯一能提供完整端到端解決方案的公司。

顛覆傳統的透明管理:沒有一對一會議的 60 人團隊

在企業管理方面,黃仁勳的做法絕對會讓傳統商學院教授搖頭。他手下有高達 60 位直接匯報的直屬下屬,但他從不舉行一對一會議(1-on-1s)。

「如果一件事情具有戰略意義,為什麼不讓所有人同時聽到?」黃仁勳強調「公開推理」(Reasoning Publicly)的重要性。當公司遇到挑戰時,他會在團隊面前展示他推導結論的思考過程。這不僅是下達指令,而是在形塑整個組織的「信仰系統」(Belief System)。

根據 Fortune 雜誌在 2024 年的深度報導,這種管理風格的邏輯在於:傳統的層級式資訊傳遞會在每一層產生失真與延遲,而黃仁勳選擇讓所有高層同時接收相同的原始訊號。CNBC 的報導則指出,黃仁勳在史丹佛大學的演講中進一步解釋:「我從不主動安排一對一會議,除非有人主動要求。」這種做法消除了資訊的不對稱性,讓每個人都能根據相同的事實基礎做出判斷。

他同時極度厭惡矽谷常見的「年度戰略規劃」或「高度機密的穀倉專案」。他認為,一旦市場或技術有了新的洞察,就應該立刻在全公司內部廣播,讓組織自然適應。這種極度扁平、資訊絕對透明的架構,正是 NVIDIA 能在 AI 浪潮中保持如新創公司般敏捷的關鍵——一家擁有超過三萬名員工、市值數兆美元的公司,卻能維持新創般的決策速度,這本身就是一種組織工程的奇蹟。

AI 的下一步:推論階段的系統二運算爆發

這場對談中最具前瞻性的部分,莫過於對 AI 擴展定律(Scaling Laws)的討論。目前的 AI 大多依賴預訓練(Pre-training)階段餵入的海量資料,這類似於人類的直覺反應——諾貝爾經濟學獎得主康納曼(Daniel Kahneman)所謂的「系統一」(System 1)。

黃仁勳用一個生動的「微波爐說明書」比喻未來的 AI。如果丟給你一堆微波爐零件和手冊,你無法靠直覺秒組裝完成;但如果給你時間去閱讀、思考、試錯並自我修正,你最終能辦到。這就是未來的 AI Agent(代理)——具備「系統二」(System 2)的深度推理能力。

「未來的 AI 不再只是『檢索現成文件』,而是『當場生成答案』。」黃仁勳指出,未來的 AI 在「推論階段」(Test-time/Inference)會消耗龐大的算力來拆解複雜問題。

黃仁勳的這番論述,在此後的一年多裡已被產業發展所驗證。推論時間擴展(Inference-time Scaling)已成為 AI 研究的主導前沿。2025 年初,DeepSeek 發布的 R1 模型證明了純粹的強化學習可以產生與 OpenAI o1 匹配的推理能力,其在 AIME 基準測試中的準確率從 15.6% 躍升至 71%,靠的正是擴展推論時的思維鏈(Chain-of-thought)。ThreadWeaver 則引入了平行推理機制,在不犧牲準確度的前提下將延遲降低 1.5 倍。P1 物理模型更成為首個在國際物理奧林匹克(IPhO 2025)上取得金牌水準成績的開源模型。

更深遠的影響在於基礎設施端。分析師預估,到 2026 年,推論需求將超越訓練需求達 118 倍,到 2030 年推論將佔據 AI 總算力的 75%。這意味著不僅訓練 AI 需要算力,未來在使用 AI 時的算力需求同樣深不見底——而這正是 NVIDIA 持續成長的第二條增長曲線。GPU 的採購策略正在從「訓練優先」轉向「推論優化」,這場典範轉移將重塑整個半導體供應鏈的格局。

能源焦慮、閒置電力與台積電的奇蹟

隨著 AI 算力需求無止境擴張,能源問題成為 Lex 與黃仁勳討論的另一個焦點。傳統資料中心為了確保 99.999% 的服務不中斷,必須建在電網極度穩定、通常也是人口密集的區域。

但黃仁勳提出了一個顛覆性的解方:「優雅降級」(Graceful Degradation)。未來的 AI 工廠不一定是服務即時對話,更多是在背景默默生產「智慧」。因此,這些資料中心可以建在偏遠、擁有大量「閒置能源」(Stranded Power,如無法併網的太陽能或風能)的地方。當當地電網吃緊時,AI 工廠可以自動將效能降載至 80%,將電力還給民生使用,從根本上改變了運算與電網的共生關係。

這個觀點值得深思。傳統雲端服務商(AWS、Azure、GCP)的資料中心必須保證毫秒級的回應時間,因此對電力穩定性的要求近乎偏執。但黃仁勳重新定義了「AI 工廠」的本質——它不是在回應人類的即時請求,而是在「製造」智慧產品(如預先生成的推論結果、合成資料、模型微調)。這種工作負載天然具備彈性,允許算力隨電力供應動態調整。如果這個願景成真,它將解鎖全球數以百計的偏遠能源站點,將原本無法經濟利用的再生能源轉化為 AI 算力的燃料。

此外,黃仁勳也特別向台積電(TSMC)致敬。他強調,NVIDIA 每年都會大幅度更改晶片架構,並要求極端複雜的先進封裝(如 CoWoS),台積電展現出的敏捷度與執行力,是整個 AI 產業鏈背後真正的無名英雄。事實上,Blackwell GB200 NVL72 的量產瓶頸很大程度上取決於台積電 CoWoS 先進封裝的產能擴充速度。Super Micro 等系統整合商直到 2025 年初才開始大量出貨 Blackwell 機架,這背後反映的正是先進封裝產能的制約。NVIDIA 與台積電之間的關係,已經超越了傳統的晶圓代工客戶關係,更像是一種深度綁定的戰略共生。

擁抱痛苦的哲學:光速法則與容忍尷尬的超能力

在訪談尾聲,Lex 探詢了黃仁勳個人的底層思維邏輯。黃仁勳分享了他的「光速法則」(Speed of Light)——這是一種極致的第一性原理(First Principles)思考。他總是問團隊:「在物理定律的極限下,這件事最好能做到什麼程度?」並以此作為產品開發的終極標竿。

令人印象深刻的是,他將「遺忘」視為一種企業家必備的超能力。黃仁勳笑稱自己擁有極高的「對尷尬的容忍度」(Tolerance for embarrassment)。無論是過去慘痛的失敗,還是昨日輝煌的成功,他都能迅速忘卻,每天醒來只專注於眼前的挑戰。

「偉大,是在極限的痛苦與折磨中鍛鍊出來的。」他如此總結。沒有人能輕輕鬆鬆改變世界,擁抱並承受痛苦,就是通往偉大的唯一道路。

這句話或許可以作為理解 NVIDIA 整體戰略的鑰匙。從 2006 年不顧華爾街反對硬推 CUDA,到今天押注機架級運算和推論時間擴展,黃仁勳一直在做同一件事:承受短期的痛苦,換取長期的結構性優勢。而這種思維方式,恰恰是大多數企業——尤其是上市公司——最難複製的東西。


後記:GTC 2026 的驗證——Vera Rubin 平台與推論晶片戰國時代

值得注意的是,黃仁勳在這場 Lex Fridman 訪談中所描繪的願景,在 2026 年 3 月的 GTC 大會上已獲得了具體的產品化驗證。NVIDIA 正式發表了 Vera Rubin 平台——一個由七顆全新晶片組成的超級運算架構,涵蓋 Rubin GPU、Vera CPU、NVLink 6 交換器、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6 乙太網路交換器,以及透過收購整合的 Groq 3 LPU 推論加速器。這不再是「機架級」運算,而是「POD 級」運算——多個機架作為一台巨大的、一致的超級電腦協同運作。

數字令人瞠目:Vera Rubin NVL72 相較於 Blackwell 平台,訓練大型混合專家模型(MoE)僅需四分之一的 GPU 數量,推論吞吐量每瓦提升高達 10 倍,每個 token 的成本降至十分之一。Sam Altman 公開表示「NVIDIA 基礎設施是我們持續推進 AI 前沿的基石」,Dario Amodei 則強調 Vera Rubin 提供了 Anthropic 推進安全與可靠性所需的運算、網路與系統設計。當兩大 AI 實驗室的執行長同時為一個硬體平台背書,這本身就說明了 NVIDIA 在產業鏈中不可撼動的地位。

然而,推論市場的競爭格局也在快速演變。根據 Futurum Group 的調查,2025 年 GPU 佔資料中心運算支出的 58%,但 2026 年 XPU(非 GPU 也非 CPU 的專用加速器)的成長速度已達 22%,超越 GPU 的 19%。NVIDIA 以 200 億美元授權 Groq 技術的舉措,正是對這一趨勢的戰略回應——與其讓專用推論晶片蠶食市場,不如將其納入自己的生態系統。AMD 收購了 Untether AI 的工程團隊,Intel 則以約 16 億美元收購 SambaNova。分析師指出,訓練是成本中心,而推論是利潤中心——誰能以最低延遲、最低成本、最高能效交付推論結果,誰就能在這場軍備競賽中佔據制高點。

這場推論晶片的戰國時代,恰恰印證了黃仁勳在訪談中的核心論點:AI 的算力需求不會隨著訓練完成而結束,推論階段的算力消耗將呈現指數級增長。而 NVIDIA 從 CUDA 生態到 Blackwell 機架、再到 Vera Rubin POD 級平台的演進軌跡,展現的是一種罕見的戰略一致性——始終在所有競爭者意識到新典範之前,就已經佔據了制高點。這不僅僅是技術領先,而是一種系統性的戰略遠見。

編輯後記:未解之謎與推薦資源

雖然這場對談極度精彩,但仍有一些問題在空中迴盪。Lex 曾試探性地詢問,當 AI 具備「系統二」推理能力後,是否會引發不可控的對齊(Alignment)風險?黃仁勳對此抱持著科技樂觀主義,認為這本質上仍是可被工程化的電腦科學問題,但並未深入探討具體的防禦機制。在推論時間擴展日益成為主流的今天,這個問題只會變得更加迫切——當模型可以在推論時「深度思考」,其行為的可預測性和可控性也將面臨新的挑戰。

本集提及與延伸推薦資源:

  1. NVIDIA Blackwell Architecture Technical Brief:深入了解「極限協同設計」與 NVL72 機架架構的工程細節。
  2. 《快思慢想》Thinking, Fast and Slow — Daniel Kahneman:理解 AI 從 System 1 走向 System 2 的認知科學基礎。
  3. TSMC CoWoS 先進封裝技術:了解當今最頂級 AI 晶片為何非得仰賴台積電不可。
  4. DeepSeek-R1 Technical Report:推論時間擴展如何以更低成本達到與 OpenAI o1 相當的推理能力。

原始影片:https://youtu.be/vif8NQcjVf0