最近,xAI 的 Grok 3 模型在基準測試中表現亮眼,但隨之而來的爭議也浮上了檯面。這場風波凸顯了 AI 模型評估的複雜性,以及其中可能存在的陷阱。 事情的起因是 xAI 在官方部落格發布了一張圖表,展示 Grok 3 在 AIME 2025(美國數學邀請賽)上的表現。AIME 2025 是一個用來評估 AI 模型數學能力的基準測試。圖表顯示,Grok 3 的兩個版本,Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning,在 AIME 2025 上的得分都超過了 OpenAI 最強大的模型 o3-mini-high。 然而,OpenAI 的員工很快就質疑了這張圖表的公正性。他們指出,xAI 的圖表刻意省略了 o3-mini-high 在 "cons@64" 設置下的 AIME 2025 得分。"cons@64" 代表 "consensus@64",這是一種常見的優化技巧,能提高模型在基準測試中的分數。簡單來說,它允許模型針對每個問題嘗試 64 次,並將最常出現的答案作為最終答案。這種方法通常可以顯著提高模型的基準測試分數。 批評者認為,xAI 省略 "cons@64" 數據的做法,可能會誤導大眾,讓人以為 Grok 3 的性能優於 o3-mini-high。事實上,根據資料顯示,Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 在 AIME 2025 的 "@1"(也就是模型在基準測試中獲得的原始分數)得分均低於 o3-mini-high。Grok 3 Reasoning Beta 甚至略遜於 OpenAI 的 o1 模型 (設定為 "medium" 計算)。 面對質疑,xAI 的共同創辦人 Igor Babushkin 在 X 上反駁說,OpenAI 過去也曾發布過類似的、具有誤導性的基準測試圖表,儘管那些圖表只是比較 OpenAI 自己的模型。一位較為中立的第三方人士甚至製作了一張更「準確」的圖表,展示了幾乎所有模型在 "cons@64" 設置下的性能。你可以參考 <a href="https://twitter.com/teortaxesTex/status/1879956629406347338">Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex) February 20, 2025</a> 這位網友的推文,裡面有更詳盡的比較。 這場爭論也突顯了基準測試的局限性。AI 研究員 Nathan Lambert 指出,一個重要的指標往往被忽略,那就是模型達到最佳分數所需的計算(和金錢)成本。即使 Grok 3 在特定基準測試中表現出色,但如果它需要比其他模型更多的計算資源,那麼它的實際價值可能會大打折扣。 這起事件告訴我們,AI 模型的評估是一個複雜且充滿爭議的領域。基準測試可以提供有用的信息,但它們也可能具有誤導性,特別是在缺乏透明度和標準化的情況下。未來,我們在評估 AI 模型時,應該更加關注計算成本等因素,以便更全面地了解其真實性能。簡而言之,看數據之外,也要看背後付出的代價。

原始連結:https://techcrunch.com/2025/02/22/did-xai-lie-about-grok-3s-benchmarks/