最近,AI 領域有個熱門話題,就是我們是不是太過於注重那些 AI 模型的評測基準(benchmarks)了?TechCrunch 的 AI 專欄作家 Kyle Wiggers 最近就發文討論了這個現象,他點出了現在 AI 評測基準的一些問題,以及我們該如何更理性地看待這些數據。 先說說背景。Elon Musk 的 xAI 公司才剛推出他們最新的模型 Grok 3,號稱在數學、程式設計等各種評測上都超越了 OpenAI 等大廠的模型。但 Kyle Wiggers 卻質疑,這些評測的意義到底有多大?現在的評測常常考驗一些非常艱澀的知識,但這些分數跟 AI 實際上能不能幫我們解決問題,關聯性其實很低。 Wharton 商學院的 Ethan Mollick 教授也在 X 上發文表示,現在最需要的是「更好的測試體系和獨立的測試機構」。他一針見血地指出,現在 AI 公司都是自己公布評測結果,這讓人很難相信這些數據。如果 AI 對於工作越來越重要,我們真的需要更可靠的評估方式。 雖然現在也有一些獨立測試或組織提出新的評測基準,但業界對於這些新標準的價值還沒有共識。有些人認為,評測應該跟經濟影響掛鉤,確保 AI 真的能產生價值;但也有人覺得,採用率和實用性才是最重要的指標。 Kyle Wiggers 建議,除非 AI 技術出現重大突破,不然我們或許應該減少對新模型和評測基準的關注,免得自己被這些數字沖昏頭。 除了討論評測基準,文章也提到了近期 AI 領域的一些重要新聞和研究,我覺得這些資訊也很有價值: * **OpenAI 嘗試「解除審查」ChatGPT:** OpenAI 正在調整 AI 開發策略,開始擁抱「知識自由」,也就是說,即使話題再敏感或具爭議性,他們也願意讓 AI 涉足。這個轉變非常值得關注,因為它可能會影響 AI 未來的發展方向。 * **Mira Murati 的新創公司:** 前 OpenAI 技術長 Mira Murati 創立了一家名為 Thinking Machines Lab 的公司,目標是開發工具,讓 AI 能夠「為 [人們] 的獨特需求和目標服務」。這代表 AI 的發展方向可能會更加個人化和客製化。 * **Grok 3 來了:** 除了發布 Grok 3,xAI 也推出了適用於 iOS 和網頁的 Grok 應用程式的新功能。這顯示 AI 的應用正在加速普及,越來越容易接觸到一般使用者。 * **Meta 的 LlamaCon 大會:** Meta 宣布將在今年春天舉辦首屆以生成式 AI 為主題的開發者大會,名為 LlamaCon。這代表 Meta 將加大在生成式 AI 領域的投入,Llama 系列模型也將扮演更重要的角色。你可以在<a href="https://www.theverge.com/2024/3/21/24106640/meta-llamacon-generative-ai-developer-conference">The Verge 的報導</a>找到更多資訊。 * **AI 與歐洲的數位主權:** OpenEuroLLM 是一個由約 20 個組織組成的合作項目,目標是建立「一系列用於歐洲透明 AI 的基礎模型」,以保護所有歐盟語言的「語言和文化多樣性」。這顯示歐洲國家開始重視 AI 的自主性,希望建立自己的 AI 生態系統。 * **OpenAI 的 SWE-Lancer 評測基準:** OpenAI 的研究人員創建了一個新的 AI 評測基準 SWE-Lancer,專門評估 AI 系統的程式設計能力。這個評測包含了超過 1,400 個自由軟體工程任務,涵蓋範圍很廣,從錯誤修復、功能部署到技術實施建議都有。根據 OpenAI 的數據,目前表現最好的 AI 模型 Anthropic 的 Claude 3.5 Sonnet 在 SWE-Lancer 上的得分只有 40.3%,這意味著 AI 在程式設計方面還有很大的進步空間。想更深入了解,可以參考<a href="https://openai.com/research/swe-lancer">OpenAI 的研究</a>。 * **中國公司 Stepfun 的 Step-Audio 模型:** 一家名為 Stepfun 的中國 AI 公司發布了一個「開放」的 AI 模型 Step-Audio,可以理解和生成多種語言的語音。Step-Audio 支援中文、英文和日文,並允許使用者調整合成音訊的情感甚至方言,包括唱歌。這代表 AI 在語音處理方面取得了顯著進展,未來可能會出現更多有趣的應用。 * **Nous Research 的 DeepHermes-3 Preview 模型:** AI 研究團隊 Nous Research 發布了據稱是首批統一推理和「直覺語言模型能力」的 AI 模型之一。DeepHermes-3 Preview 模型可以開啟和關閉長「思維鏈」,以提高準確性,但會增加一些計算量。這個模型代表 AI 在推理能力方面的一個新方向,值得持續關注。 總結來說,這篇文章提醒我們,不要盲目相信 AI 評測基準,而是要更全面地看待 AI 技術的發展。評測基準很重要,但它們並不能完全代表 AI 的實際能力。我們應該更關注 AI 在實際應用中的表現,以及它對社會的影響。正如 Ethan Mollick 所說,我們需要更好的評估方法和更獨立的評估機構,才能更準確地了解 AI 的優缺點,並將它應用於有益於社會的領域。
原始連結:https://techcrunch.com/2025/02/19/this-week-in-ai-maybe-we-should-ignore-ai-benchmarks-for-now/