最近 Google DeepMind 的 AI 系統 AlphaGeometry2 在解數學題方面火了一把,特別是在國際數學奧林匹克 (IMO) 的幾何問題上,表現簡直亮眼。它不僅比之前的 AlphaGeometry 更強,甚至在某些測試中還超過了 IMO 金牌得主。這讓人不禁開始思考,AI 在數學推理和解決問題的能力上,到底能達到什麼樣的程度?

AlphaGeometry2 的厲害之處,在於它結合了 Google Gemini 系列的語言模型和符號引擎。你可以把 Gemini 模型想像成一個預測大師,它能預測解幾何題時可能需要加哪些輔助線或構造,像是點、線、圓等等。而符號引擎就像一位嚴謹的數學家,利用數學規則來推導出最終的解決方案。這種結合讓 AlphaGeometry2 能從大量的幾何定理和證明中學習,並有效地找到解題的方法。

更有趣的是,因為訓練 AI 需要大量的幾何數據,DeepMind 團隊自己創建了一個包含超過 3 億個定理和證明的合成數據集。這個數據集讓 AlphaGeometry2 學習到了各種幾何概念和證明技巧。結果呢?在測試中,它能解決過去 25 年 IMO 競賽中 84% 的幾何問題,比金牌得主的平均分數還高。

不過,AlphaGeometry2 也不是萬能的。雖然它結合了神經網路和符號推理,在幾何問題上表現出色,但對於包含變量點、非線性方程式和不等式的問題,它就束手無策了。而且,在更難的 IMO 提名問題上,它的表現也會下降。DeepMind 團隊發現,AlphaGeometry2 在一組由數學專家提名、但還沒出現在競賽中的 IMO 難題中表現較差,29 題中只解決了 20 題。

這個研究結果也引發了一個關於 AI 發展方向的有趣討論:AI 應該基於符號操作,還是更像人腦的神經網路?AlphaGeometry2 採用了一種混合方法,這可能意味著將兩者結合起來,才是通往通用 AI 的一條可行之路。Vince Conitzer 提到,儘管語言模型在某些方面取得了進展,但仍然很難解決一些簡單的常識問題,這顯示我們對 AI 系統的理解還很有限。AlphaGeometry2 的成功,或許就暗示了符號操作與神經網路結合的混合策略,可能才是未來 AI 發展的關鍵。

AlphaGeometry2 的成功無疑是 AI 在數學領域的一大進展,但同時也引發了一些重要的問題。例如,我們應該如何評估 AI 在解決複雜問題上的能力?AI 的發展將如何影響教育和科學研究?此外,我們還需要關注 AI 的潛在風險,例如偏見、安全性和倫理問題。DeepMind 團隊發現,AlphaGeometry2 的語言模型在沒有符號引擎的幫助下,也能生成問題的部分解決方案。儘管如此,團隊認為在模型速度和幻覺問題得到改善之前,符號引擎仍然是數學應用中不可或缺的工具。

總體來說,AlphaGeometry2 的研究成果不僅展示了 AI 在數學領域的巨大潛力,也為我們提供了一個思考 AI 發展方向的新視角。透過結合神經網路和符號推理,我們可以構建更強大、更可靠的 AI 系統,並將其應用於更廣泛的領域。但同時,我們也必須謹慎評估 AI 的潛在風險,並確保其發展符合倫理和社會價值觀。AlphaGeometry2 的成功,代表 AI 在特定領域的卓越進展,同時也提醒我們,在追求 AI 技術突破的同時,必須關注其帶來的更廣泛的影響。

原始連結:https://techcrunch.com/2025/02/07/deepmind-claims-its-ai-performs-better-than-international-mathematical-olympiad-gold-medalists/