近期AI模型在解決複雜數學或科學問題上表現亮眼,但這些能力對一般使用者來說可能有些遙遠。最近一項有趣的研究,嘗試用更貼近日常生活的謎題來評估AI模型的「推理」能力,這或許能讓我們更了解AI的真實能耐。

這項研究使用美國國家公共廣播電台 (NPR) 的 "Sunday Puzzle" 作為基準。"Sunday Puzzle" 的獨特之處在於,它考驗的是邏輯思維和常識,而非專業知識。Northeastern 大學的 computer science undergraduate, Arjun Guha 解釋說,這些謎題的設計,讓AI模型難以靠「死記硬背」來解決。例如,找出兩個字母順序相同但意思截然不同的單詞,這需要AI模型理解語言的細微差別和上下文。

當然,這種基準測試也有其局限性。"Sunday Puzzle" 主要以美國文化為中心,並且是英文的。此外,謎題是公開的,AI模型可能在訓練過程中接觸過,產生「作弊」的可能性。不過,每週都會有新的謎題釋出,最新的題目應該是模型未曾見過的。研究團隊也計劃持續更新基準,追蹤模型性能的變化。

研究結果顯示,像 OpenAI 的 o1 和 DeepSeek 的 R1 這樣的「推理模型」在解決 "Sunday Puzzle" 謎題方面表現較好。這些模型在給出答案之前會徹底進行事實核查,這有助於它們避免一些常見的AI模型陷阱。然而,這種嚴謹性也帶來了代價,推理模型需要更長的時間才能找到解決方案,通常需要幾秒到幾分鐘的時間。

更有趣的是,DeepSeek 的 R1 模型在某些情況下會直接承認「放棄」,然後給出一個明顯錯誤的答案。Guha 說,在困難的問題上,R1 甚至會說它感到「沮喪」,這讓人覺得非常有趣。這種行為彷彿人類在面對難題時的反應。

文章中也提到了一些模型奇怪的行為,例如給出錯誤答案後立即撤回,然後嘗試提出更好的答案,但再次失敗。或者,它們會陷入「思考」的無限循環,給出毫無意義的解釋,或者直接給出正確答案,然後無緣無故地考慮其他答案。這些現象揭示了目前AI模型在推理和解決問題方面的一些局限性。

Guha 認為,不需要博士學位也能擅長推理,因此應該可以設計出不需要專業知識的推理基準。一個更廣泛的基準測試可以讓更多的研究人員理解和分析結果,從而推動更好的解決方案。此外,由於最先進的模型越來越多地應用於影響每個人的領域,因此讓大眾能夠了解這些模型的能力和局限性至關重要。

總的來說,這項研究不僅為AI領域提供了一個新的評估工具,也引發了關於AI推理、解決問題和「認知崩潰」等有趣問題的討論。隨著AI技術的不斷發展,未來的研究或許可以探索如何讓AI模型更好地理解人類的語言、文化和思維方式,從而開發出更可靠、更實用的AI系統。但同時,這個研究也是一個提醒,即使是最先進的AI模型,在面對人類看似簡單的謎題時,也可能會遇到意想不到的挑戰。

原始連結:https://techcrunch.com/2025/02/05/these-researchers-used-npr-sunday-puzzle-questions-to-benchmark-ai-reasoning-models/