最近關於人工智慧 (AI) 的發展,有個有趣的爭論點:用智商 (IQ) 測驗來評估 AI 能力到底合不合適?OpenAI 的 CEO Sam Altman 甚至用智商來當作 AI 進展的指標,但很多專家跳出來說,這樣衡量 AI 根本是誤導。
為什麼呢?簡單來說,智商測驗本來就是設計來評估人類認知能力的,它背後的邏輯和評估方式跟 AI 的運作方式差很大,硬要套用根本是牛頭不對馬嘴。
牛津大學研究科技與監管的 Sandra Wachter 就說,把智商測驗用在 AI 身上,就像拿蘋果跟橘子比。智商測驗主要評估的是邏輯和抽象推理能力,但現實生活中解決問題的能力 (也就是所謂的「實用智能」) 反而沒辦法評估到。她舉例說,汽車和潛水艇在特定領域表現超越人類,但我們不會因此覺得它們整體智能比人類高吧?
更何況,智商測驗本身就有文化偏見,特別是偏重西方文化知識。華盛頓大學的 Os Keyes 認為,智商測驗很容易被「破解」,尤其對那些擁有龐大記憶體和運算能力的 AI 來說。很多 AI 模型在訓練的時候,資料庫裡就已經包含了大量的智商測驗題目,這讓它們在測驗中佔盡優勢。倫敦國王學院的 Mike Cook 也提到,AI 可以不斷學習和記憶測驗模式,這根本是人類做不到的。
所以,AI 解題的方式跟人類很不一樣。 Cook 舉了烏鴉使用工具的例子,就算烏鴉能解決特定問題,也不代表牠能考上哈佛大學。人類在解決問題的時候,需要同時處理很多任務和干擾,但 AI 可以更專注、更有效率地處理特定任務。AI Now Institute 的 Heidy Khlaaf 認為,拿 AI 跟人類的計算能力比較並不合理,因為在很多方面,AI 早已超越人類。
現在社群媒體上甚至出現了「AI 網紅」,他們會幫 AI 模型做智商測驗並排名,這也反映出大家對 AI 能力的片面理解。
因此,我們需要更適合的 AI 評估標準。現在的基準測試通常只看 AI 在特定任務上的表現,忽略了 AI 的通用智能和適應能力。未來的評估標準應該更全面地衡量 AI 在不同領域的表現,並且考慮到倫理、社會和安全等影響。過度強調 AI 的「智商」,可能會導致我們對 AI 能力產生誤解,進而產生不切實際的期望和擔憂。 <a href="">我們需要更理性地看待 AI 的發展,並且關注它在社會中可能產生的影響</a>,例如就業、隱私和安全等問題。
總而言之,智商測驗真的不適合用來評估 AI。未來的 AI 發展需要更科學、更全面的評估體系,這樣才能確保我們充分利用 AI 的潛力,同時避免潛在的風險。隨著 AI 技術不斷進步,我們需要持續反思和調整評估方法,才能更好地理解和引導 AI 的發展方向。評估 AI 不能只看單一指標,更要關注它在實際應用中的表現和影響。
原始連結:https://techcrunch.com/2025/02/05/why-iq-is-a-poor-test-for-ai/