You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

AI推理|AGI新基準試專考人類簡單任務

By on March 26, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech

人工智能(AI)研究團隊ARC Prize宣布,推出第二版通用人工智能(AGI)評估基準ARC-AGI。是次更新大幅提高AI推理系統的挑戰門檻,目標是推動更有效率、具普遍化能力的系統發展,縮短業界邁向AGI的時間。

與業界其他基準不同,ARC-AGI並不重視測試博士級的專家技能,反而留意AI難以完成、但普通人可以簡單克服的難題,例如符號語義理解、動態組合推理,或情景化規則應用等,冀藉此揭示那些無法單靠擴大模型規模彌補的能力缺陷。

AI無法有效解答動態組合推理題目。(ARC Prize網上圖片)

理解符號語義及組合推理

新版ARC-AGI包含1000筆訓練資料,以及三組各120筆的評估集,皆經由實驗證實具備人類可解性,與前代相比,進一步提高任務多樣性及校準度,並排除了容易遭暴力破解的題目。評分採取pass@2機制,透過兩次測試消除個別任務的潛在歧義。

按照ARC-AGI第二版的測試結果,兩名人類合力可以完成100%的題目,每項任務成本僅為17美元(約132.6港元)。對比之下,即使是OpenAI的o3-low和o1-pro這兩個先進模型,成功率分別只有4%和1%,每項任務成本高達200美元;至於GPT-4.5更無法完成任何任務。

ARC Prize提到,智能不僅限於解難,亦關乎資源的使用效率,未來將以此為核心指標,量化AI在成本與能力之間的表現,促進真正具通用性且成本可控的AI發展。同時,配合新版ARC-AGI的年度競賽,將於數據分析平台Kaggle網上舉行。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們