Don't Miss

AI推理｜AGI新基準試專考人類簡單任務

By 信報財經新聞 on March 26, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech」

人工智能（AI）研究團隊ARC Prize宣布，推出第二版通用人工智能（AGI）評估基準ARC-AGI。是次更新大幅提高AI推理系統的挑戰門檻，目標是推動更有效率、具普遍化能力的系統發展，縮短業界邁向AGI的時間。

與業界其他基準不同，ARC-AGI並不重視測試博士級的專家技能，反而留意AI難以完成、但普通人可以簡單克服的難題，例如符號語義理解、動態組合推理，或情景化規則應用等，冀藉此揭示那些無法單靠擴大模型規模彌補的能力缺陷。

理解符號語義及組合推理

新版ARC-AGI包含1000筆訓練資料，以及三組各120筆的評估集，皆經由實驗證實具備人類可解性，與前代相比，進一步提高任務多樣性及校準度，並排除了容易遭暴力破解的題目。評分採取pass@2機制，透過兩次測試消除個別任務的潛在歧義。

按照ARC-AGI第二版的測試結果，兩名人類合力可以完成100%的題目，每項任務成本僅為17美元（約132.6港元）。對比之下，即使是OpenAI的o3-low和o1-pro這兩個先進模型，成功率分別只有4%和1%，每項任務成本高達200美元；至於GPT-4.5更無法完成任何任務。

ARC Prize提到，智能不僅限於解難，亦關乎資源的使用效率，未來將以此為核心指標，量化AI在成本與能力之間的表現，促進真正具通用性且成本可控的AI發展。同時，配合新版ARC-AGI的年度競賽，將於數據分析平台Kaggle網上舉行。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AGI AI ARC Prize GPT-4.5 OpenAI

Tweet

Pin It

Related Posts

數碼科技體驗館｜數碼港17間園區企業展成果

數碼科技體驗館｜數碼港17間園區企業展成果

DeepMind｜聘專家安全開發AGI

DeepMind｜聘專家安全開發AGI

嘲諷科技文化｜矽谷過路處按鈕被駭遭惡搞

嘲諷科技文化｜矽谷過路處按鈕被駭遭惡搞

AI代勞損信任｜哈佛教授提醒易遭識破損信任企業CEO與員工交流忌以AI代勞

AI代勞損信任｜哈佛教授提醒易遭識破損信任企業CEO與員工交流忌以AI代勞

Latest News

實踐可持續建築減廢方案（鄧淑明博士）
據發展局局長甯漢豪指出，近年香港的公營部門及私營公司，每年建築工程費用總開支達到3000億元，可為業界提供實踐可持續建築的黃金機會，把「ESG（環境、社會及管治）原則」納入大型建築項目，筆者深表認同。

Posted April 17, 2025

0

數碼科技體驗館｜數碼港17間園區企業展成果
數碼港「數碼科技體驗館」正式開幕，即日起向企業及公眾開放。當中設有「提升效率」、「安全」、「互動體驗區」三大展區，展示人工智能（AI）、區塊鏈及Web3.0等最新前沿科技方案，涵蓋教育、醫療、智慧城市等領域的應用。

Posted April 17, 2025

0

DeepMind｜聘專家安全開發AGI
科技巨企谷歌（Google）旗下人工智能（AI）研究團隊DeepMind，在英國倫敦公開招募「後AGI」研究科學家，研究通用人工智能（AGI）、超級人工智能（ASI）及機器意識，以至AGI對人類社會基礎的影響。

Posted April 17, 2025

0

離心砲｜美初創研建離心炮發射衞星
美國加州初創SpinLaunch主力研發巨型離心砲，計劃明年起發射數百顆微型衞星，在近地軌道（LEO）部署通訊系統Meridian Space。

Posted April 17, 2025

0

嘲諷科技文化｜矽谷過路處按鈕被駭遭惡搞
美國加州三藩市灣區等矽谷一帶，上周末起相繼有人發現行人過路處按鈕被駭，植入多條以人工智能（AI）合成的模仿語音，聲稱自己為Meta行政總裁朱克伯格、億萬富豪馬斯克，以嘲諷科技文化、AI及企業過度擴張等行為。

Posted April 17, 2025

0

人形機械人｜眾擎PM01機械人售價19萬
世界級網紅「甲亢哥」（IShowSpeed）早前訪華，於深圳與「眾擎PM01」機械人共跳「斧頭舞」。最近這款人形機械人量產，在眾擎京東自營旗艦店上架，售價18.8萬元人民幣，預計到今年6月底才有貨。

Posted April 17, 2025

0

AI代勞損信任｜哈佛教授提醒易遭識破損信任企業CEO與員工交流忌以AI代勞
最新一期《哈佛商業評論》刊登文章，探討企業高層及行政總裁（CEO）使用人工智能（AI）工具代筆，或引發對內部信任的損害。

Posted April 17, 2025

0

POPULAR POSTS

假AI？｜美電商菲律賓聘真人扮AI

貿易通｜AI偵破深偽準確率98% 圖像影片換臉變聲無所遁形

 GitHub｜誤封中國斷網19小時

 吉卜力漫畫化掀版權爭議（方保僑）

Meta壟斷案｜正式開審朱克伯格作供

 AI電影節｜35部片入圍周六科大放映知名導演編劇雲集

 嘲諷科技文化｜矽谷過路處按鈕被駭遭惡搞

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe