Don't Miss
AI玩瑪利歐|主流AI模型玩瑪利歐 Claude 3.7表現摘冠
By EJ Tech on March 6, 2025
要評估人工智能(AI)模型性能,坊間有無數的基準測試,打機卻能考驗臨場反應。美國加州大學聖地牙哥分校研究機構Hao AI Lab最近嘗試以GamingAgent,透過Python程式碼操控《超級瑪利歐兄弟》,再比對各款AI推理模型的動作。
在《超級瑪利歐兄弟》遊戲世界,能否安全跳下或墜落身亡,把握時機就是一切。測試結果發現,Anthropic旗下Claude 3.7成績最好,其次是Claude 3.5。至於谷歌(Google)開發的Gemini 1.5 Pro,以及OpenAI GPT-4o表現較差。
支持EJ Tech

