谷歌新模型Gemini 變身AI生活助理
原文刊於信報財經新聞「EJ Tech 創科鬥室」
谷歌(Google)周三發布下一代模型Gemini 2.0,支援多模態輸入及輸出,專為人工智能(AI)代理而設,標榜能獨立完成複雜任務。首個預覽體驗版Gemini 2.0 Flash,在關鍵基準測試中,其速度達到Gemini 1.5 Pro兩倍。現設聊天版本供全球用戶使用,開發人員亦可在AI Studio及Vertex AI平台,測試實驗性多模態版本,預計明年1月發布完整版。
下月發布完整版
對一般手機用戶而言,Project Astra這AI代理最為實用,它借助Gemini 2.0模型,結合Google搜尋、Lens及地圖,成為日常生活得力助手。示範影片可見,首先打開手機鏡頭,朝向衣領標籤的洗衣符號,AI就會分析洗滌處理方式。下一步,對準洗衣機的旋鈕開關,AI就會透過鏡頭,指導用戶操作機器,正確地清洗手上的衣物。

此外,Google推出研究原型Project Mariner,為旗下首個可在網上採取行動的AI代理,可以控制Chrome網頁瀏覽器,能夠像人類一樣跟網站互動,在熒幕移動滑鼠、點擊按鈕並填寫表單,自動預訂航班、酒店、購買家居用品、尋找食譜,以及其他需要人手點擊的網上任務。舉例,用戶可在試算表寫下5間公司名稱,再要求AI瀏覽其網站,再記低其聯絡資料。

為考驗Gemini 2.0構建的AI代理,Google與芬蘭遊戲開發商Supercell合作,讓AI推理《部落衝突》等遊戲畫面,再建議相應的作戰策略。現實世界方面,機械人更可透過鏡頭,分析Jenga層層疊結構,指揮機械手抽出木塊,再堆疊在建築頂部。

為玩家提供遊戲攻略
如果是Gemini Advanced付費用戶,更新後的Gemini增加「深度研究」功能,透過「高級推理」及100萬Token的上下文視窗,深入分析網上的相關資訊,適合用作搜集論文素材。
另一方面,Google剛推出AI加速器晶片Trillium,屬於第六代的「張量處理器」(TPU),即日供Google Cloud客戶使用。晶片專為訓練及推理Gemini 2.0模型而設,峰值計算效能比上代TPU v5e提升4.7倍,同時能源效率改善67%。Google提到,可把超過10萬顆Trillium晶片,搭配Jupiter網絡架構,再串連成單一的系統,傳輸速度高達每秒13 Petabits,有望建立全球最強大AI超級電腦之一。

支持EJ Tech

