Don't Miss

DeepMind兩機械人完美執行現實任務

By 信報財經新聞 on March 14, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech」

當機械人結合人工智能（AI），能協助人類執行體力任務，例如處理家務等工作。谷歌（Google）旗下AI部門DeepMind在周三（12日）介紹兩種新AI模型Gemini Robotics及Gemini Robotics-ER，為新一代輔助機械人奠定基礎。為了對人類有幫助，谷歌認為機械人的AI模型需要具備3個主要特質，分別是通用性、互動性及靈巧性，在現實世界應付更廣泛任務。

谷歌全新Gemini Robotics AI模型，將作為Apollo人形機械人的「大腦」。（YouTube影片擷圖）

以Gemini 2.0為基礎

Gemini Robotics以Gemini 2.0大型語言模型為基礎，整合「視覺、語言、動作」（VLA）能力。即使事前未經訓練，機械人亦能處理視覺資訊、理解語言指令，執行更精確的物理任務，例如摺紙或把零食放入密實袋。另一款Gemini Robotics-ER，屬於先進視覺語言模型。ER即是「具身推理」縮寫，具有先進空間理解能力，包括偵測並指向物體部分、尋找對應點及偵測3D物體。例如展示咖啡杯時，AI模型可直觀地知道，可用兩根手指捉住杯柄，以及靠近杯子的安全軌跡。

谷歌與美國得州科企Apptronik合作，把Gemini機械人的AI模型，作為後者Apollo人形機械人的「大腦」，同時向Agile Robots、Agility Robots、Boston Dynamics及Enchanted Tools等科企，供值得信賴的測試人員使用。受到科幻小說家艾西莫夫（Isaac Asimov）筆下《機械人三定律》（Three Laws of Robotics）啟發，DeepMind去年推出「機械人憲法」（Robot Constitution）框架，並發布一個ASIMOV數據集，讓研究人員評估機械人的動作安全。

與此同時，谷歌同場加映輕量級開放模型Gemma 3，可以輕鬆分析圖片、文字、短影片等應用，設有10億（1B）、40億（4B）、120億（12B）及270億（27B）4種參數規格，標榜可在單一圖像處理器（GPU）或張量處理器（TPU）運行。模型上下文窗口可輸入12.8萬Tokens，在LMArena基準測試的表現，超越Llama-405B、DeepSeek-V3及o3-mini，經過預訓練可增至超過140種語言。用戶可在Google AI Studio試用Gemma 3，亦可在Kaggle或Hugging Face平台下載模型。

Gemini Robotics示範影片可見，機械人可把零食放入袋子中。（YouTube影片擷圖）

推Gemma 3可分析圖像答問

日常應用方面，Gemma 3可分析圖像解答問題，例如上傳一張冷氣遙控器相片，再問AI模型：「我需要暖和起來，哪個按鈕可調高溫度？」之後AI就會回答「最有可能調高溫度的按鈕是暖房（Danbou），帶有加號（+）的按鈕或會調節溫度。此外，谷歌開發人員在Gemma 3模型的基礎上，構建40億參數的影像安全檢查器ShieldGemma 2，針對危險內容、露骨色情、暴力三種分類設下安全標籤。

Gemini Robotics-ER擅長體現推理能力，尋找對應點及偵測3D物體。（Google網上圖片）

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI DeepMind feature Gemini Robotics Google

Tweet

Pin It

Related Posts

LLM人格評估｜理大新系統評估大模型人格

LLM人格評估｜理大新系統評估大模型人格

Deel｜平台助企業跨國實時支薪

Deel｜平台助企業跨國實時支薪

法律AI｜商湯夥中大研法律資訊AI

法律AI｜商湯夥中大研法律資訊AI

AI不當回應｜GPT-4.1建議用戶入侵賬號解悶

AI不當回應｜GPT-4.1建議用戶入侵賬號解悶

Latest News

高速網絡釋放電玩潛能（林國誠）
任天堂正式宣布全新一代遊戲主機Switch 2將於6月隆重登場，引發全球遊戲迷熱烈期待。作為繼承Switch王者地位的新世代掌機，Switch 2帶來更強畫質、更流暢操作，以及嶄新的網絡功能，讓遊戲體驗全面升級。

Posted April 25, 2025

0

LLM人格評估｜理大新系統評估大模型人格
香港理工大學工業及系統工程學系助理教授李力恒領導的團隊，近日研發一套名為「語言模型人格評估」的AI驅動系統，能透過語言分析對LLM人格特徵進行量化評估。

Posted April 25, 2025

0

Deel｜平台助企業跨國實時支薪
美國人力資源管理平台Deel發布多款人工智能（AI）驅動的產品套件，旨在改變企業僱用、管理和支付跨國團隊薪酬等工序，有助解決部門獨立運作而導致的低效問題，透過其一站式平台助企業跨國合規營運。

Posted April 25, 2025

0

法律AI｜商湯夥中大研法律資訊AI
本地人工智能（AI）軟件公司商湯（00020）與香港中文大學法律學院簽署合作備忘錄，雙方將基於商湯粵語大模型Sensechat共同開發法律資訊AI模型，並計劃開放予香港公眾使用。

Posted April 25, 2025

0

AI不當回應｜GPT-4.1建議用戶入侵賬號解悶
ChatGPT開發商OpenAI早前推出新一代人工智能（AI）模型GPT-4.1，惟未按慣例同步發布技術報告與安全評估。

Posted April 25, 2025

0

AI出題捱轟｜加州律師試 AI擬訂考題捱轟
美國加州律師公會近日公布，今年2月舉辦的新律師資格考試，引進了經由人工智能（AI）協助撰寫的題目。

Posted April 25, 2025

0

AI代理｜「AI為先企業」授權員工管智能代理重塑工作架構須靈活調配人機比例
微軟日前發表《2025年工作趨勢指數報告》，半數受訪本港企業領導層指出，正利用人工智能代理全面自動化工作流程或業務程序，其中客戶服務、市場推廣及產品開發，為AI投資的首要領域。

Posted April 25, 2025

0

POPULAR POSTS

AI作弊系統｜輟學生誓言欺騙一切 AI作弊系統吸4134萬

 AI編程｜奧巴馬：AI編程勝過七成專家

 應科院｜25年轉移1500項技術

 探索大灣區科技創新（湛家揚博士）

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

DeepMind兩機械人 完美執行現實任務

以Gemini 2.0為基礎

推Gemma 3可分析圖像答問

支持EJ Tech

Related Posts

Latest News

POPULAR POSTS

成為 EJ Tech 會員

DeepMind兩機械人完美執行現實任務