近年來,AI 已不僅僅是語言或影像的生成工具,而是逐步邁向「具身智能」(embodied intelligence)。2025 年 9 月 25 日,Google DeepMind 公布了兩個全新的機器人專用模型:Gemini Robotics 1.5 與 Gemini Robotics-ER 1.5。旨在提升機器人的推理與規劃能力,讓它們能夠執行更複雜的現實任務,例如 分類洗衣、回收垃圾,甚至 打包行李並考慮天氣因素。
這被視為通往 AGI(通用人工智慧)的一個重要里程碑,因為它讓機器人不再只是「聽命執行」,而是能夠「先思考、再行動」。
一、什麼是 Gemini Robotics 1.5 與 ER 1.5?
(一)Gemini Robotics 1.5 是什麼?
這是一種 VLA(Vision-Language-Action)模型,能將語言與視覺輸入轉換為精確的機器人動作,並在執行前輸出「自然語言思考過程」,方便人類檢視。
(二)Gemini Robotics-ER 1.5 是什麼?
這是一個專門負責規劃與推理的模型,具備「具身推理」能力,還能調用 Google 搜尋等工具,把任務拆解成可執行的步驟,再交由 Robotics 1.5 來執行。
這兩個模型搭配使用,就像給機器人裝上「規劃腦」與「動作腦」,讓它能處理更複雜的多步驟任務。
< 延伸學習> AGI 是什麼?通用型人工智慧全解析
二、這次的技術亮點有哪些?
(一)工具使用
在官方展示中,研究人員要求機器人打包旅行行李。機器人已不只遵守研究員所述的要求,甚至會透過 Google 搜尋查到倫敦會下雨,於是主動在包包中放入雨傘。
在另一個例子則是垃圾分類:機器人先定位自己位於舊金山,再上網查當地的回收規則,隨後將垃圾放入正確的回收桶中。
這些案例展現了它已不再只是「聽話的手臂」,而是能結合網路知識與環境資訊,做出合乎情境的判斷。
(二)跨機器人技能遷移
過去在機器人方面的挑戰為不同機器人需要重新訓練,每一個個體的經驗是無法共有的。但現在 DeepMind 展示了技能如何能從桌上型機械手臂轉移到人形機器人 Apollo。
這意味著在未來訓練只需一次,在使用相同模型的機器人能共有經驗,這將大大降低訓練成本、溝通成本。
(三)機器人行為的可解釋性與安全性
當 Robotics 1.5 執行任務時,他會經由任務要求 & 環境資訊的輸入去思考如何完成任務。在此同時,研究人員可透過額外螢幕去觀察機器人所有行動的程式碼,可以知道他是如何思考這一步進而做這個行動。這項技術不僅能增加透明度,更能作為安全審核,避免機器人執行錯誤或危險的動作。
三、尚待克服的挑戰
即使突破驚人,DeepMind 仍承認還有不少難題:
- 靈巧度不足:操作物體的精細度仍遠不如人類。
- 數據限制:與大型語言模型能依靠龐大網路資料不同,機器人需要透過真實操作數據學習,這是耗時且昂貴的過程。
- 安全與可靠性:要在真實環境中與人類協作,機器人必須保證高穩定性與可預測性。
正如 DeepMind 工程師 Kanishka Rao 所言:「人類直覺中的簡單動作,對機器人來說往往相當困難。」
四、 這次模型發布為什麼很重要?
這次模型更新不僅是技術迭代而已,更是「AI 與物理世界結合」的重要一步。
隨著 OpenAI、特斯拉等科技巨頭投入機器人競賽,DeepMind 的 Gemini 系列有望成為未來「通用機器人」的基礎大腦。它能從單純的語言推理,拓展到能處理複雜的實體任務,這也意味著 AGI 的具身化(embodiment)願景正逐步成真。
五、結論
Gemini Robotics 1.5 與 ER 1.5 的推出,標誌著機器人正式邁入「能夠思考、規劃、行動」的新階段。
過去,ChatGPT 的出現為語言模型帶來了爆發式的普及與應用,被稱為 「ChatGPT 時刻」。如今,當 AI 開始能夠在真實世界中處理複雜任務、甚至跨機器人遷移技能時,這或許正是 機器人領域的 ChatGPT 時刻。
未來,當靈巧度與安全性挑戰被逐步克服,我們可能會在家庭、醫療、工廠、物流等場景中,看到它們真正普及,從研究室走進日常生活,成為人類的 「日常助理」。
但問題是:我們是否準備好迎接與「能思考的機器人」共處的世界?





