谷歌Deepmind設想重塑機器人，為大型模型引入具身智慧的未來-人工智慧-PHP中文網

過去一年中，連連取得突破的大模型正在重塑機器人研究領域。

隨著最先進的大模型成為機器人的"大腦"，機器人的進化速度超乎想像。

7 月，Google DeepMind 宣布推出 RT-2：全球第一個控制機器人的視覺 - 語言 - 動作（VLA）模型。

只需要向對話一樣下達命令，它就能在一堆圖片中辨認出黴黴，送給她一罐「快樂水」。

谷歌Deepmind設想重塑機器人，為大型模型引入具身智慧的未來

甚至能主動思考，完成了從「選擇滅絕的動物」到抓取桌上的塑膠恐龍這種多階段推理的飛躍。

谷歌Deepmind設想重塑機器人，為大型模型引入具身智慧的未來

在 RT-2 之後，Google DeepMind 又提出了 Q-Transformer，機器人界也有了自己的 Transformer 。 Q-Transformer 使得機器人突破了對高品質的演示數據的依賴，更擅長依靠自主「思考」來累積經驗。

RT-2 發布僅兩個月，又迎來了機器人的 ImageNet 時刻。 GoogleDeepMind 聯合其他機構推出了Open X-Embodiment 資料集，改變了以往需要針對每個任務、機器人具體定制模型的方法，將各種機器人學的知識結合起來，創造出了一種訓練通用機器人的新想法。

可以想像一下，只需向你的機器人小助理發出簡單的要求，比如“打掃房子”或“做一頓美味健康的飯菜”，它們就可以完成這些任務。對於人類來說，這些工作可能很簡單，但對於機器人來說，需要它們對世界有深度理解，這並非易事。

基於在機器人Transformer 領域深耕多年的研究基礎，近期，Google宣布了一系列機器人研究進展：AutoRT、SARA-RT 和RT-Trajectory，它們能夠幫助機器人更快地做出決策，更好地理解它們身處於怎樣的環境，並且更好地引導自己完成任務。

Google相信隨著 AutoRT、SARA-RT 和 RT-Trajectory 等研究成果的推出，能為現實的世界機器人的資料收集、速度和泛化能力帶來增益。

接下來，讓我們回顧一下這幾項重要研究。

AutoRT：利用大型模型來更好地訓練機器人

AutoRT 結合了大型基礎模型（如大型語言模型（LLM）或視覺語言模型（VLM））和機器人控制模型（RT-1 或RT-2），創建了一個可以在新環境中部署機器人以收集訓練資料的系統。 AutoRT 可以同時指導多個配備了視訊攝影機和末端執行器的機器人，在各種環境中執行多樣化的任務。

具體來說，每個機器人將根據 AutoRT，使用視覺語言模型（VLM）來「看看四周」，了解其環境和視線內的物體。接下來，大型語言模型會為其提出一系列創意任務，例如“將零食放在桌上”，並扮演決策者的角色，為機器人選擇需要執行的任務。

研究人員在現實世界中對 AutoRT 進行了長達七個月的廣泛評估。實驗證明，AutoRT 系統能夠同時安全地協調多達 20 個機器人，最多時共能協調 52 個機器人。透過指導機器人在各種辦公大樓內執行各種任務，研究人員收集了涵蓋 77,000 個機器人試驗，6,650 個獨特任務的多樣化資料集。

谷歌Deepmind設想重塑機器人，為大型模型引入具身智慧的未來

上圖呈現了 AutoRT 系統的運作過程：（1）自主輪式機器人找到了一個有多個物件的位置。（2）VLM 向 LLM 描述場景和物件。（3）LLM 為機器人提出各種操作任務，並決定哪些任務機器人可以獨立完成，哪些任務需要人類遠端控制，哪些任務不可能完成，然後做出選擇。（4）機器人嘗試選擇要做的任務，收集實驗數據，並對數據的多樣性和新鮮度進行評分。機器人將不斷重複這個過程。

AutoRT 具有利用大型基礎模型的潛力，這對於機器人理解實際應用中的人類指令至關重要。透過收集更全面的實驗訓練數據和更多樣化的數據，AutoRT 能夠擴展機器人的學習能力，為現實世界的機器人訓練帶來提升。

在機器人融入我們的日常生活之前，需要確保它們的安全性，這要求研究者做到負責任地開發，並對機器人的安全性進行深度研究。

雖然 AutoRT 現在只是一個資料收集系統，但可以將其視為現實世界中自主機器人的早期階段。它具有安全護欄，其中一項是一套以安全為重點的提示詞，它能夠在機器人執行基於 LLM 的決策時提供需要遵守的基本規則。

這些規則部分受到艾薩克・阿西莫夫的機器人三定律的啟發，其中最重要的是機器人「不得傷害人類」。安全規則還要求機器人不得嘗試涉及人類、動物、尖銳物體或電器的任務。

僅在提示詞方面下功夫，也無法完全保證機器人實際應用中的安全問題。因此，AutoRT 系統也包含實用安全措施層這項機器人技術的經典設計。例如，協作機器人的程式被設定為如果其關節上的力超過給定閾值，則自動停止，並且所有自主控制的機器人都能夠透過物理停用開關被限制在人類監督員的視線範圍內。

SARA-RT：讓機器人Transformer（RT）變得更快、更精簡

另一項成果SARA-RT，將機器人Transformer（RT）模型轉換為更有效率的版本。

Google團隊開發的 RT 神經網路架構已被用於最新的機器人控制系統，包括 RT-2 模型。最好的 SARA-RT-2 模型在獲得簡短的影像歷史記錄後，比 RT-2 模型的精確度高 10.6%，速度快 14%。谷歌表示，這是第一個在不降低品質的情況下提高運算能力的可擴展注意力機制。

雖然 Transformer 功能強大，但它們可能會受到運算需求的限制，從而減慢決策速度。 Transformer 主要依賴二次複雜度的注意力模組。這意味著，如果 RT 模型的輸入增加一倍（例如，為機器人提供更多或更高解析度的感測器），處理該輸入所需的運算資源就會增加四倍，從而導致決策速度減慢。

SARA-RT 採用了一種新穎的模型微調方法（稱為「向上訓練」）來提高模型的效率。向上訓練將二次複雜性轉換為單純的線性複雜性，從而大幅降低了計算要求。這種轉換不僅能提高原始模型的速度，還能維持其品質。

Google希望許多研究人員和從業人員能將此實用系統應用於機器人技術及其他領域。由於 SARA 提供了加快 Transformer 速度的通用方法，無需進行計算成本高昂的預訓練，因此這種方法具有大規模推廣 Transformer 技術的潛力。 SARA-RT 不需要任何額外的程式碼，因為可以使用各種開源的線性變體。

當SARA-RT 應用於擁有數十億個參數的SOTA RT-2 模型，它能在各種機器人任務中實現更快的決策和更好的性能：

谷歌Deepmind設想重塑機器人，為大型模型引入具身智慧的未來

^{#用於操縱任務的SARA-RT-2 模型。機器人的動作以圖像和文字指令為條件。}

憑藉著堅實的理論基礎，SARA-RT 可應用於各種 Transformer 模型。例如，將 SARA-RT 應用於點雲 Transformer（用於處理來自機器人深度攝影機的空間資料），其速度能夠提高一倍以上。

RT-Trajectory：幫助機器人泛化

人類可以直觀地理解、學會如何擦桌子，但機器人需要許多可能的方式將指令轉化為實際的物理動作。

傳統上，對機械手臂的訓練依賴於將抽象的自然語言（擦桌子）映射到具體的動作（關閉抓手、向左移動、向右移動），這使得模型很難推廣到新任務中。與此相反，RT - 軌跡模型透過解釋特定的機器人動作（如影片或草圖中的動作），使 RT 模型能夠理解「如何完成」任務。

RT-Trajectory 模型可自動加入視覺輪廓，描述訓練影片中的機器人動作。 RT-Trajectory 將訓練資料集中的每段影片與機器手臂執行任務時抓手的 2D 軌跡草圖疊加在一起。這些軌跡以 RGB 影像的形式，為模型學習機器人控制策略提供了低層次、實用的視覺提示。

在對訓練資料中未見的41 項任務進行測試時，由RT-Trajectory 控制的機械手臂的性能比現有的SOTA RT 模型高出一倍多：任務成功率達到63% ，而RT-2 的成功率僅29%。

該系統的用途十分廣泛，RT-Trajectory 還可以透過觀看人類對所需任務的演示來創建軌跡，甚至可以接受手繪草圖。而且，它還能隨時適應不同的機器人平台。

谷歌Deepmind設想重塑機器人，為大型模型引入具身智慧的未來 ^{左圖：只使用自然語言資料集訓練的RT 模型控制的機器人，在執行擦桌子這一新任務時受挫，而由RT 軌跡模型控制的機器人，在經過2D 軌跡增強的相同資料集訓練後，成功規劃並執行了擦拭軌跡。右圖：訓練有素的 RT 軌跡模型在接到新任務（擦桌子）後，可以在人類的協助下或利用視覺語言模型自行以多種方式創建 2D 軌跡。}

RT 軌跡利用了豐富的機器人運動訊息，這些訊息存在於所有機器人資料集中，但目前尚未充分利用。 RT-Trajectory 不僅代表在製造面向新任務高效準確移動的機器人的道路上又邁進了一步，而且還能從現有數據集中發掘知識。

以上是谷歌Deepmind設想重塑機器人，為大型模型引入具身智慧的未來的詳細內容。更多資訊請關注PHP中文網其他相關文章！