深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑-人工智慧-PHP中文網

機器人技術為什麼遠遠落後於自然語言處理（NLP）、視覺和其他人工智慧領域？除了其他困難外，數據短缺是主要原因。為了解決這個問題，GoogleDeepMind 聯合其他機構推出了開放式X-Embodiment 資料集，並成功訓練出了更強大的RT-X 模型

在大模型不斷取得突破的2023，把大模型當作大腦來輔助運作的具身智慧機器人研究也正在被快速推進。

2 個多月前，GoogleDeepMind 推出了第一個控制機器人的視覺- 語言- 動作（VLA）模型—RT-2。這個模型讓機器人不僅能解讀人類的複雜指令，還能看懂眼前的物體（即使物體以前從未見過），並且依照指令採取動作。例如，你讓機器人拿起桌上「已滅絕的動物」。它會抓起眼前的恐龍玩偶。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

當時，一位Google高層稱，RT-2 是機器人製造和程式設計方式的重大飛躍。「由於這一變化，我們不得不重新考慮我們的整個研究規劃了。」

#更令人吃驚的是，時間僅僅過去了兩個多月， DeepMind 的這個機器人模型又進步了，而且一下就提高了兩倍。

這是怎麼實現的呢？

我們知道，機器人通常在做某一件事情上非常專業，但通用能力很差。一般情況下，你必須針對每項任務、每個機器人和環境訓練一個模型。改變一個變數往往需要從頭開始。但是，如果我們能將各種機器人學的知識結合起來，創造出訓練通用機器人的方法呢？

這就是 DeepMind 在過去一段時間所做的事情。他們匯集了來自22 種不同機器人類型的數據，以創建Open X-Embodiment 數據集，然後在之前的模型（RT-1 和RT-2）的基礎上，訓練出了能力更強的RT-X（分別為RT-1-X 和RT-2-X）。

他們在五個不同的研究實驗室測試了RT-1-X 模型，結果顯示，與針對每個機器人獨立開發的方法相比，新方法在五種不同的常用機器人中平均成功率提高了50%。他們還表明，在上述數據集上訓練的 RT-2-X 在現實世界機器人技能上的表現提高了 2 倍，而且，透過學習新數據，RT-2-X 掌握了許多新技能。這項工作表明，在來自多個機器人類型資料上訓練的單一模型比在來自單一機器人類型資料上訓練的模型在多個機器人上的表現要好得多。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

值得一提的是，這項研究並非由 DeepMind 獨立完成，而是他們與 33 個學術實驗室通力合作的結果。他們致力於以開放和負責任的方式開發這項技術。

目前，Open X-Embodiment 資料集和 RT-1-X 模型檢查點已經對廣泛的研究社群開放。

英偉達資深人工智慧科學家Jim Fan表示今天可能是機器人的ImageNet時刻。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

Google研究員Karol Hausman也表達了同樣的感嘆：機器人的ImageNet時刻終於到來了。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

Open X-Embodiment 資料集，機器人的ImageNet 時刻

資料集以及基於資料集訓練的模型在推進AI 進步方面發揮了關鍵作用。正如 ImageNet 推動了電腦視覺的研究，Open X-Embodiment 也推動了機器人技術的發展。

一直以來，建立多樣化資料集是訓練通用模型的關鍵，這些訓練好的模型可以控制許多不同類型的機器人，遵循不同的指令，對複雜任務進行基本推理，並有效地進行泛化。然而，對於任何單一實驗室來說，收集這樣的資料集都過於耗費資源。

為此，DeepMind 與 33 個機構的學術研究實驗室展開合作，從而建構了 Open X-Embodiment 資料集。他們從 22 個機器人實例中收集數據，這些數據涵蓋超過 100 萬個片段，展示了機器人 500 多項技能和在 150,000 項任務上的表現。該數據集是同類中最全面的機器人數據集。

^{作用中使用 00 個任務的樣本，包括 500 多種技能和 50000 個任務。}

^與

RT-1-X：成功率提升50%

#RT-X 基於兩個robotics transformer（RT）模型建構而成。

具體而言，他們使用RT-1 訓練RT-1-X，其中RT-1 是建立在Transformer 架構上的35M 參數網絡，專為機器人控制而設計，如圖3 所示。

此外，他們還在RT-2 上訓練RT-2-X，其中RT-2 是一系列大型視覺語言動作模型(VLA)，在網路規模的視覺和語言資料以及機器人控制資料上訓練而成。

為了評估 RT-1-X，DeepMind 將其與在特定任務上（例如開門）開發的模型進行了比較。結果顯示，使用 Open X-Embodiment 資料集訓練的 RT-1-X 平均效能優於原始模型 50%。

時中增加平均成功率上為 1-1-X-X-1-X-X-X-X-X-X-X-X-X-X-X-X-X-X-X-X-X- 效果等級。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

^{來自不同合作機構的關於RT-1-X 的效果展示}

RT-2 -X：無障礙解鎖新技能

為了研究RT-X 的知識遷移能力，DeepMind 又進行了其他實驗。這些實驗涉及 RT-2 資料集中不存在的物件和技能，但這些物件和技能存在於另一個機器人的資料集中。結果表明，在掌握新技能方面，RT-2-X 的成功率是其先前最佳的 RT-2 的三倍。這也說明了，與其他平台的資料進行聯合訓練可以為 RT-2-X 賦予原始資料集中不存在的額外技能，使其能夠執行新穎的任務。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

#一系列結果表明，RT-2-X 實現了RT-2 以前無法實現的技能，包括對空間更好的理解。例如，如果我們要求機器人「將蘋果移到布料附近」、又或要求機器人「將蘋果移到布料上」，為了實現目標要求，機器人會採取完全不同的軌跡。只需將介詞從“near”更改為“on”，就可以調整機器人採取的動作。

RT-2-X 表明，將其他機器人的資料結合到RT-2-X 訓練中可以改善機器人的任務執行範圍，但前提是使用足夠高容量的架構。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

^{RT-2-X (55B): 目前在學術實驗室中執行未知任務的最大模型之一}

研究啟發：機器人需要相互學習，研究人員也一樣

##機器人研究正處於令人興奮的早期階段。 DeepMind 的這項新研究表明，透過利用更多樣化的數據和更好的模型進行擴展學習，有可能開發出更有用的輔助機器人。與世界各地的實驗室合作並分享資源，對於以開放和負責任的方式推動機器人研究至關重要。 DeepMind 希望透過開放資料來源和提供安全但有限的模型來減少障礙，並加快研究。機器人技術的未來有賴於機器人之間的相互學習，最重要的是，讓研究人員能夠互相學習。

這項工作證明，模型可以在不同環境下通用，無論是在GoogleDeepMind 的機器人上，還是在世界各地不同大學的機器人上，其性能都得到了顯著提高。未來的研究可以探索如何將這些進步與 RoboCat 的自我完善特性結合，使模型能夠根據自身經驗不斷改進。未來的另一個方向是進一步探索不同資料集的混合會如何影響跨具身智能體泛化，以及這種泛化是如何是實現的。

如果你想了解有關RT-X 的更多信息，可以參考DeepMind 發布的這篇論文：