揭示基礎模型與機器人發展道路的綜述-人工智慧-PHP中文網

無需改變原意，機器人是一種技術，可以有無限的可能性，尤其是當與智慧技術結合時。最近，一些具有革命性應用的大型模型有望成為機器人的智慧中樞，幫助機器人感知和理解世界，做出決策和規劃

近日，CMU 的Yonatan Bisk 和Google DeepMind夏斐（Fei Xia）領導的聯合團隊發布了一篇綜述報告，介紹了基礎模型在機器人領域的應用和發展。報告的 first aurthor 是 CMU 的博士四年級學生胡亞非（Yafei Hu），他的研究集中在機器人和人工智慧的交叉應用上。與他合作的是謝泉廷（Quanting Xie），專注於透過基礎模型探索具身智能（embodied intelligence）。

揭示基礎模型與機器人發展道路的綜述

論文網址：https://arxiv.org/pdf/2312.08782.pdf

開發能自主適應不同環境的機器人是人類一直以來的夢想，但這卻是一條漫長且充滿挑戰的道路。先前，利用傳統深度學習方法的機器人感知系統通常需要大量有標註資料來訓練監督學習模型，而如果透過眾包方式來標註大型資料集，成本又非常高。

此外，由於經典監督學習方法的泛化能力有限，為了將這些模型部署到具體的場景或任務，這些訓練得到的模型通常還需要精心設計的領域適應技術，而這又通常需要進一步的資料收集和標註步驟。類似地，經典的機器人規劃和控制方法通常需要仔細地建模世界、智能體自身的動態和 / 或其它智能體的動態。這些模型通常是針對各個特定環境或任務所建構的，而當情況有變時，就需要重新建構模型。這說明經典模型的遷移性能也有限。

事實上，對於許多用例，建立有效模型的成本要不是太高，就是完全無法辦到。儘管基於深度（強化）學習的運動規劃和控制方法有助於緩解這些問題，但它們仍舊會受到分佈移位（distribution shift）和泛化能力降低的影響。

雖然在開發通用型機器人系統上正面臨諸多挑戰，但自然語言處理（NLP）和電腦視覺（CV）領域近來卻進展迅猛，其中包括用於NLP 的大型語言模型（LLM）、用於高保真圖像生成的擴散模型、用於零樣本/ 少樣本生成等CV 任務的能力強大的視覺模型和視覺語言模型。

所謂的「基礎模型（foundation model）」其實就是大型預訓練模型（LPTM）。它們具備強大的視覺和語言能力。近來這些模型也已經在機器人領域中得到應用，並有望賦予機器人系統開放世界感知、任務規劃甚至運動控制能力。除了將現有的視覺和 / 或語言基礎模型用於機器人領域，還有研究團隊正針對機器人任務開發基礎模型，例如用於操控的動作模型或用於導航的運動規劃模型。這些機器人基礎模型展現了強大的泛化能力，能適應不同的任務甚至具身方案。也有研究者直接將視覺 / 語言基礎模型用於機器人任務，這展現了將不同機器人模組融合成單一統一模型的可能性。

儘管視覺和語言基礎模型在機器人領域前景可期，全新的機器人基礎模型也正在開發中，但機器人領域仍有許多挑戰難以解決。

從實際部署角度看，模型往往是不可復現的，無法泛化到不同的機器人形態（多具身泛化）或難以準確理解環境中的哪些行為是可行的（或可接受的）。此外，大多數研究使用的都是基於 Transformer 的架構，關注的重點是對物件和場景的語義感知、任務層面的規劃、控制。而機器人系統的其它部分則少有人研究，例如針對世界動態的基礎模型或可以執行符號推理的基礎模型。這些都需要跨領域泛化能力。

最後，我們也需要更多大型真實世界數據以及支援多樣化機器人任務的高保真度模擬器。

這篇綜述論文總結了機器人領域所使用的基礎模型，目標是理解基礎模型能以怎樣的方式幫助解決或緩解機器人領域的核心挑戰。

在這篇綜述中，研究人員使用的"基礎模型（foundation models）"這個術語包含了機器人領域的兩個方面：(1) 目前已存在的主要視覺和語言模型，主要是透過零樣本和上下文學習來實現；(2) 使用機器人生成的數據專門開發和應用基礎模型，解決機器人任務。研究人員總結了相關論文中關於基礎模型的方法，並對這些論文的實驗結果進行了統合分析

揭示基礎模型與機器人發展道路的綜述

綜述的整體結構

預備知識

為了幫助讀者更好地理解這篇綜述的內容，團隊首先提供了一節預備知識的內容

他們首先將介紹機器人學的基礎知識以及當前最佳技術。這裡主要聚焦於基礎模型時代之前機器人領域所使用的方法。這裡進行簡單說明，詳情請參閱原論文。

機器人的主要元件可分為感知、決策與規劃、動作產生三大部分。 該團隊將機器人感知分為被動感知、主動感知和狀態估計。
在機器人決策和規劃部分，研究者分經典規劃方法和基於學習的規劃方法進行了介紹。
機器的動作生成也有經典控制方法和基於學習的控制方法。

接下來團隊將介紹基礎模型並主要集中在NLP 和CV 領域，涉及的模型包括：LLM、VLM、視覺基礎模型、文字條件式圖像生成模型。

機器人領域面臨的挑戰

典型機器人系統的不同模組所面臨的五大核心挑戰。圖 3 展示了這五大挑戰的分類。

揭示基礎模型與機器人發展道路的綜述

#泛化

機器人系統往往難以準確地感知和理解其環境。它們也沒有能力將在一個任務上的訓練成果泛化到另一個任務，這會進一步限制它們在真實世界中的實用性。此外，由於機器人硬體不同，將模型遷移用於不同形態的機器人也很困難。透過將基礎模型用於機器人，可以部分解決泛化問題。而在不同機器人形態上泛化這樣更進一步的問題還有待解答。

資料稀缺

為了開發出可靠的機器人模型，大規模的高品質資料至關重要。人們已經在努力嘗試從現實世界收集大規模資料集，包括自動駕駛、機器人操作軌跡等。並且從人類演示收集機器人數據的成本很高。不過，由於任務和環境的多樣性，在現實世界中收集足夠且廣泛的數據的過程會更加複雜。在現實世界收集資料還會有安全方面的疑慮。另外，在現實世界中，大規模收集數據非常困難，而要收集到訓練基礎模型所使用的互聯網規模級的圖像/文本數據，那就更困難了。

為了解決這些挑戰，許多研究工作都試圖在模擬環境中產生合成資料。這些模擬環境能夠提供非常逼真的虛擬世界，使得機器人能夠在接近真實場景的情況下學習和運用自己的技能。然而，使用模擬環境也存在一些局限性，特別是在物體多樣性方面，這導致所學到的技能難以直接應用於真實世界情境

一種頗具潛力的方法是協作式資料收集，即將不同實驗室環境和機器人類型的資料收集在一起，如圖4a 所示。但是，該團隊深度研究了 Open-X Embodiment Dataset，發現在資料類型可用性方面仍有一些限制。

揭示基礎模型與機器人發展道路的綜述

模型與原文要求

經典的規劃和控制方法通常需要精心設計的環境和機器人模型。先前的學習為基礎的方法（如模仿學習和強化學習）是以端到端的方式訓練策略，也就是直接根據感官輸入獲取控制輸出，這樣能避免建構和使用模型。這些方法能部分解決依賴明確模型的問題，但它們往往難以泛化地用於不同的環境和任務。

有兩個問題要解決：(1) 如何學習那些與模型無關，能夠良好泛化的策略？ (2) 如何學習優秀的世界模型，從而應用經典的模型為基礎的方法？

任務規範

為了得到通用型智能體，一大關鍵挑戰是理解任務規範並將其根植於機器人對世界的當前理解。通常而言，這些任務規範由使用者提供，但使用者只能有限地理解機器人的認知和物理能力的限制。這會帶來許多問題，包括能為這些任務規範提供什麼樣的最佳實踐，還有起草這些規範是否夠自然簡單。基於機器人對自身能力的理解，理解和解決任務規範中的模糊性也充滿挑戰。

不確定性和安全性

#為了在現實世界中部署機器人，一大關鍵挑戰是處理環境和任務規範中固有的不確定性。根據來源的不同，不確定性可以分為認知不確定性（缺乏知識導致不確定）和偶然不確定性（環境中固有的噪音）。

不確定性量化（UQ）的成本可能會高得讓研究和應用難以為繼，也可能讓下游任務無法被最優地解決。有鑑於基礎模型大規模過度參數化的性質，為了在不犧牲模型泛化性能的同時實現可擴展性，提供能保留訓練方案同時又盡可能不改變底層架構的 UQ 方法至關重要。設計能提供對自身行為的可靠置信度估計，並反過來聰明地請求清晰說明回饋的機器人仍然是一個尚未解決的挑戰。

最近雖有一些進展，但要確保機器人有能力學習經驗，從而在全新環境中微調自己的策略並確保安全，這一點還依然充滿挑戰。

目前研究方法概況

本文也總結了用於機器人的基礎模型的當前研究方法。團隊將機器人領域使用的基礎模型分成了兩大類：用於機器人的基礎模型和重寫的內容是：機器人基礎模型（RFM）。

機器人的基礎模型是指無需額外微調或訓練，以零樣本的方式將視覺和語言基礎模型用於機器人。機器人基礎模型可以透過視覺- 語言預訓練初始化來進行熱啟動，或直接在機器人資料集上訓練模型

揭示基礎模型與機器人發展道路的綜述

詳細分類

用於機器人的基礎模型

#這段內容的重寫如下：這部分內容著重於在機器人領域中將視覺和語言基礎模型應用到零樣本情境。其中，主要包括將VLM零樣本部署到機器人感知應用中，以及將LLM的情境學習能力應用於任務層面與運動層面的規劃與動作生成。圖6展示了一些典型的研究工作

揭示基礎模型與機器人發展道路的綜述

#重寫的內容是：機器人基礎模型（RFM）

揭示基礎模型與機器人發展道路的綜述

隨著包含來自真實機器人的狀態-動作對的機器人資料集的成長，重寫的內容是：機器人基礎模型（RFM）類別同樣變得越來越有可能成功。這些模型的特點是使用了機器人資料來訓練模型解決機器人任務。

研究團隊在討論中總結了不同類型的 RFM。首先是能夠在單一機器人模組中執行特定任務的 RFM，也被稱為單目標機器人基礎模型。例如，能夠產生控制機器人低層動作的 RFM 或能夠產生更高層運動規劃的模型。文章中也介紹了能夠在多個機器人模組中執行任務的RFM，即通用模型，可以執行感知、控制甚至非機器人任務

##基礎模型在解決機器人挑戰方面有什麼作用？

前文列出了機器人領域面臨的五大挑戰。這裡將介紹基礎模型可以如何幫助解決這些挑戰。

所有與視覺訊息相關的基礎模型（如 VFM、VLM 和 VGM）都可用於機器人的感知模組。而 LLM 的功能更多樣化，可用於規劃和控制。重寫的內容是：機器人基礎模型（RFM）通常用於規劃和動作生成模組。表 1 總結了解決不同機器人挑戰的基礎模型。

揭示基礎模型與機器人發展道路的綜述

從表中可以看出，所有的基礎模型都能夠很好地泛化不同機器人模組的任務。特別是LLM在任務規範方面表現出色。另一方面，RFM則擅長應對動態模型的挑戰，因為大多數RFM都是無模型方法。對於機器人的感知能力而言，泛化能力和模型的挑戰是相互關聯的。如果感知模型已經具備了良好的泛化能力，那麼就不需要獲取更多的數據來進行領域適應或額外微調了

另外，在安全挑戰方面還缺乏研究，這會是重要的未來研究方向。

目前的實驗和評估概況

這一部分總結了目前研究成果的資料集、基準和實驗。

資料集和基準

#僅依靠從語言和視覺資料集學到的知識是存在局限的。正如一些研究成果表明的那樣，摩擦力和重量等一些概念無法僅透過這些模態輕鬆學習。

因此，為了讓機器人智能體能更好地理解世界，研究社群不僅在適應來自語言和視覺領域的基礎模型，也在推進開發用於訓練和微調這些模型的大型多樣化多模態機器人資料集。

目前這些工作可以分為兩個主要方向：一方面是從現實世界收集數據，另一方面是從模擬世界收集數據並將其遷移到現實世界。每個方向都有其優點和缺點。從現實世界收集的資料集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。常用的模擬器包括Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等

##對目前方法的評估分析（Meta-Analysis）

該團隊的另一個重大貢獻是對本綜述報告中提到的論文中的實驗進行了元分析，這可以為理清以下問題有所幫助：

1. 人們研究解決的是哪些任務？

2. 訓練模型使用了哪些資料集或模擬器？測試用的機器人平台有哪些？

3. 研究社群使用了哪些基礎模型？解決任務的效果如何？

4. 這些方法中較常使用哪些基礎模型？

表 2-7 和圖 11 給出了分析結果。

揭示基礎模型與機器人發展道路的綜述