機器人：基礎模型的進展如何-人工智慧-PHP中文網

機器人是一種擁有無限潛力的技術，尤其在智慧技術的支持下。最近，一些具有革命性應用的大型模型被認為可能成為機器人的智慧大腦，能夠幫助機器人感知和理解世界，並做出決策和規劃。最近，由CMU的Yonatan Bisk和Google DeepMind的夏斐（Fei Xia）領導的一個聯合團隊發布了一篇綜述報告，介紹了基礎模型在機器人領域的應用和發展。

人類一直以來都夢想著開發機器人，它能夠自主地適應不同的環境。然而，實現這個夢想是一條漫長而充滿挑戰的道路。

以前，機器人的感知系統通常使用傳統的深度學習方法，這需要大量標註資料來訓練監督學習模型。然而，透過眾包方式標註大型資料集的成本非常高昂。

機器人：基礎模型的進展如何

另外，經典的監督學習方法在泛化能力上有一定的限制。為了將這些訓練好的模型應用到特定的場景或任務中，通常需要進行領域適應技術的精心設計，這往往需要進一步的資料收集和標註。同樣，傳統的機器人規劃和控制方法也需要對環境、智能體本身以及其他智能體的動態進行精確建模。這些模型通常是針對特定的環境或任務而建構的，當情況改變時，就需要重新建構模型。這顯示經典模型的遷移性能也是有限的。

事實上，對於許多用例，建立有效模型的成本要不是太高，就是完全無法辦到。儘管基於深度（強化）學習的運動規劃和控制方法有助於緩解這些問題，但它們仍舊會受到分佈移位（distribution shift）和泛化能力降低的影響。

雖然在開發通用型機器人系統上正面臨諸多挑戰，但自然語言處理（NLP）和電腦視覺（CV）領域近來卻進展迅猛，其中包括用於NLP 的大型語言模型（LLM）、用於高保真圖像生成的擴散模型、用於零樣本/ 少樣本生成等CV 任務的能力強大的視覺模型和視覺語言模型。

所謂的「基礎模型（foundation model）」其實就是大型預訓練模型（LPTM）。它們具備強大的視覺和語言能力。近來這些模型也已經在機器人領域中得到應用，並有望賦予機器人系統開放世界感知、任務規劃甚至運動控制能力。除了將現有的視覺和 / 或語言基礎模型用於機器人領域，還有研究團隊正針對機器人任務開發基礎模型，例如用於操控的動作模型或用於導航的運動規劃模型。這些機器人基礎模型展現了強大的泛化能力，能適應不同的任務甚至具身方案。

也有研究者直接將視覺 / 語言基礎模型用於機器人任務，這展現出了將不同機器人模組融合成單一統一模型的可能性。

儘管視覺和語言基礎模型在機器人領域前景可期，全新的機器人基礎模型也正在開發中，但機器人領域仍有許多挑戰難以解決。

從實際部署角度看，模型往往是不可復現的，無法泛化到不同的機器人形態（多具身泛化）或難以準確理解環境中的哪些行為是可行的（或可接受的）。此外大多數研究使用的都是基於 Transformer 的架構，關注的重點是對物件和場景的語義感知、任務層面的規劃、控制。而機器人系統的其它部分則少有人研究，例如針對世界動態的基礎模型或可以執行符號推理的基礎模型。這些都需要跨領域泛化能力。

最後，我們也需要更多大型真實世界數據以及支援多樣化機器人任務的高保真度模擬器。

這篇綜述論文總結了機器人領域所使用的基礎模型，目標是理解基礎模型能以怎樣的方式幫助解決或緩解機器人領域的核心挑戰。

機器人：基礎模型的進展如何

論文網址：https://arxiv.org/pdf/2312.08782.pdf

#在這篇綜述中，研究者使用的「用於機器人的基礎模型（foundation models for robotics）」這個術語涵蓋兩個方面：(1) 用於機器人的現有的（主要）視覺和語言模型，主要是透過零樣本和上下文學習；(2) 使用機器人生成的數據專門開發和利用機器人基礎模型，以解決機器人任務。他們總結了用於機器人的基礎模型的相關論文中的方法，並對這些論文的實驗結果進行了元分析（meta-analysis）。

機器人：基礎模型的進展如何

圖 1 展示了這篇綜述報告的主要組成部分。

機器人：基礎模型的進展如何

圖 2 給出了這篇綜述的整體架構。

預備知識

為了幫助讀者更好地理解這篇綜述的內容，團隊首先給出了一節預備知識內容。

他們首先將介紹機器人學的基礎知識以及當前最佳技術。這裡主要聚焦於基礎模型時代之前機器人領域所使用的方法。這裡簡單說明一下，詳情請參閱原文。

機器人的主要元件可分為感知、決策與規劃、動作產生三大部分。
該團隊將機器人感知分為被動感知、主動感知和狀態估計。
在機器人決策和規劃部分，研究者分經典規劃方法和基於學習的規劃方法進行了介紹。
機器的動作生成也有經典控制方法和基於學習的控制方法。
接下來團隊將介紹基礎模型並主要集中在 NLP 和 CV 領域，涉及的模型包括：LLM、VLM、視覺基礎模型、文字條件式影像生成模型。

機器人領域面臨的挑戰

#這一節總結了典型機器人系統的不同模組所面臨的五大核心挑戰。圖 3 給出了這五大挑戰的分類。

機器人：基礎模型的進展如何

1.泛化

## 機器人系統往往難以準確感知和理解其環境。它們也沒有能力將在一個任務上的訓練成果泛化到另一個任務，這會進一步限制它們在真實世界中的實用性。此外，由於機器人硬體不同，將模型遷移用於不同形態的機器人也很困難。透過將基礎模型用於機器人，可以部分解決泛化問題。

而在不同機器人形態上泛化這樣更進一步的問題還有待解答。

2.資料稀缺

為了開發可靠的機器人模型，大規模的高品質資料至關重要。人們已經在努力嘗試從現實世界收集大規模資料集，包括自動價值、機器人操作軌跡等。並且從人類演示收集機器人數據的成本很高。而由於任務和環境的多樣性，在現實世界中收集足夠且廣泛的數據的過程會更加複雜。此外，在現實世界收集資料還會有安全方面的疑慮。

為了解決這些挑戰，許多研究工作都嘗試了在模擬環境中產生合成資料。這些模擬能提供真實感很強的虛擬世界，讓機器人可以在接近真實的場景中學習和使用自己的技能。但是，使用模擬環境也有局限性，尤其是在物體的多樣性方面，這使得所學到的技能難以直接用於真實世界情況。

另外，在現實世界中，大規模收集數據非常困難，而要收集到訓練基礎模型所使用的互聯網規模級的圖像/ 文本數據，那就更困難了。

一種頗具潛力的方法是協作式資料收集，即將不同實驗室環境和機器人類型的資料收集在一起，如圖 4a 所示。但是，該團隊深度研究了 Open-X Embodiment Dataset，發現在資料類型可用性方面仍有一些限制。

機器人：基礎模型的進展如何

#3.模型與原語要求

經典的規劃和控制方法通常需要精心設計的環境和機器人模型。先前的學習為基礎的方法（如模仿學習和強化學習）是以端到端的方式訓練策略，也就是直接根據感官輸入獲取控制輸出，這樣能避免建構和使用模型。這些方法能部分解決依賴明確模型的問題，但它們往往難以泛化地用於不同的環境和任務。

這就引出了兩個問題：(1) 怎麼學習能很好泛化的與模型無關的策略？ (2) 怎麼學習好的世界模型，以便應用經典的模型為基礎的方法？

4.任務規格

為了得到通用型智能體，一大關鍵挑戰是理解任務規範並將其根植於機器人對世界的當前理解中。通常而言，這些任務規範由使用者提供，但使用者只能有限地理解機器人的認知和物理能力的限制。這會帶來很多問題，不僅包括能為這些任務規範提供什麼樣的最佳實踐，而且還有起草這些規範是否足夠自然和簡單。基於機器人對自身能力的理解，理解和解決任務規範中的模糊性也充滿挑戰。

5.不確定性和安全性

為了在現實世界中部署機器人，一大關鍵挑戰是處理環境和任務規範中固有的不確定性。根據來源的不同，不確定性可以分為認知不確定性（缺乏知識導致不確定）和偶然不確定性（環境中固有的噪音）。

不確定性量化（UQ）的成本可能會高得讓研究和應用難以為繼，也可能讓下游任務無法被最優地解決。有鑑於基礎模型大規模過度參數化的性質，為了在不犧牲模型泛化性能的同時實現可擴展性，提供能保留訓練方案同時又盡可能不改變底層架構的 UQ 方法至關重要。設計能提供對自身行為的可靠置信度估計，並反過來聰明地請求清晰說明回饋的機器人仍然是一個尚未解決的挑戰。

最近雖有一些進展，但要確保機器人有能力學習經驗，從而在全新環境中微調自己的策略並確保安全，這一點依然充滿挑戰。

目前研究方法概況

這一節總結了用於機器人的基礎模型的當前研究方法。團隊將機器人領域所使用的基礎模型分成了兩大類：用於機器人的基礎模型和機器人基礎模型（RFM）。

用於機器人的基礎模型主要是指以零樣本的方式將視覺和語言基礎模型用於機器人，也就是說無需額外的微調或訓練。機器人基礎模型則可能使用視覺 - 語言預訓練初始化來進行熱啟動和 / 或直接在機器人資料集上訓練模型。

機器人：基礎模型的進展如何

圖5 給出了分類詳情

1.用於機器人的基礎模型

這一小節關注的是視覺和語言基礎模型在機器人領域的零樣本應用。這主要包括將 VLM 以零樣本方式部署到機器人感知應用中，將 LLM 的情境學習能力用於任務層面和運動層面的規劃以及動作生成。圖 6 展示了一些代表性的研究工作。

機器人：基礎模型的進展如何

#2.機器人基礎模型（RFM）

機器人：基礎模型的進展如何

#隨著包含來自真實機器人的狀態- 動作對的機器人資料集的增長，機器人基礎模型（RFM）類別同樣變得越來越有可能成功。這些模型的特點是使用了機器人資料來訓練模型解決機器人任務。

這一小節將總結並討論不同類型的 RFM。首先是能在單一機器人模組中執行一類任務的 RFM，這也稱為單目標機器人基礎模型。例如能產生控制機器人的低層級動作的 RFM 或可以產生更高層運動規劃的模型。

之後會介紹能在多個機器人模組中執行任務的 RFM，也就是能執行感知、控制甚至非機器人任務的通用模型。

3.基礎模型能如何幫助解決機器人挑戰？

前面列出了機器人領域面臨的五大挑戰。這一小節將介紹基礎模型可以如何幫助解決這些挑戰。

所有與視覺訊息相關的基礎模型（如 VFM、VLM 和 VGM）都可用於機器人的感知模組。而 LLM 的功能更多樣化，可用於規劃和控制。機器人基礎模型（RFM）通常用於規劃和動作生成模組。表 1 總結了解決不同機器人挑戰的基礎模型。

機器人：基礎模型的進展如何

從表中可以看到，所有基礎模型都擅長泛化各種機器人模組的任務。 LLM 尤其擅長任務規範。另一方面，RFM 擅長應對動態模型的挑戰，因為大多數 RFM 都是無模型方法。對於機器人感知來說，泛化能力和模型的挑戰是相互耦合的，因為如果感知模型已經具有很好的泛化能力，就不需要獲得更多數據來執行領域適應或額外微調。

另外，在安全挑戰方面還缺乏研究，這會是重要的未來研究方向。

目前的實驗和評估概況

這一節總結了目前研究成果的資料集、基準和實驗。

1.資料集和基準

僅依靠從語言和視覺資料集學到的知識是存在局限的。正如一些研究成果表明的那樣，摩擦力和重量等一些概念無法僅透過這些模態輕鬆學習。

因此，為了讓機器人智能體能更好地理解世界，研究社群不僅在適應來自語言和視覺領域的基礎模型，也在推進開發用於訓練和微調這些模型的大型多樣化多模態機器人資料集。

目前這些工作分為兩大方向：從現實世界收集資料以及從模擬世界收集資料再將其遷移到現實世界。每個方向各有優劣。其中從現實世界收集的資料集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。而常用的模擬器有 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等。