機器人是一種擁有無限潛力的技術,尤其在智慧技術的支持下。最近,一些具有革命性應用的大型模型被認為可能成為機器人的智慧大腦,能夠幫助機器人感知和理解世界,並做出決策和規劃。最近,由CMU的Yonatan Bisk和Google DeepMind的夏斐(Fei Xia)領導的一個聯合團隊發布了一篇綜述報告,介紹了基礎模型在機器人領域的應用和發展。
人類一直以來都夢想著開發機器人,它能夠自主地適應不同的環境。然而,實現這個夢想是一條漫長而充滿挑戰的道路。
以前,機器人的感知系統通常使用傳統的深度學習方法,這需要大量標註資料來訓練監督學習模型。然而,透過眾包方式標註大型資料集的成本非常高昂。
另外,經典的監督學習方法在泛化能力上有一定的限制。為了將這些訓練好的模型應用到特定的場景或任務中,通常需要進行領域適應技術的精心設計,這往往需要進一步的資料收集和標註。同樣,傳統的機器人規劃和控制方法也需要對環境、智能體本身以及其他智能體的動態進行精確建模。這些模型通常是針對特定的環境或任務而建構的,當情況改變時,就需要重新建構模型。這顯示經典模型的遷移性能也是有限的。
事實上,對於許多用例,建立有效模型的成本要不是太高,就是完全無法辦到。儘管基於深度(強化)學習的運動規劃和控制方法有助於緩解這些問題,但它們仍舊會受到分佈移位(distribution shift)和泛化能力降低的影響。
雖然在開發通用型機器人系統上正面臨諸多挑戰,但自然語言處理(NLP)和電腦視覺(CV)領域近來卻進展迅猛,其中包括用於NLP 的大型語言模型(LLM)、用於高保真圖像生成的擴散模型、用於零樣本/ 少樣本生成等CV 任務的能力強大的視覺模型和視覺語言模型。
所謂的「基礎模型(foundation model)」其實就是大型預訓練模型(LPTM)。它們具備強大的視覺和語言能力。近來這些模型也已經在機器人領域中得到應用,並有望賦予機器人系統開放世界感知、任務規劃甚至運動控制能力。除了將現有的視覺和 / 或語言基礎模型用於機器人領域,還有研究團隊正針對機器人任務開發基礎模型,例如用於操控的動作模型或用於導航的運動規劃模型。這些機器人基礎模型展現了強大的泛化能力,能適應不同的任務甚至具身方案。
也有研究者直接將視覺 / 語言基礎模型用於機器人任務,這展現出了將不同機器人模組融合成單一統一模型的可能性。
儘管視覺和語言基礎模型在機器人領域前景可期,全新的機器人基礎模型也正在開發中,但機器人領域仍有許多挑戰難以解決。
從實際部署角度看,模型往往是不可復現的,無法泛化到不同的機器人形態(多具身泛化)或難以準確理解環境中的哪些行為是可行的(或可接受的)。此外大多數研究使用的都是基於 Transformer 的架構,關注的重點是對物件和場景的語義感知、任務層面的規劃、控制。而機器人系統的其它部分則少有人研究,例如針對世界動態的基礎模型或可以執行符號推理的基礎模型。這些都需要跨領域泛化能力。
最後,我們也需要更多大型真實世界數據以及支援多樣化機器人任務的高保真度模擬器。
這篇綜述論文總結了機器人領域所使用的基礎模型,目標是理解基礎模型能以怎樣的方式幫助解決或緩解機器人領域的核心挑戰。
論文網址:https://arxiv.org/pdf/2312.08782.pdf
#在這篇綜述中,研究者使用的「用於機器人的基礎模型(foundation models for robotics)」這個術語涵蓋兩個方面:(1) 用於機器人的現有的(主要)視覺和語言模型,主要是透過零樣本和上下文學習;(2) 使用機器人生成的數據專門開發和利用機器人基礎模型,以解決機器人任務。他們總結了用於機器人的基礎模型的相關論文中的方法,並對這些論文的實驗結果進行了元分析(meta-analysis)。
#圖 1 展示了這篇綜述報告的主要組成部分。
圖 2 給出了這篇綜述的整體架構。
為了幫助讀者更好地理解這篇綜述的內容,團隊首先給出了一節預備知識內容。
他們首先將介紹機器人學的基礎知識以及當前最佳技術。這裡主要聚焦於基礎模型時代之前機器人領域所使用的方法。這裡簡單說明一下,詳情請參閱原文。
#這一節總結了典型機器人系統的不同模組所面臨的五大核心挑戰。圖 3 給出了這五大挑戰的分類。
#
為了得到通用型智能體,一大關鍵挑戰是理解任務規範並將其根植於機器人對世界的當前理解中。通常而言,這些任務規範由使用者提供,但使用者只能有限地理解機器人的認知和物理能力的限制。這會帶來很多問題,不僅包括能為這些任務規範提供什麼樣的最佳實踐,而且還有起草這些規範是否足夠自然和簡單。基於機器人對自身能力的理解,理解和解決任務規範中的模糊性也充滿挑戰。
為了在現實世界中部署機器人,一大關鍵挑戰是處理環境和任務規範中固有的不確定性。根據來源的不同,不確定性可以分為認知不確定性(缺乏知識導致不確定)和偶然不確定性(環境中固有的噪音)。
不確定性量化(UQ)的成本可能會高得讓研究和應用難以為繼,也可能讓下游任務無法被最優地解決。有鑑於基礎模型大規模過度參數化的性質,為了在不犧牲模型泛化性能的同時實現可擴展性,提供能保留訓練方案同時又盡可能不改變底層架構的 UQ 方法至關重要。設計能提供對自身行為的可靠置信度估計,並反過來聰明地請求清晰說明回饋的機器人仍然是一個尚未解決的挑戰。
最近雖有一些進展,但要確保機器人有能力學習經驗,從而在全新環境中微調自己的策略並確保安全,這一點依然充滿挑戰。
這一節總結了用於機器人的基礎模型的當前研究方法。團隊將機器人領域所使用的基礎模型分成了兩大類:用於機器人的基礎模型和機器人基礎模型(RFM)。
用於機器人的基礎模型主要是指以零樣本的方式將視覺和語言基礎模型用於機器人,也就是說無需額外的微調或訓練。機器人基礎模型則可能使用視覺 - 語言預訓練初始化來進行熱啟動和 / 或直接在機器人資料集上訓練模型。
圖5 給出了分類詳情
這一小節關注的是視覺和語言基礎模型在機器人領域的零樣本應用。這主要包括將 VLM 以零樣本方式部署到機器人感知應用中,將 LLM 的情境學習能力用於任務層面和運動層面的規劃以及動作生成。圖 6 展示了一些代表性的研究工作。
#隨著包含來自真實機器人的狀態- 動作對的機器人資料集的增長,機器人基礎模型(RFM)類別同樣變得越來越有可能成功。這些模型的特點是使用了機器人資料來訓練模型解決機器人任務。
這一小節將總結並討論不同類型的 RFM。首先是能在單一機器人模組中執行一類任務的 RFM,這也稱為單目標機器人基礎模型。例如能產生控制機器人的低層級動作的 RFM 或可以產生更高層運動規劃的模型。
之後會介紹能在多個機器人模組中執行任務的 RFM,也就是能執行感知、控制甚至非機器人任務的通用模型。
前面列出了機器人領域面臨的五大挑戰。這一小節將介紹基礎模型可以如何幫助解決這些挑戰。
所有與視覺訊息相關的基礎模型(如 VFM、VLM 和 VGM)都可用於機器人的感知模組。而 LLM 的功能更多樣化,可用於規劃和控制。機器人基礎模型(RFM)通常用於規劃和動作生成模組。表 1 總結了解決不同機器人挑戰的基礎模型。
從表中可以看到,所有基礎模型都擅長泛化各種機器人模組的任務。 LLM 尤其擅長任務規範。另一方面,RFM 擅長應對動態模型的挑戰,因為大多數 RFM 都是無模型方法。對於機器人感知來說,泛化能力和模型的挑戰是相互耦合的,因為如果感知模型已經具有很好的泛化能力,就不需要獲得更多數據來執行領域適應或額外微調。
另外,在安全挑戰方面還缺乏研究,這會是重要的未來研究方向。
這一節總結了目前研究成果的資料集、基準和實驗。
僅依靠從語言和視覺資料集學到的知識是存在局限的。正如一些研究成果表明的那樣,摩擦力和重量等一些概念無法僅透過這些模態輕鬆學習。
因此,為了讓機器人智能體能更好地理解世界,研究社群不僅在適應來自語言和視覺領域的基礎模型,也在推進開發用於訓練和微調這些模型的大型多樣化多模態機器人資料集。
目前這些工作分為兩大方向:從現實世界收集資料以及從模擬世界收集資料再將其遷移到現實世界。每個方向各有優劣。其中從現實世界收集的資料集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。而常用的模擬器有 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等。
#該團隊的另一大貢獻是對本綜述報告中提到的論文中的實驗進行了統合分析,這可以幫助作者釐清以下問題:
表 2-7 和圖 11 給出了分析結果。
討論和未來方向
以上是機器人:基礎模型的進展如何的詳細內容。更多資訊請關注PHP中文網其他相關文章!