具身智能體三維感知新鏈條，TeleAI &上海AI Lab提出多視角融合具身模式「SAM-E」-人工智慧-PHP中文網

具身智能体三维感知新链条，TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

當我們拿起機械手錶時，從正面會看到錶盤和指針，從側面會看到錶冠和錶鍊，打開手錶背面會看到複雜的齒輪和機芯。每個視角都提供了不同的訊息，將這些資訊綜合起來才能理解操作對象的整體三維。

想讓機器人在現實生活中學會執行複雜任務，首先需要使機器人理解操作物件和被操作物件的屬性，以及對應的三維操作空間，包括物體位置、形狀、物體之間的遮蔽關係，以及物件與環境的關係等。

其次，機器人需要理解自然語言指令，對未來動作進行長期規劃和高效執行。使機器人具備從環境感知到動作預測的能力是具有挑戰性的。

近期，中國電信人工智慧研究院（TeleAI）李學龍教授團隊聯合上海人工智慧實驗室、清華大學等單位，模擬人「感知—記憶—思維—想像」的認知過程，提出了多視角融合驅動的通用具身操作演算法，為機器人學習複雜操作給出了可行解決方案，論文被國際機器學習大會ICML 2024錄取，為建構通用三維具身策略奠定了基礎。 SAM-E影片介紹如下：

近年來，視覺基礎模型對影像的理解能力獲得了快速發展。然而，三維空間的理解仍存在許多挑戰。能否利用視覺大模型幫助具身智能體理解三維操作場景，使其在三維空間中完成各種複雜的操作任務呢？受「感知—記憶—思維—想像」的認知過程啟發，論文提出了全新的基於視覺分割模型Segment Anything（SAM）的具身基座模型SAM-E 。

首先，SAM- E具有強大可提示（promptable）「感知」能力，將SAM特有的分割結構應用在語言指令的具在身任務中，透過解析文字指令使模型專注於場景中的操作物體。

隨後，設計一個多視角Transformer，將深度特徵、影像特徵與指令特徵進行融合與對齊，實現物件「記憶#」與操作「思考」，以此來理解機械手臂的三維操作空間。

最後，提出了一個全新的動作序列預測網路，對多個時間步的動作序列進行建模，「想像」動作指令，實現了從三維場景感知到具身動作的端到端輸出。

論文名稱：SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
#論文連結： https://sam-embodied.github.io/static/SAM-E.pdf
專案網址： https://sam-embodied.github.io/

從二維感知到三維感知

在數字在時代的浪潮中，隨著人工智慧技術的快速發展，我們正逐漸邁入一個嶄新的時代——具身智慧時代。賦予智能體身體，使其具備與真實世界直接互動的能力，成為了目前研究的重點方向之一。

要實現這一目標，智能體必須具備強大的三維感知能力，以便能夠準確地理解周圍環境。

傳統的二維感知手段在面對複雜的立體空間時顯得力不從心，如何讓具身智能體透過學習掌握對三維空間的精準建模能力，成為了一個亟待解決的關鍵問題。

現有工作透過正視圖、俯視圖、側視圖等等多個視角的視圖還原和重建三維空間，然而所需的計算資源較為龐大，同時在不同場景中具有的泛化能力有限。

為了解決這個問題，本工作探索一種新的途徑－將視覺大模型的強大泛化能力應用於具身智能體的三維感知領域。

SAM-E提出了使用具有強大泛化能力的通用視覺大模型SAM 進行視覺感知，透過在具身場景的高效微調，將其具有的可泛化，可提示（promptable）的特徵提取能力、實例分割能力、複雜場景理解等能力有效遷移到具身場景中。

為了進一步優化SAM基座模型的效能，引入了動作序列網路的概念，不僅能夠捕捉單一動作的預測，還能夠深入理解連續動作之間的內在聯繫，充分挖掘動作間的時序訊息，從而進一步提高基座模型對具身場景的理解與適應能力。

具身智能体三维感知新链条，TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

^{之後符號11. SAM#-#11. SAM}

#圖片1.

SAM-E方法

#SAM-E方法的核心觀點主要包含兩個面向：
#利用SAM的提示驅動結構，建構了一個強大的基座模型，在任務語言指令下擁有出色的泛化效能。透過LoRA微調技術，將模型適配到具身任務中，進一步提升了其效能。

採用
時序動作建模技術

，捕捉動作序列中的時序訊息，更能理解任務的動態變化，並及時調整機器人的策略和執行方式，使機器人保持較高的執行效率。

可提示感知與微調

SAM- E核心在於利用任務指令提示驅動的網路結構，包含一個強大的視覺編碼器和一個輕量的解碼器。

在具身場景中

任務「提示」以自然語言的形式呈現###，作為任務描述指令，視覺編碼器發揮其可提示的感知能力，提取與任務相關的特徵。策略網路則扮演解碼器的角色，基於融合的視覺嵌入和語言指令輸出動作。 ######在訓練階段，SAM-E 使用### LoRA 進行高效微調###，大幅減少了訓練參數，使視覺基礎模型能夠快速適應於具身任務。 ###

多視角三維融合

#SAM-E引入了多視角Transformer網絡，以融合多視角的視覺輸入，深入理解三維空間。其工作分為兩個階段：視角內注意力（View-wise Attention）和跨視角注意力（Cross-view Attention）。

首先，對多視角特徵分別進行視角內部的注意力處理，然後融合多個視角和語言描述進行混合視角注意力，實現多視角的資訊融合和圖像—語言對齊。

動作序列建模

#在機械手臂執行中，末端執行器的位置和旋轉通常呈現連續且平滑的變化趨勢。這項特性使得相鄰動作之間存在著密切的聯繫和連續性。基於這個觀察，提出了一種新穎的時間平滑假設，旨在充分利用相鄰動作之間的內在關聯，實現對動作序列的有效模仿學習。

具體來說，SAM-E框架透過序列建模技術捕捉動作序列中的模式和關係，為動作預測提供一種隱性的先驗知識，並對動作的連續性加以約束，從而顯著提升動作預測的準確性和一致性。

在實際應用中，SAM-E 允許在一次動作預測中執行後續的多步驟動作，大大提高了執行效率。

具身智能体三维感知新链条，TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」