家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型-人工智慧-PHP中文網

這幾天，家事都被機器人搶著乾了。

前腳來自史丹佛的會用鍋子的機器人剛登場，後腳又來了個會用咖啡機的機器人 Figure-01 。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

Figure-01只需觀看示範視頻，再進行10小時的訓練，就能熟練操作咖啡機。從放入咖啡膠囊到按下啟動鍵，一氣呵成。

然而，要使機器人能夠獨立學會使用各種家具和家電，遇到它們時不需要示範視頻，這是一個難以解決的問題。這需要機器人具備強大的視覺感知和決策規劃能力，以及精確的操縱技能。

現在，一個三維具身圖文大模型系統為上述難題提供了新思路。該系統將基於三維視覺的精準幾何感知模型與擅長規劃的二維圖文大模型結合了起來，無需樣本數據，即可解決與家具家電相關的複雜長程任務。

這項研究由史丹佛大學的 Leonidas Guibas 教授、北京大學的王鶴教授團隊，與智源人工智慧研究院合作完成。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

論文連結：https://arxiv.org/abs/2312.01307

計畫首頁：https://geometry.stanford.edu/projects/ sage/

程式碼：https://github.com/geng-haoran/SAGE

研究問題概述

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

##圖1：根據人類指令，機械手臂能夠無師自通地使用各種家用電器。

近日，PaLM-E 和 GPT-4V 帶動了圖文大模型在機器人任務規劃中的應用，視覺語言引導下的泛化機器人操控成為了熱門研究領域。

過去的常見方法是建立一個兩層的系統，上層的圖文大模型做規劃和技能調度，下層的操控技能策略模型負責物理地執行動作。但當機器人在家務活中面對各種從未見過並且需要多步驟操作的家用電器時，現有方法中的上下兩層都將束手無策。

以目前最先進的圖文大模型GPT-4V 為例，雖然它可以對單張圖片進行文字描述，但涉及可操作零件檢測、計數、定位及狀態估計時，它仍然錯誤百出。圖二中的紅色高亮部分是 GPT-4V 在描述抽屜櫃、烤箱和立櫃的圖片時出現的各種錯誤。基於錯誤的描述，機器人再進行技能調度，顯然不太可靠。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

圖2：GP^{#T-4V 無法很好地處理計數，偵測，}定位，狀態估計等泛化操控所關注的任務。

下層的操控技能策略模型負責在各種各樣的實際情況中執行上層圖文大模型給出的任務。現有的研究成果大部分是基於規則生硬地對一些已知物體的抓取點位和操作方式進行了編碼，無法泛應對沒見過的新物體類別。而基於端到端的操作模型（如 RT-1，RT-2 等）只使用了 RGB 模態，缺乏對距離的準確感知，對新環境中如高度等變化的泛化性較差。

受王鶴教授團隊先前的 CVPR Highlight 工作 GAPartNet [1] 啟迪，研究團隊將重點放在了各種類別的家用電器中的通用零件（GAPart）之上。雖然家用電器千變萬化，但總有幾樣零件不可或缺，每個家電和這些通用的零件之間存在相似的幾何和互動模式。

由此，研究團隊在 GAPartNet [1] 這篇論文中引入了 GAPart 這個概念。 GAPart 指可泛化可互動的零件。 GAPart 出現在不同類別的鉸接物上，例如，在保險箱，衣櫃，冰箱中都能找到鉸接門這種零件。如圖 3，GAPartNet [1] 在各類物件上標示了 GAPart 的語意與位姿。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

圖3：GAPart：可泛化可互動的零件[1]。 #

在先前研究的基礎上，研究團隊創造性地將基於三維視覺的 GAPart 引入了機器人的物體操控系統 SAGE 。 SAGE 將透過可泛化的三維零件檢測 (part detection)，精確的位姿估計 (pose estimation) 為 VLM 和 LLM 提供資訊。新方法在決策層解決了二維圖文模型精細計算和推理能力不足的問題；在執行層，新方法透過基於 GAPart 位姿的魯棒物理操作 API 實現了對各個零件的泛化性操作。

SAGE 構成了首個三維具身圖文大模型系統，為機器人從感知、物理交互再到反饋的全鏈路提供了新思路，為機器人能夠智能、通用地操控家具家電等複雜物體探尋了一條可行的道路。

系統介紹

圖 4 展示了 SAGE 的基本流程。首先，一個能夠解讀上下文的指令解釋模組將解析輸入機器人的指令和其觀察結果，將這些解析轉換為下一步機器人動作程式以及與其相關的語義部分。接下來，SAGE 將語意部分（如容器 container）與需要進行操作部分（如滑動按鈕 slider button）對應起來，並產生動作（如按鈕的「按壓 press」動作）來完成任務。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

^{圖 4：方法概覽。}

為了方便大家理解整個系統流程，一起來看看在無需樣本的情況下，讓機械手臂使用操作一款沒見過的微波爐的例子。

指令解析：從視覺和指令輸入到可執行的技能指令

輸入指令和RGBD 影像觀測後，解釋器首先使用VLM 和GAPartNet [1] 產生了場景描述。隨後，LLM（GPT-4）將指令和場景描述作為輸入，產生語義零件和動作程式。或者也可以在這個環節輸入特定的使用手冊。 LLM 將基於輸入產生一個可操作零件的目標。

^{圖 5：場景描述的產生（以 zero-shot 使用微波爐為例）。}

為了更好地協助動作生成，場景描述包含物件資訊、零件資訊以及一些與互動相關的資訊。在產生場景描述之前，SAGE 也會採用專家級 GAPart 模型 [1] 為 VLM 產生專家描述作為提示。這種兼收了兩種模型的優點的方法效果良好。

^{圖 6：指令理解與動作規劃（以 zero-shot 使用微波爐為例）。}

零件互動訊息的理解與感知

##圖7：零件理解。

在輸入觀察結果的過程中，SAGE 綜合了GroundedSAM 的二維（2D）提示和來自GAPartNet 的三維（3D）提示，然後這些提示被用作可操作零件的具體定位。研究團隊利用 ScoreNet、非極大值抑制（NMS）和 PoseNet 等展示了新方法的感知結果。

其中：（1）對於零件感知評估基準，文章直接採用了 SAM [2]。然而，在操作流程中，文章使用了 GroundedSAM，它也考慮了作為輸入的語義零件。（2）如果大型語言模型（LLM）直接輸出了一個可操作零件的目標，那麼定位過程將被繞過。

圖 8：零件理解（以 zero-shot 使用微波爐為例）。

動作產生

#一旦將語意零件定位到可操作零件之上，SAGE 將在這個零件上產生可執行的操作動作。首先，SAGE 將估計零件的姿態，根據鉸接類型（平移或旋轉）計算鉸接狀態（零件軸線和位置）和可能的運動方向。然後，它再根據以上估算產生機器人操作零件的動作。

在啟動微波爐這個任務中，SAGE 首先預測機械手臂應該以初始夾爪姿態作為主要動作。再根據 GAPartNet [1] 中定義的預定策略產生動作。這個策略是根據零件姿態和鉸接狀態來決定的。例如，為了打開一個有旋轉鉸接的門，起始位置可以在門的邊緣或把手上，其軌跡是沿著門鉸鏈定向的圓弧。

互動回饋

#到目前為止，研究團隊只使用了一個初始觀測來產生開環交互。這時，他們引入了一種機制，可以進一步利用在互動過程中獲得的觀測結果，更新感知結果並相應調整操作。為了實現這一目標，研究團隊為互動過程中引入了一個兩部分的回饋機制。

應注意，在首次觀測的感知過程中可能會出現遮蔽和估算錯誤。

圖 9：直接開門不能打開，該輪互動失敗（以 zero-shot 使用微波爐為例）。

為了解決這些問題，研究者進而提出了一個模型，利用互動式觀測 (Interactive Perception) 來增強操作。在整個互動過程中，目標夾持器和零件狀態的追蹤得以維持。如果出现显著的偏差，规划器可以自行选择以下四种状态之一：「继续」、「转移到下一步」、「停止并重新规划」或「成功」。

例如，如果设置夹持器沿着一个关节旋转 60 度，但门只打开了 15 度，大型语言模型（LLM）规划器会选择「停止并重新规划」。这种互动跟踪模型确保 LLM 在互动过程中能够具体问题具体分析，在微波炉启动失败的挫折中也能重新「站起来」。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

^{图 10：通过交互反馈和重新规划，机器人意识到按钮打开的方法并成功。}

实验结果

研究团队首先搭建了一个大规模语言指导的铰接物体交互的测试基准。

^{图 11：SAPIEN 模拟实验。}

他们使用了 SAPIEN 环境 [4] 进行了模拟实验，并设计了 12 项语言引导的铰接物体操作任务。对于微波炉、储物家具和橱柜的每个类别，各设计了 3 个任务，包括在不同初始状态下的开启状态和关闭状态。其他任务为「打开锅盖」、「按下遥控器的按钮」和「启动搅拌器」。实验结果显示，在几乎所有任务中 SAGE 都表现卓越。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

^{图 12：真机演示。}

研究团队同时也进行了大规模真实世界实验，他们使用 UFACTORY xArm 6 和多种不同的铰接物体进行操作。上图的左上部分展示了一个启动搅拌器的案例。搅拌器的顶部被感知为一个用于装果汁的容器，但其实际功能需要按下一个按钮来开启。SAGE 的框架有效地连接了其语义和动作理解，并成功执行了任务。

上图右上部分展示了机器人，需要按下（下压）紧急停止按钮来停止操作，旋转（向上）来重启。借助用户手册的辅助输入，在 SAGE 指导下的机械臂完成了这两个任务。上图底部的图片展示了开启微波炉任务中的更多细节。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

^{图 13：更多真机演示和指令解读示例。}

总结

SAGE是首个能够生成通用的家具家电等复杂铰接物体操控指令的三维视觉语言模型框架。它通过在零件级别上连接物体语义和可操作性理解，将语言指令的动作转化为可执行的操控。

此外，文章还研究了将通用的大型视觉 / 语言模型与领域专家模型相结合的方法，以增强网络预测的全面性和正确性，更好地处理这些任务并实现最先进的性能。实验结果表明，该框架具有强大的泛化能力，可以在不同物体类别和任务上展示出优越的性能。此外，文章还为语言指导的铰接物体操作提供了一个新的基准测试。

团队介绍

SAGE 这一研究成果来自斯坦福大学 Leonidas Guibas 教授实验室、北京大学王鹤教授具身感知和交互（EPIC Lab）以及智源人工智能研究院。论文的作者为北京大学学生、斯坦福大学访问学者耿浩然（共同一作）、北京大学博士生魏松林（共同一作）、斯坦福大学博士生邓丛悦，沈博魁，指导老师为 Leonidas Guibas 教授和王鹤教授。

^{参考文献：}

^{[1] Haoran Geng，Helin Xu，Chengyang Zhao，Chao Xu，Li Yi，Siyuan Huang，and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272，2022.}

^{[2] Kirillov，Alexander，Eric Mintun，Nikhila Ravi，Hanzi Mao，Chloe Rolland，Laura Gustafson，Tete Xiao et al。"Segment anything." arXiv preprint arXiv:2304.02643 (2023).}

^{[3] Zhang，Hao，Feng Li，Shilong Liu，Lei Zhang，Hang Su，Jun Zhu，Lionel M。 Ni，and Heung-Yeung Shum。 "Dino: Detr with improved denoising anchor boxes for end-to-end object detection." arXiv preprint arXiv:2203.03605 (2022).}

###########################################################################################' ，Fanbo，Yuzhe Qin，Kaichun Mo，Yikuan Xia，Hao Zhu，Fangchen Liu，Minghua Liu et al。 "Sapien: A simulated part-based interactive environment." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition，pp。 11097-11107。2020.#########

以上是家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！