ガイダンスを必要とせず、一般化された視覚化モデルで使用できる、家具および家電製品用の初のユニバーサル 3D グラフィックスおよびテキストモデルシステム-AI-php.cn

最近では家事はすべてロボットがやってくれます。

スタンフォードからポットが使えるロボットが登場し、コーヒーマシンが使えるロボットも登場しました、Figure-01。

ガイダンスを必要とせず、一般化された視覚化モデルで使用できる、家具および家電製品用の初のユニバーサル 3D グラフィックスおよびテキストモデルシステム

#図-01 デモンストレーションビデオを見て、コーヒーマシンを上手に操作できるように 10 時間のトレーニングを実施するだけです。コーヒーカプセルの挿入からスタートボタンを押すまで、すべてが一度に完了します。

しかし、ロボットがさまざまな家具や家電製品に出会ったときに、デモンストレーションビデオなしでその使い方を自主的に学習できるようにするのは難しい問題です。そのためには、ロボットには、正確な操作スキルだけでなく、強力な視覚認識と意思決定計画能力も必要です。

さて、三次元で具現化されたグラフィックとテキストの大型モデルシステムは、上記の問題に対する新しいアイデアを提供します。このシステムは、3次元視覚に基づく正確な幾何学的知覚モデルと、プランニングに優れた2次元グラフィックおよびテキスト大型モデルを組み合わせており、サンプルデータを必要とせずに家具や家電に関連する複雑な長期タスクを解決できます。。

この研究は、スタンフォード大学のレオニダス・ギバス教授、北京大学の王和教授、知源人工知能研究所のチームによって完了しました。

論文リンク: https://arxiv.org/abs/2312.01307

プロジェクトホームページ: https://geometry.stanford.edu/projects/ sage/

コード: https://github.com/geng-haoran/SAGE

研究問題の概要

^{#図 1: 人間の指示に従って、ロボットアームは指示なしでさまざまな家電製品を使用できます。}

最近、PaLM-E と GPT-4V はロボットのタスク計画における大規模なグラフィックモデルの適用を推進しており、視覚言語による汎用ロボット制御が人気の研究分野となっています。

以前は 2 層のシステムを構築するのが一般的で、上位層の大型グラフィックモデルが計画とスキルのスケジューリングを行い、下位層の制御スキル戦略モデルが物理的なアクションの実行を担当します。しかし、ロボットがこれまで見たことのないさまざまな家電製品に直面し、家事において多段階の操作が必要となると、既存の手法の上層部も下層部も無力になってしまいます。

最新鋭のグラフィックモデル GPT-4V を例にとると、1 枚の絵を文字で表現することはできますが、操作可能な部品の検出、カウント、位置決め、状態推定に関しては、まだ完全な機能を備えています。間違いの。図 2 の赤いハイライトは、タンス、オーブン、およびスタンディングキャビネットの写真を記述する際に GPT-4V が犯したさまざまなエラーです。誤った説明に基づくと、ロボットのスキルのスケジュール設定は明らかに信頼できません。

#図 2: GP^{T-4V はカウント、検出などをあまり処理しません##まあ}#位置決め、状態推定、およびその他の汎用制御に重点を置いたタスク。下位レベルの制御スキル戦略モデルは、さまざまな実際の状況において、上位レベルのグラフィックおよびテキストモデルによって与えられたタスクを実行する責任を負います。既存の研究成果の多くは、既知の物体の把持点や操作方法をルールに基づいて厳密にコード化したものであり、これまでに見たことのない新たな物体カテゴリーには一般的に対応できていない。ただし、エンドツーエンドの操作モデル (RT-1、RT-2 など) は RGB モダリティのみを使用し、距離の正確な認識に欠け、高さなどの新しい環境の変化に対する一般化が不十分です。

Wang He 教授のチームによる以前の CVPR ハイライト作品 GAPartNet [1] に触発されて、研究チームはさまざまなカテゴリの家電製品の共通部品 (GAPart) に焦点を当てました。家電製品は常に変化していますが、不可欠な部品は常にいくつかあり、各家電製品とこれらの共通部品の間には、同様の形状と相互作用パターンがあります。

その結果、研究チームは論文 GAPartNet [1] で GAPart の概念を導入しました。 GAPart は、一般化可能な対話型コンポーネントを指します。 GAPart は、さまざまなカテゴリのヒンジ付きオブジェクトに表示されます。たとえば、開き戸は、金庫、ワードローブ、冷蔵庫に見られます。図 3 に示すように、GAPartNet [1] は、さまざまなタイプのオブジェクトの GAPart のセマンティクスとポーズに注釈を付けます。

図 3: GAPart: 一般化可能な対話型コンポーネント [1]。

先行研究に基づいて、研究チームは、3次元視覚に基づくGAPartをロボットの物体操作システムSAGEに創造的に導入しました。 SAGE は、一般化可能な 3D パーツ検出と正確な姿勢推定を通じて、VLM と LLM に情報を提供します。この新手法は、意思決定レベルでは、2次元グラフィックモデルの正確な計算と推論能力が不十分であるという問題を解決し、実行レベルでは、新手法は、 GAパーツのポーズ。

SAGE は、初の三次元具現化グラフィックとテキストの大規模モデルシステムを構成し、知覚、物理的相互作用からフィードバックに至るロボットのリンク全体に新しいアイデアを提供し、ロボットが家具や家具をインテリジェントかつユニバーサルに制御できるようにします。家電製品など。複雑なオブジェクトが可能なパスを探索します。

システムの紹介

図 4 は、SAGE の基本プロセスを示しています。まず、コンテキストを解釈できる命令解釈モジュールが、ロボットに入力された命令とその観察結果を解析し、これらの解析結果を次のロボットの動作プログラムとそれに関連する意味部分に変換します。次に、SAGE はセマンティック部分 (コンテナなど) を操作する必要がある部分 (スライダーボタンなど) にマッピングし、タスクを完了するためのアクション (ボタンの「押す」アクションなど) を生成します。

# 図 4: メソッドの概要。
システムプロセス全体を誰もが理解しやすくするために、サンプルなしでロボットアームを使用して目に見えない電子レンジを操作する例を見てみましょう。

コマンド分析: ビジュアルおよびコマンド入力から実行可能なスキルコマンドまで

入力後命令と RGBD 画像観察に基づいて、インタプリタはまず VLM と GAPartNet [1] を使用してシーン記述を生成します。その後、LLM (GPT-4) は命令とシーン記述を入力として受け取り、意味部分とアクションプログラムを生成します。あるいは、このリンクに特定のユーザーマニュアルを入力することもできます。 LLM は入力に基づいて操作可能な部品ターゲットを生成します。
^{図 5: シーン記述の生成 (例として電子レンジのゼロショット使用を取り上げます)。}

#アクションの生成をより適切に支援するために、シーンの説明にはオブジェクト情報、パーツ情報、およびいくつかのインタラクション関連情報が含まれています。シナリオの説明を生成する前に、SAGE はエキスパート GAPart モデル [1] を使用して、VLM のエキスパートの説明をプロンプトとして生成します。両方のモデルの長所を組み合わせたこのアプローチは、うまく機能します。
図 6: 指示の理解と動作計画 (電子レンジのゼロショット使用を例として取り上げます)。

#部品相互作用情報の理解と認識

##図 7: 部品の理解。

観測値を入力するプロセスで、SAGE は、GroundedSAM からの 2 次元 (2D) キューと GAPartNet からの 3 次元 (3D) キューを組み合わせます。これらの手がかりは、操作可能な部分の特定の位置決めとして使用されます。研究チームは、ScoreNet、非最大抑制 (NMS)、および PoseNet を使用して、新しい方法の知覚結果を実証しました。

その中には: (1) 部分を意識した評価ベンチマークについては、この記事では SAM [2] を直接使用しています。ただし、操作フローでは、この記事では、セマンティック部分も入力として考慮される、GroundedSAM を使用します。 (2) ラージ言語モデル (LLM) が操作可能な部分のターゲットを直接出力する場合、位置決めプロセスはバイパスされます。
図 8: 部品の理解 (ゼロショット電子レンジを例として取り上げます)。

#アクション生成
セマンティック部分が配置されたら操作可能な部分の上に、SAGE はこの部分上で実行可能な操作アクションを生成します。まず、SAGE はパーツの姿勢を推定し、関節状態 (パーツの軸と位置) と関節タイプ (平行移動または回転) に基づいて考えられる動きの方向を計算します。次に、これらの推定に基づいてロボットが部品を操作するための動作を生成します。
電子レンジを起動するタスクにおいて、SAGE はまず、ロボットアームが主な動作として初期グリッパー姿勢をとることを予測しました。次に、GAPartNet [1] で定義された所定の戦略に基づいてアクションが生成されます。この戦略は、パーツのポーズと関節の状態に基づいて決定されます。たとえば、回転ヒンジでドアを開ける場合、開始位置はドアの端またはハンドル上で、軌道はドアヒンジに沿った円弧になります。

インタラクティブなフィードバック
これまでのところ、研究チームは最初の観察を 1 つだけ使用しています。開ループ相互作用を生成します。この時点で、彼らは対話中に得られた観察をさらに活用し、認識された結果を更新し、それに応じて操作を調整するメカニズムを導入しました。この目標を達成するために、研究チームは対話プロセスに 2 つの部分からなるフィードバックメカニズムを導入しました。
最初の観察の知覚プロセス中にオクルージョンおよび推定エラーが発生する可能性があることに注意してください。
図 9: ドアを直接開くことができず、このラウンドのインタラクションは失敗します (例として電子レンジを使用したゼロショットを考えます)。。
これらの問題を解決するために、研究者はさらに、対話型観察 (Interactive Perception) を使用して操作を強化するモデルを提案しました。ターゲットグリッパーとパーツのステータスの追跡は、対話中ずっと維持されます。重大な逸脱が発生した場合、プランナーは「続行」、「次のステップに進む」、「停止して再計画」、「成功」の 4 つの状態から 1 つを選択できます。

たとえば、ジョイントに沿ってグリッパーを 60 度回転するように設定したが、ドアが 15 度しか開いていない場合、大規模言語モデル (LLM) プランナーは次のことを選択します。立ち止まって計画を立て直してください。」この対話型追跡モデルにより、LLM は対話プロセス中に特定の問題を分析でき、電子レンジの起動失敗の後でも再び「立ち上がる」ことができます。
# 図 10: インタラクティブなフィードバックと再計画を通じて、ロボットはボタンを開く方法を認識し、成功します。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃実験結果＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃研究チームはまず、大規模な言語ガイドによる多関節オブジェクトの対話のためのテストベンチマークを構築しました。
# 図 11: SAPIEN シミュレーション実験。
彼らは SAPIEN 環境 [4] を使用してシミュレーション実験を実施し、言語ガイド付きの 12 個の多関節オブジェクト操作タスクを設計しました。電子レンジ、収納家具、キャビネットのカテゴリごとに、異なる初期状態で開いた状態と閉じた状態を含む 3 つのタスクが設計されました。その他のタスクは、「鍋の蓋を開ける」、「リモコンのボタンを押す」、「ミキサーを起動する」です。実験結果は、SAGE がほぼすべてのタスクで良好なパフォーマンスを発揮することを示しています。

# 図 12: 実際のマシンのデモ。
研究チームは、UFACTORY xArm 6 とさまざまな関節オブジェクトを使用した大規模な実世界実験も実施しました。上図の左上は Blender を起動する例を示しています。ブレンダーの上部はジュースの容器として認識されますが、実際の機能はボタンを押して起動する必要があります。 SAGE のフレームワークは、セマンティックとアクションの理解を効果的に橋渡しし、タスクを正常に実行します。上の写真の右上はロボットを示しています。動作を停止するには非常停止ボタンを押し (下)、再起動するには回転 (上) する必要があります。 SAGE によって誘導されたロボットアームは、ユーザーマニュアルからの補助入力を使用して両方のタスクを実行しました。上の画像の下部にある画像は、電子レンジの電源を入れるタスクの詳細を示しています。

#図 13: 実際のマシンのデモンストレーションとコマンド解釈のその他の例。

概要SAGE は、家具や家具などの複雑な関節オブジェクトに対する一般的な操作命令を生成できる初の 3 次元視覚言語モデルフレームワークです。家電。オブジェクトのセマンティクスと操作性の理解を部品レベルで結びつけることにより、言語で指示されたアクションを実行可能な操作に変換します。

さらに、この記事では、一般的な大規模な視覚/言語モデルとドメインエキスパートモデルを組み合わせて、ネットワーク予測の包括性と正確性を強化する方法についても研究しています。これらのタスクを適切に処理して、最先端のパフォーマンスを実現します。実験結果は、このフレームワークが強力な一般化機能を備えており、さまざまなオブジェクトカテゴリやタスクで優れたパフォーマンスを実証できることを示しています。さらに、この記事は、多関節オブジェクトの言語ガイドによる操作の新しいベンチマークを提供します。

チーム紹介

SAGE この研究結果は、スタンフォード大学のレオニダス・ギバス教授の研究室、スタンフォード大学のワン・ヘ教授の身体的知覚および相互作用(EPIC研究室)から得られたものです。北京大学および知能知能研究所出典人工知能研究所。論文の著者は北京大学の学生でスタンフォード大学客員研究員の耿浩然氏（共著者）、北京大学博士課程の学生魏松林氏（共著者）、スタンフォード大学博士課程の学生鄧相悦氏と沈博毅氏、監修者はレオニダス教授です。ギバスと王鶴教授。
参考文献:

[1] Haoran Geng、Helin Xu、Chengyang Zhao、Chao Xu、Li Yi 、黄思源と王何。 Gapartnet: 一般化可能で実行可能な部分を介した、カテゴリを超えたドメインの一般化可能なオブジェクトの認識と操作。 arXiv プレプリント arXiv:2211.05272、2022。

[2] Kirillov、Alexander、Eric Mintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Tete Xiao他。「何でもセグメント化します。」 arXiv プレプリント arXiv:2304.02643 (2023).

^{[3] チャン、ハオ、フェンリー、シロンリウ、レイチャン、ハンスー、ジュンジュー、ライオネル M.ニーさんとフンヨン・シュムさん。「Dino: エンドツーエンドの物体検出のための改善されたノイズ除去アンカーボックスを備えた Detr。」 arXiv プレプリント arXiv:2203.03605 (2022).}

^{[4] Xiang 、ファンボ、Yuzhe Qin、Kaichun Mo、Yikuan Xia、Hao Zhu、Fangchen Liu、Minghua Liu 他。「Sapien: シミュレートされたパーツベースのインタラクティブ環境」。コンピュータビジョンとパターン認識に関する IEEE/CVF 会議議事録、pp. 11097-11107.2020.}

以上がガイダンスを必要とせず、一般化された視覚化モデルで使用できる、家具および家電製品用の初のユニバーサル 3D グラフィックスおよびテキストモデルシステムの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。