ソラの3Dバージョンは登場しますか？ UMass、MIT などが 3D 世界モデルを提案し、身体化されたインテリジェントロボットが新たなマイルストーンを達成-AI-php.cn

ソラの3Dバージョンは登場しますか？ UMass、MIT などが 3D 世界モデルを提案し、身体化されたインテリジェントロボットが新たなマイルストーンを達成

WBOY

リリース： 2024-03-25 16:10:12

転載

959 人が閲覧しました

最近の研究では、ビジョン言語アクション (VLA、ビジョン言語アクション) モデルへの入力これは基本的に 2D データであり、より一般的な 3D 物理世界は統合されていません。
さらに、既存のモデルは、世界のダイナミクスやアクションとダイナミクスの関係を無視し、「知覚されたアクションの直接マッピング」を学習することによってアクション予測を実行します。
対照的に、人間が考えるとき、将来のシナリオの想像力を記述し、次の行動を計画できる世界モデルを導入します。
この目的のために、マサチューセッツ大学アマースト校、MIT およびその他の機関の研究者は、3D-VLA モデルを提案しました。新しいクラスの具体化された基盤モデルを導入することにより、生成された世界は、3D 認識、推論、および 3D をシームレスに接続するモデルになります。アクション。
ソラの3Dバージョンは登場しますか？ UMass、MIT などが 3D 世界モデルを提案し、身体化されたインテリジェントロボットが新たなマイルストーンを達成

#プロジェクトのホームページ: https://vis-www.cs.umass .edu/3dvla/

論文アドレス: https://arxiv.org/abs/2403.09631

具体的には、3D-VLA に基づいて構築されています3D ベースの大規模言語モデル (LLM) と、具体化された環境に参加するための一連の対話トークンの導入です。

Ganchuang チームは、一連の具現化拡散モデルをトレーニングし、生成機能をモデルに注入し、LLM に調整してターゲット画像と点群を予測しました。

3D-VLA モデルをトレーニングするために、既存のロボットデータセットから大量の 3D 関連情報を抽出し、巨大な 3D 具現化命令データセットを構築しました。

研究結果は、3D-VLA が、具体化された環境での推論、マルチモーダル生成、および計画タスクの処理において優れたパフォーマンスを発揮することを示しており、これは現実世界のシナリオにおける潜在的なアプリケーションの価値を強調しています。

3D エンボディド命令チューニングデータセット

インターネット上に数十億のデータセットがあるため、VLM は複数のタスクを実行します。優れたパフォーマンスと 100 万レベルのビデオを実現します。アクションデータセットは、ロボット制御用の特定の VLM の基礎も築きます。

しかし、現在のデータセットのほとんどは、十分な深度や 3D アノテーション、ロボット動作の正確な制御を提供できません。これには、3D 空間推論とインタラクションのコンテンツがデータセットに含まれている必要があります。 3D 情報が不足しているため、「一番奥のカップを真ん中の引き出しに入れる」など、3D 空間推論を必要とする命令をロボットが理解して実行することが困難になります。

このギャップを埋めるために、研究者らは、モデルをトレーニングするために十分な「3D 関連情報」と「対応するテキスト命令」を提供する大規模な 3D 命令調整データセットを構築しました。

研究者らは、既存の具体化されたデータセットから 3D 言語アクションのペアを抽出し、点群、深度マップ、3D 境界ボックス、ロボットの 7D アクション、およびテキスト説明ラベルを取得するパイプラインを設計しました。

3D-VLA ベースモデル

3D-VLA は、具体化された環境における 3 次元の推論、目標生成、および意思決定のための世界モデルです。

まず 3D-LLM 上にバックボーンネットワークを構築し、一連のインタラクティブトークン; 次に、拡散モデルを事前トレーニングし、射影を使用して LLM モデルと拡散モデルを調整することにより、ターゲット生成機能が 3D-VLA

バックボーンネットワークに注入されます。

第一段階では、研究者らは 3D-LLM 手法に従って 3D-VLA ベースモデルを開発しました。収集されたデータセットが必要な 10 億レベルのスケールに達していなかったためです。マルチモーダル LLM を最初からトレーニングするには、マルチビュー機能を使用して 3D シーンの特徴を生成する必要があります。これにより、視覚的特徴を調整せずに事前トレーニングされた VLM にシームレスに統合できます。

同時に、3D-LLM のトレーニングデータセットには主にオブジェクトと屋内シーンが含まれており、これらは特定の設定と直接一致しないため、研究者は BLIP2- を使用することを選択しました。 PlanT5XL を事前トレーニングモデルとして使用します。

トレーニングプロセス中に、トークンの入力および出力の埋め込みと Q-Former の重みを解凍します。

インタラクショントークン

3D シーンと環境内のインタラクションに対するモデルの理解を強化するために、研究者らは、新しいインタラクティブトークンのセットを導入しました。

まず、解析された文内のオブジェクト名詞 ( チョコレートバーなど) を含むオブジェクトトークンが入力に追加されます。 obj> [loc tokens] on the table) を使用して、モデルが操作または言及されているオブジェクトをより適切にキャプチャできるようにします。

第 2 に、空間情報を言語でより適切に表現するために、研究者らは、AABB 形式の 6 つのマークを使用して位置トークンのセットを設計しました。 3次元の境界フレーム。

3 番目に、動的エンコーディングをより適切に実行するために、がフレームワークに導入され、静的シーンの埋め込みが含まれます: シーントークンを組み合わせることで、3D-VLA は動的シーンを理解できます。、インターレース 3D シーンとテキストの入力を管理します。

このアーキテクチャは、ロボットの動作を表す特殊なタグのセットを拡張することによってさらに強化されています。ロボットの動作には 7 つの自由度があり、、、などの個別のトークンを使用して、アームの事前に設定された絶対位置、回転、およびグリッパーの開きを表現します。各アクションはトークンで区切られます。

目標生成機能の導入

人間はシーンの最終状態を事前に視覚化し、目標生成の精度を向上させることができます。行動の予測や意思決定も世界モデル構築の重要な側面であり、研究者らは予備実験で現実的な最終状態を提供することでモデルの推論能力と計画能力を強化できることも発見した。

しかし、MLLM をトレーニングして画像、深度、点群を生成するのは簡単ではありません:

第一に、ビデオ拡散モデルは具体化されたシーン用に設計されていません。オーダーメイドの場合、たとえば、Runway が今後の「引き出しを開いた」フレームを生成すると、ビューの変更、オブジェクトの変形、奇妙なテクスチャの置き換え、レイアウトの歪みなどの問題がシーン内で発生します。

さらに、さまざまなモードの拡散モデルを単一の基本モデルに統合する方法は依然として難しい問題です。

したがって、研究者によって提案された新しいフレームワークは、まず画像、深度、点群などのさまざまな形式に基づいて特定の拡散モデルを事前トレーニングし、次に拡散モデルのデコーダを使用します。アライメント段階で、3D-VLAの埋め込み空間に合わせてアライメントします。

#実験結果

3D-VLA は、3D 世界で使用できる多機能の 3D ベースの生成世界モデルです。研究者らは、推論と位置特定、マルチモーダルターゲットの内容の想像、およびロボット操作のためのアクションの生成を実行する際に、主に 3D 推論と位置特定、マルチモーダルターゲットの生成、具現化されたアクション計画の 3 つの側面から 3D-VLA を評価しました。

3D 推論とローカリゼーション

3D-VLA は、言語推論タスクにおいてすべての 2D VLM メソッドよりも優れています。研究担当者によるこれは、推論のためにより正確な空間情報を提供する 3D 情報の活用につながります。

さらに、データセットには 3D 位置決めアノテーションのセットが含まれているため、3D-VLA は関連するオブジェクトの位置を学習し、モデルが推論のために主要なオブジェクトにさらに焦点を当てるのに役立ちます。

研究者らは、3D-LLM がこれらのロボット推論タスクのパフォーマンスが低いことを発見し、ロボット関連の 3D データセットの収集とトレーニングの必要性を示しました。

そして、3D-VLA は、位置決めパフォーマンスにおいて 2D ベースライン手法よりも大幅に優れたパフォーマンスを示しました。この発見は、アノテーションプロセスの有効性の証拠でもあります。説得力のある証拠は、モデルが強力な 3D 位置決め機能を獲得するのに役立ちます。

マルチモーダルターゲット生成

ロボット工学分野への移行のための既存のゼロショット生成方法と比較して、3D-VLA はほとんどの指標でより良い結果を達成します。このパフォーマンスは、ワールドモデルをトレーニングするために「ロボットアプリケーション用に特別に設計されたデータセット」を使用することの重要性を裏付けています。

Instruct-P2P* と直接比較しても、3D-VLA は一貫して優れたパフォーマンスを示しており、その結果は、大規模な言語モデルを 3D に統合することができることを示しています。 VLA、ロボットの動作命令をより包括的かつ深く理解できるようになり、ターゲット画像の生成パフォーマンスが向上します。

さらに、入力プロンプトから予測境界ボックスを除外すると、わずかなパフォーマンスの低下が観察され、モデルの理解を助けるために中間の予測境界ボックスを使用することの有効性が確認されています。シーン全体でモデルが許可されています。特定の指示で言及されている特定のオブジェクトにより多くの注意を割り当てることで、最終的には最終的なターゲット画像を想像する能力が向上します。