身体化された知能の三次元認識の新たな連鎖、TeleAIと上海AIラボは多視点融合身体化モデル「SAM-E」を提案-AI-php.cn

具身智能体三维感知新链条，TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

機械式時計を手に取ると、正面からは文字盤と針が、横からはリューズとブレスレットが見えます。時計の裏側には、複雑な歯車とムーブメントが表示されます。各視点は、操作されているオブジェクトの全体的な 3 次元ビューを理解するために組み合わされるさまざまな情報を提供します。

実生活でロボットに複雑なタスクの実行を学習させたい場合、まずロボットに、操作オブジェクトと操作オブジェクト、そしてそれに対応する 3 つのプロパティを理解させる必要があります-次元操作空間には、位置、形状、オブジェクト間のオクルージョン関係、オブジェクトと環境の間の関係などが含まれます。

次に、ロボットは自然言語の命令を理解し、長期的な計画を実行し、将来のアクションを効率的に実行する必要があります。環境認識から行動予測までの機能をロボットに装備することは困難です。

最近、

中国電信人工知能研究所(TeleAI)の李雪龍教授は、清華大学上海人工知能研究所やその他の部門と協力して、人間の「知覚・記憶・思考」の認知をシミュレートしました。このプロセスでは、多視点融合によって駆動される普遍的な身体化操作アルゴリズムが提案され、ロボットが複雑な操作を学習するための実現可能なソリューションを提供しました。この論文は、国際機械学習会議 ICML 2024 に採択され、普遍的な三次元具体化戦略を構築するための基礎。 SAM-E ビデオの紹介は次のとおりです。

近年、ビジュアルベーシックモデルの画像を理解する能力は急速に発展しています。しかし、三次元空間を理解するにはまだ多くの課題があります。大規模な視覚モデルを使用して、身体化されたエージェントが 3 次元の操作シーンを理解し、3 次元空間でさまざまな複雑な操作タスクを完了できるようにすることはできますか?この論文は、「知覚-記憶-思考-想像力」の認知プロセスに触発され、視覚セグメンテーションモデルSegment Anything (SAM)に基づいた新しい具体化された基本モデルSAM-Eを提案しています。

まず第一に、SAM-E には強力なプロンプト可能な「

知覚

」機能があり、SAM の独自のセグメンテーション構造を言語命令の特定のタスクに適用し、テキスト命令を解析することでモデルがシーンに注意を払うことができるようにします。 .操作オブジェクト。

続いて、ロボットアームを理解するためにオブジェクト「

記憶

」と操作「考える」を実現するために、深度特徴、画像特徴、およびコマンド特徴を融合および調整するようにマルチビューTransformerが設計されています。操作スペース。

最後に、複数のタイムステップでアクションシーケンスをモデル化し、アクション指示を「想像」し、3次元のシーン認識から具体化されたアクションまで

を実現するための

新しいアクションシーケンス予測ネットワークが提案されています。出力。

論文名: SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
論文リンク: https://sam-embodied.github.io/static/SAM-E.pdf
プロジェクトアドレス: https://sam-embodied.github.io/

二次元の知覚から三次元の知覚へ

デジタル時代の波の中で、人工知能とインテリジェントテクノロジーの急速な発展に伴い、私たちは徐々に新しい時代、つまり身体化された知能の時代に入りつつあります。知的エージェントに身体を与え、現実世界と直接対話する能力を与えることが、現在の研究の重要な方向性の 1 つとなっています。

この目標を達成するには、エージェントが周囲の環境を正確に理解できるように、強力な 3 次元認識能力を備えている必要があります。

複雑な 3 次元空間に直面した場合、従来の 2 次元認識方法では不十分です。身体化されたエージェントが学習を通じて 3 次元空間の正確なモデリング能力を習得できるようにする方法は、解決すべき重要な課題となっています。緊急に。

既存の作品は、正面図、上面図、側面図などの複数の視点から3次元空間を復元および再構成します。しかし、必要なコンピューティングリソースが比較的大きく、さまざまなシナリオでの汎化能力が不十分です。。限定。

この問題を解決するために、この研究では新しいアプローチを模索しています -

大規模な視覚モデルの強力な一般化能力を、身体化されたエージェントの 3 次元認識の分野に適用する。

SAM-E は、視覚認識のための強力な一般化機能を備えた一般的な視覚的な大規模モデル SAM を使用することを提案しています。これは、特徴抽出機能、インスタンスセグメンテーション機能、複雑なシーンの一般化が可能です。理解力やその他の能力が具体化されたシーンに効果的に伝達されます。

SAM 基本モデルのパフォーマンスをさらに最適化するために、アクションシーケンスネットワークの概念が導入されます。これにより、単一のアクションの予測を捉えるだけでなく、連続するアクションとアクションの間の内部接続を深く理解することもできます。アクション間のタイミング情報を完全にマイニングすることで、具体化されたシーンを理解し、それに適応するベースモデルの能力がさらに向上します。図 1. SAM-E の全体的なフレームワーク

SAM-E 手法の中核的な観点には主に 2 つの側面が含まれます:

具身智能体三维感知新链条，TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」

SAM のプロンプト駆動構造を使用することで、強力な ^{ベースモデル} が実現されます。タスク言語命令の下で優れた汎化パフォーマンスを発揮するように構築されています。 LoRA 微調整テクノロジーにより、モデルは特定のタスクに適応され、パフォーマンスがさらに向上します。

は、

シーケンシャルアクションモデリングテクノロジー

を採用して、アクションシーケンスのタイミング情報をキャプチャし、タスクの動的な変化をよりよく理解し、ロボットの戦略と実行方法をタイムリーに調整して、タスクの高い実行効率を維持します。ロボット。

プロンプト認識と微調整

SAM-E の中核は、強力なビジュアルエンコーダと軽量デコーダを含む、タスク指示プロンプトによって駆動されるネットワーク構造です。
具現化されたシーンでは、タスクの「プロンプト」が自然言語
トレーニング段階では、SAM-E は効率的な微調整に LoRA を使用します。これにより、トレーニングパラメーターが大幅に削減され、基本的な視覚モデルが特定のタスクに迅速に適応できるようになります。
多視点 3D 融合

SAM-E は、複数の視点からの視覚入力を融合し、3 次元空間を深く理解するために、多視点 Transformer ネットワークを導入しています。その作業は、ビューワイズアテンション と クロスビューアテンション の 2 つの段階に分かれています。

まず、マルチビューの特徴に対してそれぞれビュー内アテンション処理を実行し、次にハイブリッドビューアテンションのために複数のビューと言語記述を融合して、マルチビュー情報の融合と画像と言語の位置合わせを実現します。

アクションシーケンスモデリング

ロボットアームの実行中、エンドエフェクターの位置と回転は通常、連続的で滑らかな変化傾向を示します。この機能により、隣接するアクション間の密接な接続と連続性が可能になります。この観察に基づいて、隣接するアクション間の固有の相関を十分に活用し、アクションシーケンスの効果的な模倣学習を達成することを目的とした、新しい時間的平滑化仮説が提案されます。

具体的には、SAM-Eフレームワークは、シーケンスモデリング技術を通じてアクションシーケンスのパターンと関係をキャプチャし、アクション予測のための暗黙的な事前知識を提供し、アクションの連続性を制限する
ことで、アクションの精度と一貫性を大幅に向上させます予測。
実際のアプリケーションでは、SAM-E を使用すると、後続の複数ステップのアクションを 1 つのアクション予測で実行できるようになり、実行効率が大幅に向上します。図4.アクションシーケンス予測ネットワークSAM-E モデルは、多くの点で他の従来の方法よりも大幅に優れています。

マルチタスクシナリオの下では、SAM-Eモデルはミッションの成功率を大幅に向上させます。
少数のサンプルを新しいタスクに移行する状況に直面した場合
、SAM-E は、その強力な汎化パフォーマンスと効率的な実行効率により、新しいタスクのパフォーマンスを効果的に向上させることができます。 ✨️図 6. 3 次元操作タスクの例
さらに、アクションシーケンスモデリングにより、SAM-E の実行効率が大幅に向上します、そして同時に、戦略実行フェーズでは、単一のアクション、アクションシーケンスの実行モデル推論の数が大幅に削減され、テスト中に 1 つのモデル推論によって対応するタスクを完了することもできます。

リアルロボットアームでも効果的制御
は、2 つの三人称カメラを使用して多視点のビジョン入力をキャプチャし、5 つの現実世界のタスクに対するリアルタイムの推論機能を備えています。
概要
この研究は、身体化された操作アルゴリズムを使用して、大規模なモデルの視覚的セグメンテーションとマルチビューフュージョンを使用して、次の 3 つのことを実現します。肉体を持ったエージェントの次元物理空間認識。
効率的なパラメータ微調整を通じて、事前トレーニングされた視覚モデルが具体化されたシーンに転送され、自然言語命令による複雑な 3D ロボットアーム操作タスクを解決できます。さらに、このモデルは少数の専門家の例から学習することで新しいタスクに迅速に一般化でき、優れたトレーニング効率とアクション実行効率を示します。
さらに重要なのは、SAM-E は「知覚-記憶-思考-想像力
」の認知リンクを使用して、データからアクションまでのエンドツーエンドのマッピングを実現します。その重要性は、身体化された知能への応用だけでなく、知能の認知能力を向上させるためのインスピレーションにもあります。
人間の知覚と意思決定方法をシミュレートすることにより、インテリジェントエージェントは複雑な環境をよりよく理解し、適応できるようになり、それによってより幅広い分野でより大きな役割を果たすことができます。

チームリーダーの紹介:

Li Xuelong、チャイナテレコムCTO兼主任科学者、チャイナテレコム人工知能研究所(TeleAI)所長。主に人工知能、ローカルセキュリティ、画像処理、身体化知能に焦点を当てています。