大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら-AI-php.cn

大型モデルの優れた性能は誰の目にも明らかであり、これらがロボットに統合されれば、ロボットの頭脳がより賢くなり、自動運転や家庭用ロボットなど、ロボティクス分野に新たな可能性をもたらすことが期待されます。、産業用ロボット、支援ロボット、医療用ロボット、フィールドロボット、マルチロボットシステム。

事前トレーニング済みの大規模言語モデル (LLM)、大規模視覚言語モデル (VLM)、大規模音声言語モデル (ALM)、および大規模ビジュアルナビゲーションモデル (VNM) を使用して、ロボットのさまざまなタスクをより適切に処理できます。現場で。基本モデルをロボット工学に統合することは急速に成長している分野であり、ロボット工学コミュニティは最近、認識、予測、計画、制御といった書き換えが必要なロボット工学分野でこれらの大規模モデルの使用を検討し始めています。

最近、スタンフォード大学、プリンストン大学、NVIDIA、Google DeepMind などの企業で構成される共同研究チームが、ロボット研究分野における基本モデルの開発と将来をまとめたレビューレポートを発表しました。

大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

論文アドレス: https://arxiv.org/pdf/2312.07843.pdf
書き換えられた内容は次のとおりです。 : 論文ライブラリ: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

チームメンバーの中には、私たちがよく知っている中国人の学者がたくさんいます。朱裕克、宋淑蘭、呉嘉軍、陸哲武など。

基本モデルは大規模データを使用して広範囲に事前トレーニングされており、微調整後にさまざまな下流タスクに適用できます。これらの基本モデルは、BERT、GPT-3、GPT-4、CLIP、DALL-E、PaLM-Eなどの関連モデルを含め、視覚と言語処理の分野で大きな進歩を遂げました。基本モデル、ロボット工学向けの従来の深層学習モデルは、さまざまなタスク用に収集された限られたデータセットを使用してトレーニングされます。対照的に、基本モデルは広範囲にわたる多様なデータを使用して事前トレーニングされており、自然言語処理、コンピュータービジョン、ヘルスケアなどの他の分野での適応性、一般化、および全体的なパフォーマンスが実証されています。最終的には、この基本モデルはロボット工学の分野でもその可能性を発揮することが期待されています。図1にロボット分野における基本モデルの概要を示します。

基本モデルから知識を転送すると、タスク固有のモデルと比較してトレーニング時間とコンピューティングリソースを削減できる可能性があります。特にロボット関連の分野では、マルチモーダルベースモデルは、さまざまなセンサーから収集されたマルチモーダルな異種データを融合して整列させ、ロボットの理解と推論に必要なコンパクトな均質な表現にすることができます。学習した表現は、認識、意思決定、制御など、書き換えが必要なものを含め、自動化テクノロジースタックのあらゆる部分で使用できます。大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

それだけでなく、基本モデルはゼロサンプル学習機能も提供できます。これは、AI システムがサンプルや対象を絞ったトレーニングなしでタスクを実行できることを意味します。これにより、ロボットは学習した知識を新しいユースケースに一般化することができ、非構造化環境におけるロボットの適応性と柔軟性が向上します。

基本モデルをロボットシステムに統合すると、ロボットの環境を認識し、環境とインタラクションする能力が向上し、書き換えが必要なコンテキスト、つまり知覚ロボットシステムを実現できます。

たとえば、書き換えが必要な知覚の分野では、大規模視覚言語モデル (VLM) が視覚データとテキストデータの関連性を学習して、クロスモーダルな理解機能を備えます。これにより、サンプル画像分類、ゼロサンプルターゲット検出、3D 分類などのゼロタスクを支援します。別の例として、3D 世界での言語の基礎付け (つまり、VLM の文脈上の理解を 3D 現実世界に合わせる) は、発話を 3D 環境内の特定のオブジェクト、場所、またはアクションと関連付けることによって、ロボットの空間的ニーズを強化できます。。

意思決定や計画の分野では、LLM と VLM が、高レベルの計画を伴うタスクの指定においてロボットを支援できることが研究でわかっています。

操作、ナビゲーション、インタラクションに関連する言語の手がかりを活用することで、ロボットはより複雑なタスクを実行できます。たとえば、模倣学習や強化学習などのロボットポリシー学習技術の場合、基本モデルにはデータ効率とコンテキスト理解を向上させる機能があるようです。特に、言語駆動型の報酬は、成形された報酬を提供することで強化学習エージェントを導くことができます。

さらに、研究者たちはすでに言語モデルを使用して戦略学習テクノロジーにフィードバックを提供しています。いくつかの研究では、VLM モデルのビジュアル質問応答 (VQA) 機能がロボット工学のユースケースに使用できることが示されています。たとえば、研究者は VLM を使用して視覚コンテンツに関連する質問に答え、ロボットがタスクを完了できるようにしました。さらに、一部の研究者は VLM を使用してデータの注釈を支援し、ビジュアルコンテンツの説明ラベルを生成します。

視覚および言語処理における基本モデルの変革的な機能にもかかわらず、現実世界のロボットタスクのための基本モデルの一般化と微調整は依然として困難です。

これらの課題には以下が含まれます:

1) データ不足: ロボットの操作、位置決め、ナビゲーションなどのタスクをサポートするインターネット規模のデータを取得する方法、およびこれらのデータを自分自身で使用する方法-教師ありトレーニング;

2) 巨大な多様性: 基盤となるモデルに必要な一般性を維持しながら、物理環境、物理的なロボットプラットフォーム、および潜在的なロボットタスクの巨大な多様性にどのように対処するか;

3) 不確実な定量的問題: インスタンスレベルの不確実性 (言語の曖昧さ、LLM の錯覚など)、分布レベルの不確実性、および分布シフト問題、特に閉ループロボットの導入によって引き起こされる分布シフト問題を解決する方法。

4) 安全性評価: 導入前、更新プロセス中、および作業プロセス中に、基本モデルに基づいてロボットシステムを厳密にテストする方法。

5) リアルタイムパフォーマンス: 一部の基本モデルの長い推論時間に対処する方法 - これはロボットへの基本モデルの展開の妨げになります、および基本モデルの推論を高速化する方法 - これはオンラインでの意思決定の鍵が必要です。

このレビューペーパーは、ロボット工学の分野における基本モデルの現在の使用法を要約しています。研究者は現在の方法、応用、課題を調査し、これらの課題に対処するための将来の研究の方向性を提案します。また、ロボットの自律性を実現するためにベースモデルを使用する場合に存在する可能性がある潜在的なリスクも指摘しました。

ベースモデルの背景知識

ベースモデルには数十億のパラメータがあります。、インターネットレベルの大規模データを事前トレーニングに使用します。このような大規模で複雑なモデルのトレーニングには非常に費用がかかります。データの取得、処理、管理のコストも高額になる可能性があります。そのトレーニングプロセスには、大量のコンピューティングリソースが必要であり、GPU や TPU などの専用ハードウェアの使用が必要であり、モデルトレーニング用のソフトウェアとインフラストラクチャも必要であり、これらすべてに財政的投資が必要です。さらに、ベースモデルのトレーニング時間も非常に長く、コストも高くなります。したがって、これらのモデルはプラグイン可能なモジュールとしてよく使用されます。つまり、基本モデルは大規模なカスタマイズ作業なしでさまざまなアプリケーションに統合できます。

表 1 に、一般的に使用される基本モデルの詳細を示します。

大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

このセクションでは、LLM、ビジュアル Transformer、VLM、具体化されたマルチモーダル言語モデル、およびビジュアル生成モデルに焦点を当てます。さらに、ベースモデルのトレーニングに使用されるさまざまなトレーニング方法も紹介されます。

最初に、トークン化、生成モデル、識別モデル、Transformer アーキテクチャ、自己回帰モデル、マスクされた自動など、関連する用語と数学的知識が紹介されます。エンコーディング、対照学習、拡散モデル。

その後、大規模言語モデル (LLM) の例と歴史的背景を紹介します。その後、ビジュアル Transformer、マルチモーダルビジョン言語モデル (VLM)、具体化されたマルチモーダル言語モデル、ビジュアル生成モデルが強調されました。

ロボット研究

このセクションでは、ロボットの意思決定、計画、制御に焦点を当てます。この分野では、大規模言語モデル (LLM) と視覚言語モデル (VLM) の両方がロボットの機能を強化するために使用される可能性があります。たとえば、LLM はタスク仕様プロセスを容易にし、ロボットが人間から高レベルの指示を受け取って解釈できるようにします。

VLM もこの分野への貢献が期待されています。 VLM は視覚データの分析に優れています。ロボットが情報に基づいた意思決定を行い、複雑なタスクを実行するには、視覚的な理解が不可欠です。現在、ロボットは自然言語の合図を使用して、操作、ナビゲーション、インタラクションに関連するタスクを実行する能力を強化できるようになりました。

目標ベースの視覚言語政策学習 (模倣学習または強化学習による) は、基本モデルによって改善されることが期待されます。言語モデルは、ポリシー学習手法へのフィードバックも提供できます。ロボットは LLM から受け取るフィードバックに基づいて動作を最適化できるため、このフィードバックループはロボットの意思決定能力を継続的に向上させるのに役立ちます。

このセクションでは、ロボットの意思決定の分野における LLM と VLM の応用に焦点を当てます。

このセクションは 6 つの部分に分かれています。最初の部分では、言語ベースの模倣学習と言語支援強化学習を含む、意思決定と制御のためのポリシー学習とロボットを紹介します。

2 番目の部分は、目標に基づいた言語イメージ価値学習です。

3 番目のパートでは、ロボットタスクを計画するための大規模な言語モデルの使用について紹介します。これには、言語命令によるタスクの説明と、言語モデルを使用したタスク計画用のコードの生成が含まれます。

4 番目の部分は、意思決定のための文脈学習 (ICL) です。

次に紹介するのは、ロボットトランスフォーマーです。

6 番目のパートは、ロボットのナビゲーションとオープンボキャブラリーライブラリの操作です。

表 2 は、いくつかの基本的なロボット固有のモデル、レポートモデルのサイズとアーキテクチャ、事前トレーニングタスク、推論時間、およびハードウェアセットアップを示しています。

大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

書き直す必要があるのは、認識です。

周囲の環境と対話するロボットは、画像、ビデオ、音声、言語などのさまざまな形式で感覚情報を受け取ります。この高次元データは、ロボットが環境を理解し、推論し、対話するために不可欠です。基本モデルは、これらの高次元の入力を、解釈と操作が容易な抽象構造化表現に変換できます。特に、マルチモーダル基本モデルにより、ロボットはさまざまな感覚からの入力を、意味論的、空間的、時間的、およびアフォーダンスの情報を含む統一された表現に統合できます。これらのマルチモーダルモデルには、クロスモーダルな相互作用が必要であり、多くの場合、一貫性と相互対応を確保するために、さまざまなモダリティの要素を調整する必要があります。たとえば、画像説明タスクでは、テキストと画像データの位置合わせが必要です。

このセクションでは、ロボットが書き換える必要があるもの、つまり基本モデルを使用してモダリティを調整することで改善できる知覚に関連する一連のタスクに焦点を当てます。視覚と言語に重点が置かれています。

このセクションは 5 つの部分に分かれており、最初はオープンボキャブラリーのターゲット検出と 3D 分類、次にオープンボキャブラリーのセマンティックセグメンテーション、次にオープンボキャブラリーの 3D シーンとターゲット表現です。次に学習されたアフォーダンス、そして最後に予測モデルです。

身体化 AI

最近、LLM が身体化 AI の分野でうまく使用できることがいくつかの研究で示されています。ここでの「身体化」とは、通常、仮想化された AI を指します。物理的なロボットの体を持つのではなく、世界のシミュレーターです。

この分野では、いくつかの興味深いフレームワーク、データセット、モデルが登場しています。特に注目すべきは、肉体を持ったエージェントを訓練するためのプラットフォームとして Minecraft ゲームを使用していることです。たとえば、Voyager は GPT-4 を使用して、Minecraft 環境を探索するエージェントをガイドします。 GPT-4 のモデルパラメーターを微調整することなく、コンテキストプロンプト設計を通じて GPT-4 と対話できます。

強化学習は、ロボット学習の分野における重要な研究方向です。研究者は、基本モデルを使用して報酬関数を設計し、強化学習を最適化しようとしています。

ロボットが高レベルの計画を実行できるように、研究者は、基本的なモデルを使用して探索を支援してきました。さらに、一部の研究者は、思考連鎖ベースの推論およびアクション生成手法を身体化された知能に適用しようとしています

課題と今後の方向性

このセクションでは、思考連鎖ベースの推論およびアクション生成方法を身体化知能に適用しようとしています。ロボット工学の基本モデルが提供されます。チームはまた、これらの課題に対処する可能性のある将来の研究の方向性を模索する予定です。

最初の課題は、ロボットのベースモデルをトレーニングする際のデータ不足の問題を克服することです:

1. 非構造化ゲームデータとラベルのない人間のビデオを使用してロボットの学習を拡張する

2. 画像修復 (Inpainting) を使用してデータを強化する

##3. 3D 基本モデルをトレーニングする際の 3D データ不足の問題を克服する

##4. 高忠実度シミュレーションによる合成データの生成

5. データ拡張に VLM を使用するデータ拡張に VLM を使用することは効果的な方法です

6. ロボットの身体的スキルはスキルの配分によって制限されます

2 番目の課題はリアルタイムパフォーマンスに関連しており、そのうちの 1 つは、キーは基礎モデルの推論時間です。