大型モデルが組み込まれたロボットは、地図を見ずに言語の指示に従って目的地に到達することを学習しました。この成果は、強化学習の専門家であるセルゲイ・レヴィン氏の新しい研究によるものです。
目的地が与えられたとき、ナビゲーション トラックなしでスムーズに目的地に到達することはどれほど難しいでしょうか?
#このタスクは、方向感覚が苦手な人間にとっても非常に困難です。しかし、最近の研究では、数人の学者が、事前に訓練された 3 つのモデルのみを使用してロボットを「教育」したことがわかりました。 ロボット学習の中核的な課題の 1 つは、人間の高度な指示に従ってロボットがさまざまなタスクを実行できるようにすることであることは誰もが知っています。そのためには、人間の指示を理解し、現実世界でこれらの指示を実行するためのさまざまなアクションを備えたロボットが必要です。 ナビゲーションにおけるタスクに続く指示について、これまでの研究は主に、テキストによる指示が注釈付けされた軌跡から学習することに重点を置いていました。これにより、テキストによる指示の理解が可能になる可能性がありますが、データ注釈のコストがこの技術の広範な使用を妨げています。一方で、最近の研究では、目標条件付きポリシーの自己教師ありトレーニングが堅牢なナビゲーションを学習できることが示されています。これらの手法は、ラベルのない大規模なデータセットに基づいており、ビジョンベースのコントローラーをトレーニングするために事後的に再ラベル付けされます。これらの方法は拡張性があり、汎用的で堅牢ですが、多くの場合、面倒な位置ベースまたは画像ベースのターゲット指定メカニズムの使用が必要になります。 最新の論文では、カリフォルニア大学バークレー校、Google、その他の機関の研究者らは、これら 2 つの方法の利点を組み合わせて、ユーザーの注釈なしでナビゲーション データに適用できるロボット ナビゲーション用の自己監視システムを作成することを目指しています。事前トレーニングされたモデルが自然言語命令を実行する機能。研究者はこれらのモデルを使用して、ロボットにタスクを伝達する「インターフェイス」を構築します。このシステムは、事前トレーニングされた言語モデルと視覚言語モデルの一般化機能を活用して、ロボット システムが複雑な高レベルの命令を受け入れることができるようにします。では、研究者は事前トレーニングされた画像と言語モデルをどのように使用して、ビジュアル ナビゲーション モデルにテキスト インターフェイスを提供するのでしょうか?
1. ターゲット環境における一連の観測結果が与えられた場合、ビジュアル ナビゲーション モデル (VNM) であるターゲットの条件付き距離関数を使用します。部分的に、それらの間の接続性を推測し、環境内の接続性のトポロジ マップを構築します。
## 2. 大規模言語モデル (LLM) は、自然言語命令を一連の特徴点に解析するために使用されます。ポイントは、ナビゲーションの中間サブ目標として使用できます。
3. 視覚言語モデル (VLM) は、特徴点フレーズに基づいて視覚的な観察を確立するために使用されます。
視覚言語モデルは、特徴点の説明と画像の同時確率分布を推測します (上のグラフのノードを形成します)。
4. VLM の確率分布と VNM によって推論されたグラフ接続性を使用して、は新しい検索アルゴリズムを採用し、環境内の最適な命令パスを検索します。これは、(i) 元の命令を満たし、(ii) 目標を達成できるグラフ内の最短パスです。
5. 次に、
命令パスは、VNM の一部であるターゲット条件ポリシーによって実行されます。
実験結果
図 4(a) では、LM-Nav は以前の走査から単純な特徴点を正常に特定し、ゴールまでの短いパスを見つけることができます。環境内には複数の駐車特徴点がありますが、式 3 の目的関数により、ロボットは状況に応じて正しい駐車特徴点を選択できるため、全体の移動距離が最小限に抑えられます。
図 4(b) は、複数の特徴点を持つ指定されたルートを解析する LM-Nav の機能を強調しています。たとえ指示パスを無視した場合、最後の特徴点に直接到達することが最短ルートであっても、ロボットは依然として A パスを維持します。すべての特徴点を正しい順序で訪問するものが見つかります。
曖昧さを解消するにはディレクティブを使用します。 LM Nav の目標は、最終目標に到達するだけではなく、指示に従うことであるため、指示が異なれば、トラバースも異なる場合があります。図 5 は、命令を変更することで目標への複数のパスを明確にする例を示しています。短いプロンプト (青) の場合、LM Nav はより直接的なパスを優先します。より詳細なルート (マゼンタ) を指定すると、LM Nav はさまざまな特徴点のセットを通る代替パスを選択します。
# 特徴点が欠落している状況。 LM-Nav は、命令内の特徴点を効果的に解析し、グラフ上で特徴点を特定し、目標へのパスを見つけることができますが、このプロセスは、特徴点が (i) 実環境に存在し、(ii) 特徴点が存在する可能性があるという前提に依存しています。 VLM によって認識されます。図 4(c) は、実行可能パスが特徴点の 1 つである消火栓に到達できず、建物の底部ではなく上部を迂回するパスをたどる状況を示しています。この失敗例は、VLM がロボットの観察から消火栓を検出できないことが原因でした。特徴点を取得する際の VLM の有効性を独自に評価したところ、研究者らは、VLM がこの種のタスクに最適な既製モデルであるにもかかわらず、CLIP は少数の「ハード」特徴点を取得できないことを発見しました。 、消火栓やセメントミキサーなど。しかし、現実世界の多くの状況では、ロボットは依然として残りの特徴点を訪問するための経路を正常に見つけることができます。
表 1 は、20 個の命令におけるシステムの定量的なパフォーマンスをまとめたものです。実験の 85% で、LM-Nav は衝突や離脱を起こすことなく一貫して指示に従うことができました (平均して 6.4 キロメートルの移動ごとに 1 回の介入)。ナビゲーション モデルのないベースラインと比較して、LM-Nav は効率的で衝突のないターゲット パスの実行において一貫して優れたパフォーマンスを発揮します。失敗したすべての実験において、失敗の原因は、計画段階での能力不足、つまり検索アルゴリズムがグラフ内の特定の「難しい」特徴点を直観的に特定できないこと、その結果、命令が不完全に実行されたことが原因であると考えられます。これらの故障モードの調査により、システムの最も重要な部分は、消火栓などの見慣れない特徴点や、露出不足の画像などの厳しい照明条件下のシーンを検出する VLM の機能であることが明らかになりました。
以上が強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。