MoEでサブミッション99個を制覇しよう！浙江大学などが新たな総合ロボット戦略GeRMを提案-AI-php.cn

MoEでサブミッション99個を制覇しよう！浙江大学などが新たな総合ロボット戦略GeRMを提案

王林

リリース： 2024-04-17 23:40:24

転載

580 人が閲覧しました

マルチタスクのロボット学習は、多様で複雑なシナリオに対処する上で非常に重要です。ただし、現在の方法はパフォーマンスの問題とトレーニングデータセットの収集の難しさによって制限されています。

この論文では、研究者がオフライン強化学習を使用してデータ活用戦略を最適化し、デモンストレーションや次善のデータから学習することで、人間によるデモンストレーションの限界を超える GeRM (General Robot Model) を提案します。

MoEでサブミッション99個を制覇しよう！浙江大学などが新たな総合ロボット戦略GeRMを提案

#著者: Song Wenxuan、Zhao Han、Ding Pengxiang、Cui Can、Lu Shanke、Fan Yaning、Wang Donglin

単位: 西湖大学、浙江大学

論文アドレス: https://arxiv.org/abs/2403.13358

# #プロジェクトアドレス: https://songwxuan.github.io/GeRM/

次に、Transformer ベースのビジョン言語アクションモデルを使用して、マルチモーダル入力および出力アクションを処理します。。

エキスパートハイブリッド構造を導入することにより、GeRM はより高速な推論速度とより高い全体的なモデル容量を実現し、強化学習パラメータの制限の問題を解決し、学習中のマルチタスクモデルのパフォーマンスを向上させます。計算コストを制御しながら。

一連の実験を通じて、GeRM がトレーニングと推論プロセスの効率性を検証しながら、すべてのタスクで他の方法よりも優れていることが証明されました。

さらに、研究者はトレーニングをサポートするために QUARD-Auto データセットも提供しました。このデータセットの構築は、この記事で提案されているデータ自動収集の新しいパラダイムに従っています。データ収集のコストにより、マルチタスク学習コミュニティの進歩が促進されます。

主な貢献:

#1. 4 脚強化学習のためのハイブリッドエキスパートモデルを初めて提案しました。最適なポリシーを学習できる可能性のある、混合品質のデータでトレーニングします。

2. 既存の方法と比較して、GeRM は自身のパラメータの 1/2 だけを活性化し、創発能力を活性化し、同時に訓練プロセス中に高い成功率を示します。より優れたデータ利用戦略をに示します。

3. 完全自動ロボットデータセット収集のパラダイムを提案し、大規模なオープンソースデータセットを収集しました。

方法

GeRM ネットワーク構造を図 1 に示します。デモンストレーションデータと失敗データを含む視覚言語入力は、エンコーダを通過した後、8 に入力され、デコーダーは混合エキスパート構造の層を使用してアクショントークンを生成し、最終的には個別のロボットアクションデータに変換され、基礎となる戦略を通じてロボットに展開されます。

MoEでサブミッション99個を制覇しよう！浙江大学などが新たな総合ロボット戦略GeRMを提案

図 1 GeRM ネットワーク構造図

GeRM Decoder は、Transformer Decoder を含むアーキテクチャモデルです。フィードフォワードネットワーク (FFN) は、8 つの異なるエキスパートネットワークのセットから選択されました。

各層で、トークンごとに、ゲートネットワークはトークンを処理する 2 人の専門家を選択し、重み付けされた方法で出力を結合します。

さまざまな専門家が、さまざまなタスクやさまざまなアクション次元を得意としており、さまざまなシナリオで問題を解決することで、複数のタスクにわたる共通のモデルを学習します。このアーキテクチャでは、計算コストを本質的に変更せずに、ネットワークパラメータの量を拡張します。

MoEでサブミッション99個を制覇しよう！浙江大学などが新たな総合ロボット戦略GeRMを提案 #図 2 デコーダ構造図

ロボットのマルチモード状態を収集するための自動パラダイムを提案しますデータ。このようにして、デモンストレーションデータと準最適データの組み合わせを含む大規模ロボットデータセットである QUARD-Auto を構築しました。これには 5 つのタスクと 99 のサブタスクが含まれており、合計 257,000 の軌跡があります。私たちはロボットコミュニティの発展を促進するためにオープンソースを提供します。

#表 1 データセットの概要 MoEでサブミッション99個を制覇しよう！浙江大学などが新たな総合ロボット戦略GeRMを提案

図3 データボリューム統計 MoEでサブミッション99個を制覇しよう！浙江大学などが新たな総合ロボット戦略GeRMを提案

実験

#私たちは、99 のサブタスクすべてをカバーする包括的で堅牢な一連の実験を実施し、それぞれのサブタスクを 400 の軌道で慎重にテストしました。

表 1 に示すように、GeRM はすべてのタスクの中で最も成功率が高くなります。 RT-1 や他の GeRM バリアントと比較して、混合品質のデータから効果的に学習し、他の方法よりも優れたパフォーマンスを発揮し、複数のタスクで優れた機能を発揮します。同時に、MoE モジュールは、推論中にいくつかのパラメーターをアクティブにすることで、計算コストとパフォーマンスのバランスをとります。

MoEでサブミッション99個を制覇しよう！浙江大学などが新たな総合ロボット戦略GeRMを提案