タイトル変更: Byte、ロボット操作の成功率と効果を向上させるための Vi-PRoM ビジュアル事前トレーニングプログラムを開始-AI-php.cn

タイトル変更: Byte、ロボット操作の成功率と効果を向上させるための Vi-PRoM ビジュアル事前トレーニングプログラムを開始

王林

リリース： 2023-09-13 10:57:02

転載

845 人が閲覧しました

近年、大規模な実世界データに対する視覚的な事前トレーニングが大幅に進歩し、ピクセル観察に基づくロボット学習に大きな可能性が示されています。ただし、これらの研究は、トレーニング前のデータ、方法、モデルの点で異なります。したがって、どのタイプのデータ、事前トレーニング方法、モデルがロボット制御をより効果的に支援できるかはまだ未解決の問題です。

これに基づいて、ByteDance 研究チームの研究者は次のことから始めました事前トレーニングデータセット、モデルアーキテクチャ、トレーニング方法の 3 つの基本的な視点 視覚的な事前トレーニング戦略がロボット操作タスクに与える影響を包括的に研究し、ロボット学習に有益ないくつかの重要な実験結果を提供しました。さらに、自己教師あり学習と教師あり学習を組み合わせた、 Vi-PRoMと呼ばれるロボット操作のための視覚事前学習スキームを提案しました。 前者は対照学習を使用して大規模なラベルなしデータから潜在的なパターンを取得し、後者は視覚的な意味論と時間的な動的変化を学習することを目的としています。さまざまなシミュレーション環境や実際のロボットで行われた多数のロボット動作実験により、このソリューションの優位性が証明されています。

タイトル変更: Byte、ロボット操作の成功率と効果を向上させるための Vi-PRoM ビジュアル事前トレーニングプログラムを開始

論文アドレス: https://arxiv.org/pdf/2308.03620.pdf
#プロジェクトアドレス: https://explore-pretrain-robot.github.io/

ベンチマークリサーチ

トレーニング前データ

EgoNet は ImageNet よりも強力です。対照的な学習方法を通じてさまざまなデータセット (つまり、ImageNet と EgoNet) でビジュアルエンコーダーを事前トレーニングし、ロボット操作タスクでのパフォーマンスを観察します。以下の表 1 からわかるように、EgoNet で事前トレーニングされたモデルは、ロボット操作タスクで優れたパフォーマンスを達成しました。明らかに、ロボットは操作タスクに関してビデオに含まれるインタラクティブな知識と時間的関係を好みます。さらに、EgoNet の自己中心的な自然画像には世界に関するよりグローバルなコンテキストがあり、より豊富な視覚的特徴を学習できることを意味します

タイトル変更: Byte、ロボット操作の成功率と効果を向上させるための Vi-PRoM ビジュアル事前トレーニングプログラムを開始

#モデル構造

ResNet-50 のパフォーマンスが向上します。以下の表 2 からわかるように、ResNet-50 と ResNet-101 はロボット操作タスクにおいて ResNet-34 よりも優れたパフォーマンスを発揮します。さらに、モデルが ResNet-50 から ResNet-101 に増加してもパフォーマンスは向上しません。

タイトル変更: Byte、ロボット操作の成功率と効果を向上させるための Vi-PRoM ビジュアル事前トレーニングプログラムを開始 #事前トレーニング方法

に従って書き直す必要があります。原文の意味内容は「事前学習法には対照学習が好ましい。以下の表3に示すように、MoCo-v3はImageNetとEgoNetデータセットの両方でMAEを上回っており、マスクと比較して対照学習の方が効果的であることが証明されている」さらに、ロボットの動作には、マスク画像モデリングを通じて学習した構造情報よりも、対照学習を通じて得られた視覚的意味論の方が重要です。」書き直された内容: 対照学習は、推奨される事前トレーニング方法です。表 3 からわかるように、MoCo-v3 は ImageNet と EgoNet データセットの両方で MAE よりも優れたパフォーマンスを示し、対照学習がマスク画像モデリングよりも効果的であることを示しています。さらに、マスク画像モデリングによって学習された構造情報よりも、対照学習によって得られた視覚的意味論の方がロボットの動作にとって重要です。

アルゴリズムの紹介タイトル変更: Byte、ロボット操作の成功率と効果を向上させるための Vi-PRoM ビジュアル事前トレーニングプログラムを開始