VR ヘルメットをかぶってロボットに掴み方を教えると、ロボットはその場で学習します-AI-php.cn

近年、ロボット工学の分野では、ダンスやサッカーができるロボット犬や、物を動かす二足歩行ロボットなど、多くの興味深い開発が行われています。。通常、これらのロボットは感覚入力に基づいて制御戦略を生成することに依存しています。このアプローチでは、状態推定モジュールの開発、オブジェクトのプロパティのモデリング、コントローラーのゲインの調整といった課題を回避できますが、専門分野に関するかなりの専門知識が必要です。多くの進歩があったにもかかわらず、学習のボトルネックにより、ロボットが任意のタスクを実行し、普遍的な目標を達成することが困難になっています。

ロボット学習の鍵を理解する上で重要な質問は、「ロボットのトレーニングデータをどのように収集するか?」ということです。 1 つのアプローチは、自己監視型データ収集戦略を通じてロボットに関するデータを収集することです。このアプローチは比較的堅牢ですが、比較的単純な運用タスクであっても、多くの場合、現実世界とのデータ対話に何千時間も必要となります。もう 1 つは、シミュレートされたデータでトレーニングし、実際のロボット (Sim2Real) に転送することです。これにより、ロボットは複雑なロボットの動作を桁違いに速く学習できるようになります。ただし、シミュレートされたロボット環境をセットアップし、シミュレーターのパラメーターを指定するには、多くの場合、広範な分野の専門知識が必要です。

実は 3 番目の方法があり、トレーニングデータを収集するには、人間の教師にデモンストレーションを依頼し、人間のデモンストレーションをすぐに模倣するようにロボットをトレーニングすることもできます。この模倣アプローチは、最近、さまざまな困難な運用上の問題において大きな可能性を示しています。しかし、これらの研究のほとんどには、ロボットの高品質なデモンストレーションデータを収集することが難しいという根本的な制限があります。

上記の課題に基づいて、ニューヨーク大学とメタ AI の研究者は、実証データを収集し、器用なロボットを訓練するための新しいフレームワークである HOLO-DEX を提案しました。 VR ヘッドセット (Quest 2 など) を使用して、人間の教師を没入型の仮想世界に配置します。この仮想世界では、教師はロボットの目を通してロボットが「見ている」ものを確認し、内蔵の姿勢検出器を介して Allegro マニピュレーターを制御できます。

人間がロボットに動きを「段階的に」教えているように見えます:

VR ヘルメットをかぶってロボットに掴み方を教えると、ロボットはその場で学習します

HOLODEX を使用すると、人間は低遅延の観察フィードバックシステムを通じて高品質のデモンストレーションデータをロボットにシームレスに提供でき、次の 3 つの利点があります。

VR ヘルメットをかぶってロボットに掴み方を教えると、ロボットはその場で学習します

論文リンク: https://arxiv.org/pdf/2210.06463.pdf

#プロジェクトリンク: https://holo-dex.github.io/

コードリンク: https://holo-dex.github.io/

github.com/SridharPandian/Holo-Dex

HOLO-DEX のパフォーマンスを評価するために、この研究では、手持ちのオブジェクトやボトルのキャップを外すなど、器用さを必要とする 6 つのタスクについて実験を実施しました。片手などでこの研究では、HOLO-DEX を使用した人間の教師が単一画像遠隔操作 (遠隔操作) に関する以前の研究より 1.8 倍高速であることがわかりました。 4/6 タスクでは、HOLO-DEX 学習戦略の成功率は 90% を超えています。さらに、この研究では、HOLO-DEX を通じて学習した巧みな戦略が、新たなまだ見たことのない目標物体にも応用できることが判明しました。

全体として、この研究の貢献は次のとおりです。######

VR ヘッドセットを使用して、人間の教師が複合現実で高品質の遠隔操作を実現する方法を提供します。
実験では、HOLO-DEX が収集されたデモンストレーションは、効果的で多彩な器用な操作動作を訓練するために使用できます。デザインの有用性。
さらに、複合現実 API、HOLO-DEX に関連するリサーチコレクションのデモンストレーション、トレーニングコードがオープンソースになりました: https://holo-dex.github.io /

HOLO-DEX アーキテクチャの概要

以下の図 1 に示すように、HOLO-DEX は 2 つの段階で動作します。最初のフェーズでは、人間の教師が仮想現実 (VR) ヘッドセットを使用してロボットにデモンストレーションを行います。この段階には、指導用の仮想世界の作成、教師の手の姿勢の推定、教師の手の姿勢をロボットハンドに再配置し、最後にロボットハンドを制御することが含まれます。第 1 フェーズでいくつかのデモンストレーションを収集した後、HOLO-DEX の第 2 フェーズでは、デモンストレーションされたタスクを解決するための視覚的な戦略を学習します。

この研究では、Meta Quest 2 VR ヘッドセットを使用して、解像度 1832 × 1920、リフレッシュレートの仮想世界に人間の教師を配置しました。 72Hzの。ヘッドセットの基本バージョンの価格は 399 ドルで、503 グラムと比較的軽いため、教師にとってプレゼンテーションがより簡単かつ快適になります。さらに、Quest 2 の API インターフェイスを使用すると、ロボットシステムと診断パネルを VR で視覚化するカスタム複合現実世界を作成できます。 VR ヘルメットをかぶってロボットに掴み方を教えると、ロボットはその場で学習します

VR ヘルメットをかぶってロボットに掴み方を教えると、ロボットはその場で学習します VR ヘッドセットを使用して手の姿勢を推定する

VR ヘルメットをかぶってロボットに掴み方を教えると、ロボットはその場で学習します前回との器用さの比較比較遠隔操作作業において VR ヘッドセットを使用すると、人間の教師にとって手の姿勢推定の点で 3 つの利点があります。まず、Quest 2 は 4 台のモノクロカメラを使用しているため、そのジェスチャ推定器は単一カメラの推定器よりもはるかに強力です。第 2 に、カメラは内部で校正されるため、以前のマルチカメラ遠隔操作フレームワークで必要とされた特殊な校正手順は必要ありません。第三に、手の姿勢推定器がデバイスに統合されているため、72Hz でリアルタイムの姿勢を送信できます。これまでの研究では、器用な遠隔操作における大きな課題は、手の姿勢を高精度かつ高頻度で取得することであると指摘されていましたが、HOLO-DEX は商用グレードの VR ヘッドセットを使用することでこの問題を大幅に簡素化します。

手のポーズのリターゲット

次に、VR から抽出した教師の手のポーズをロボットの手にリターゲットする必要があります。これには、まず教師の手の各関節の角度を計算し、次に直接的な方向変更方法として、ロボットの関節が対応する角度に移動するように「命令」します。この方法は、研究では親指を除くすべての指で機能しましたが、Allegro ロボットハンドの形状は人間の形状と完全には一致していないため、この方法は親指には完全には機能しません。

この問題を解決するために、この研究では教師の親指の先端の空間座標をロボットの親指の先端にマッピングし、逆運動学ソルバーを通じて親指の関節角度を計算します。 Allegro マニピュレーターには小指がないため、この研究では教師の小指の角度は無視されていることに注意してください。

姿勢リダイレクトプロセス全体では、デモを収集するための調整や教師固有の調整は必要ありません。しかし、この研究では、教師の親指からロボットの親指への特定のマッピングを見つけることで、親指のリダイレクトを改善できることがわかりました。プロセス全体の計算コストは低く、希望するロボットハンドのポーズを 60 Hz で送信できます。

ロボットハンド制御

Allegro Handは、ROS通信フレームワークを介して非同期制御を実行します。この研究では、再配向プログラムによって計算されたロボットハンド関節の位置を考慮して、PD コントローラーを使用して必要なトルクを 300Hz で出力します。定常状態誤差を減らすために、この研究では重力補償モジュールを使用してオフセットトルクを計算します。遅延テストでは、VR ヘッドセットがロボットハンドと同じローカルネットワーク上にある場合、遅延が 100 ミリ秒未満に達することが研究でわかりました。 HOLO-DEX では、人間の教師によるロボットハンドの直感的な遠隔操作が可能になるため、低遅延と低エラー率が重要です。

人間の教師がロボットハンドを制御すると、ロボットの変化をリアルタイム (60Hz) で確認できます。これにより、教師はロボットハンドの実行エラーを修正することができます。この研究では、教育プロセス中に、3 台の RGBD カメラからの観察データとロボットの動作情報を 5Hz の周波数で記録しました。この研究では、複数のカメラの記録に必要なデータフットプリントと関連帯域幅が大きいため、記録頻度を減らす必要がありました。

HOLO-DEX データを模倣学習に使用する

データを収集したら、第 2 段階に入り、HOLO-DEX はデータに基づいて視覚的な戦略をトレーニングする必要があります。本研究では学習に最近傍模倣(INN)アルゴリズムを採用した。以前の研究では、INN が Allegro 上でスマートな状態ベースのポリシーを生成することが示されました。 HOLO-DEX はさらに一歩進んで、これらの視覚戦略がさまざまな器用な操作タスクにおける新しいオブジェクトに一般化されることを実証します。

低次元埋め込みを取得する学習アルゴリズムを選択するために、この研究ではいくつかの最先端の自己教師あり学習アルゴリズムを試したところ、BYOL が最も近い最適なアルゴリズムを提供することがわかりました。近隣の結果が得られたため、基本的な自己教師あり学習方法として BYOL が選択されました。

実験結果

以下の表 1 は、HOLO-DEX が DIME より 1.8 倍の速さで成功したデモを収集することを示しています。正確な 3D モーションが必要な 3/6 タスクの場合、単一画像の遠隔操作では 1 つのデモンストレーションを収集するのに十分ではないことが研究で判明しました。

VR ヘルメットをかぶってロボットに掴み方を教えると、ロボットはその場で学習します

#この研究では、器用さの課題に対するさまざまな模倣学習戦略のパフォーマンスを調査しました。以下の表 2 に示します。

VR ヘルメットをかぶってロボットに掴み方を教えると、ロボットはその場で学習します

この研究で提案された戦略はビジョンベースであり、オブジェクトの状態を明示的に推定する必要がないため、これらの戦略を他の戦略と比較することができます。トレーニングオブジェクトには見られない互換性があります。この研究では、以下の図 5 に示すように、さまざまな外観や形状のオブジェクトに対して平面の回転、オブジェクトの反転、および缶の回転タスクを実行するように訓練された手動操作戦略を評価しました。

VR ヘルメットをかぶってロボットに掴み方を教えると、ロボットはその場で学習します