家族環境では、家族がテレビキャビネットのリモコンを入手するように求められることがよくあります。場合によっては、ペットの犬でさえ免疫を持たないことがあります。しかし、人は他人をコントロールできない状況に陥ることが常にあります。また、愛犬はその指示を理解できない場合があります。人間がロボットに期待するのは、これらの家事を手助けしてくれることであり、これがロボットに対する私たちの究極の夢です。
最近、ニューヨーク大学とメタは、自律的に行動する能力を備えたロボットを開発するために協力しました。 「コーンフレークをベッドサイドテーブルの上に置いてください」と指示すると、コーンフレークを独自に見つけて最適なルートとそれに対応するアクションを計画し、タスクを正常に完了します。さらに、ロボットはアイテムを整理したり、ゴミを処理したりする機能も備えており、利便性を提供します。
##このロボットは OK-Robot と呼ばれ、ニューヨーク大学と Meta の研究者によって構築されました。彼らは、視覚言語モデル、ナビゲーション、把握の基本モジュールをオープンな知識ベースのフレームワークに統合し、ロボットの効率的なピックアンドプレイス操作のためのソリューションを提供しました。これは、私たちが年をとったら、お茶を出したり水を注いだりするのを手伝ってくれるロボットの購入が現実になるかもしれないことを意味します。
OK-Robot の「オープン ナレッジ」の位置付けは、大規模な公開データ セットでトレーニングされた学習モデルを指します。 OK-Robot が新しい家庭環境に置かれると、iPhone からスキャン結果を取得します。これらのスキャンに基づいて、LangSam と CLIP を使用して高密度の視覚言語表現を計算し、セマンティック メモリに保存します。次に、ピックアップされるオブジェクトに対する言語クエリが与えられると、クエリの言語表現が意味記憶と照合されます。次に、OK-Robot はナビゲーションとピッキング モジュールを徐々に適用し、必要なオブジェクトに移動してそれを拾います。同様のプロセスをオブジェクトの破棄にも使用できます。
OK-Robot を研究するために、研究者は 10 の実際の家庭環境でそれをテストしました。実験を通じて、目に見えない自然の家庭環境では、システムのゼロサンプル導入成功率が平均 58.5% であることがわかりました。ただし、この成功率は環境の「自然さ」に大きく依存します。また、クエリを改善し、スペースを整理し、明らかに敵対的なオブジェクト (大きすぎる、半透明すぎる、滑りやすいなど) を除外することで、この成功率が約 82.4% に向上する可能性があることもわかりました。
OK-Robot は、ニューヨーク市の 10 の家庭環境で 171 のピックアップ タスクを試みました。
つまり、実験を通じて、彼らは次の結論に達しました:
ボキャブラリー オブジェクト ナビゲーションを開く 各部屋のスキャンには 1 分もかかりません。情報が収集されると、カメラのポーズと位置とともに RGB-D 画像がマップ構築用のプロジェクト ライブラリにエクスポートされます。記録では、地表面だけでなく、環境内の物体やコンテナもキャプチャする必要があります。 #次のステップはオブジェクトの検出です。スキャンされる各フレームで、オープンボキャブラリーオブジェクト検出器がスキャンされたコンテンツを処理します。この記事では、OWL-ViT オブジェクト検出器を選択します。これは、この方法の方が事前クエリでより優れたパフォーマンスを発揮するためです。各フレームに検出器を適用し、各オブジェクト境界ボックス、CLIP 埋め込み、および検出器の信頼度を抽出し、それらをナビゲーション モジュールのオブジェクト ストレージ モジュールに渡します。 次に、オブジェクト中心のセマンティック ストレージを実行します。この論文では、VoxelMap を使用してこのステップを実行します。具体的には、カメラによって収集された深度画像と姿勢を使用して、オブジェクト マスクを現実世界の座標に逆投影します。この方法により、各点が関連付けられた点群を提供できます。 CLIP からのセマンティック ベクトル。 クエリ メモリ モジュールが続きます。言語クエリが与えられた場合、この記事では CLIP 言語エンコーダーを使用して、それをセマンティック ベクトルに変換します。各ボクセルは家の実際の場所に関連付けられているため、図 2 (a) と同様に、クエリ オブジェクトが見つかる可能性が最も高い場所を見つけることができます。
必要に応じて、この記事では「A on B」を「A close B」として実装します。これを行うには、クエリ A で最初の 10 ポイントを選択し、クエリ B で最初の 50 ポイントを選択します。次に、10×50 ペアごとのユークリッド距離を計算し、最短 (A, B) 距離に関連付けられた点 A を選択します。 上記のプロセスを完了したら、次のステップは現実世界のオブジェクトに移動することです。現実世界の 3D 位置座標が取得されたら、それらを座標として使用できます。ロボットのナビゲーションターゲットを指定して操作ステージを初期化します。ナビゲーション モジュールは、ロボットがターゲット オブジェクトを操作できるように、ロボットを腕の届く範囲に配置する必要があります。 #実世界の物体のロボットによる把握 オープンボキャブラリーナビゲーションとは異なり、把握タスクを完了するために, このアルゴリズムでは、現実世界の任意のオブジェクトとの物理的な相互作用が必要となるため、この部分はさらに難しくなります。したがって、この論文では、事前にトレーニングされた把握モデルを使用して現実世界の把握ジェスチャを生成し、言語条件フィルタリングに VLM を使用することを選択しました。 この記事で使用する把握生成モジュールは AnyGrasp です。これは、単一の RGB イメージと点群が与えられたシーンで平行ジョー グリッパーを使用して衝突のない把握を生成します。 AnyGrasp は、シーン内の可能な把握 (図 3 の列 2) を提供します。これには、把握ポイント、幅、高さ、深さ、および可能な把握の数を表す把握スコアが含まれます。未校正のモデルは手に自信を持ちます。
言語クエリを使用して把握をフィルター処理する: AnyGrasp から取得した把握の提案について、この記事では LangSam を使用して把握をフィルター処理します。この論文では、提案されたすべてのグリップ ポイントを画像上に投影し、オブジェクト マスク内に収まるグリップ ポイントを見つけます (図 3、列 4)。 実行を把握する。最適な把握が決定されると (図 3、列 5)、簡単な事前把握方法を使用して対象物体を把握できます。 #オブジェクトを解放または配置するためのヒューリスティック モジュール オブジェクトを掴んだ後、次のステップは、オブジェクトをどこに配置するかです。オブジェクトがドロップされる場所が平面であることを前提とする HomeRobot のベースライン実装とは異なり、この論文ではそれを拡張して、シンク、ゴミ箱、箱、バッグなどの凹面オブジェクトもカバーします。 ナビゲーション、取得、配置がすべて揃ったので、それらを組み合わせるのは簡単で、この方法は新しいホームに直接適用できます。新しい家庭環境の場合、この調査では 1 分以内に部屋をスキャンできます。それを VoxelMap に処理するのに 5 分もかかりません。完成したら、ロボットは選択した現場にすぐに設置され、作業を開始できます。新しい環境に到着してからその中で自律的に動作を開始するまで、システムは最初のピック アンド プレース タスクを完了するまでに平均 10 分未満かかります。 10を超える家庭での実験において、OK-Robotはピックアンドプレイスタスクで58.5%の成功率を達成しました。 この調査では、OK-Robot の故障モードをより深く理解するために、OK-Robot の詳細な調査も実施されました。研究の結果、失敗の主な原因は運用上の失敗であることが判明しましたが、注意深く観察した結果、失敗の原因はロングテールにあることがわかりました。図4に示すように、失敗の3大原因には回収の失敗が含まれていました。正しいオブジェクトのセマンティック メモリからのナビゲーション先の位置 (9.3%)、操作モジュールから取得したポーズを完了するのが難しい (8.0%)、およびハードウェア上の理由 (7.5%)。 図 5 からわかるように、OK-Robot で使用される VoxelMap は、他のセマンティック メモリ モジュールよりもわずかに優れています。スクレイピング モジュールに関しては、AnyGrasp は他のスクレイピング方法よりも大幅に優れており、相対スケールで最適な候補 (トップダウン スクレイピング) をほぼ 50% 上回っています。しかし、ヒューリスティックに基づいた HomeRobot のトップダウン クロールが、オープン ソースの AnyGrasp ベースラインや Contact-GraspNet を上回ったという事実は、真にユニバーサルなクロール モデルの構築が依然として難しいことを示しています。 図 6 は、さまざまな段階での OK-Robot の障害の完全な分析を示しています。分析によると、研究者が環境をクリーンアップしてぼやけたオブジェクトを削除すると、ナビゲーションの精度が向上し、合計エラー率が 15% から 12% に低下し、最終的には 4% に低下しました。同様に、研究者が乱雑な環境を取り除くと精度が向上し、エラー率は 25 パーセントから 16 パーセント、そして最終的には 13 パーセントに低下しました。 詳細については、元の論文を参照してください。
技術構成と手法
研究は主にこの問題を解決します。B から A を取り出し、それを C に配置します。ここで、A はオブジェクト、B と C は現実世界の環境内の場所です。これを達成するために、提案されたシステムは、オープンボキャブラリーオブジェクトナビゲーションモジュール、オープンボキャブラリーRGB-Dグラブモジュール、およびオブジェクトを解放または配置するためのヒューリスティックモジュール(ドロップヒューリスティック)のモジュールを含む必要があります。 実験
以上がメタとニューヨーク大学が開発したOK-Robot:お茶を注ぐロボットが登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。