リー・フェイフェイのチームの新しい研究: 脳制御ロボットが家事を行い、ブレイン・コンピュータ・インターフェースに少ないサンプルで学習する能力を与える-AI-php.cn

手を使うのではなく、頭を使うことができます。

将来は、考えるだけでロボットに家事を手伝ってもらえるようになるかもしれません。スタンフォード大学のWu Jiajun氏とLi Feifei氏のチームが最近提案したNOIRシステムにより、ユーザーは非侵襲的な脳波検査装置を通じてロボットを制御し、日常業務を完了できるようになる。

NOIR は脳波信号をロボットスキルライブラリにデコードできます。すき焼きを作る、衣類にアイロンをかける、チーズをおろす、三目並べをする、さらにはロボット犬を撫でるなどのタスクを完了できるようになりました。このモジュール式システムは強力な学習機能を備えており、日常生活における複雑で多様なタスクを処理できます。

リー・フェイフェイのチームの新しい研究: 脳制御ロボットが家事を行い、ブレイン・コンピュータ・インターフェースに少ないサンプルで学習する能力を与える

ブレインアンドロボットインターフェイス (BRI) は、人間の芸術、科学、工学の傑作です。私たちはこれを「マトリックス」や「アバター」などの数え切れないほどの SF 作品や創造的な芸術で見てきましたが、BRI を真に実現するのは簡単ではなく、人間と完全に連携して機能するデバイスを作成するための画期的な科学研究が必要です。。

このようなシステムの重要なコンポーネントの 1 つは、機械が人間と通信する能力です。人間と機械のコラボレーションとロボットの学習のプロセスにおいて、人間が自分の意図を伝える方法には、動作、ボタンの押下、視線、顔の表情、言語などが含まれます。神経信号を介してロボットと直接通信することは、最も刺激的ですが、最も困難な見通しでもあります。

最近、スタンフォード大学のWu Jiajun氏とLi Feifei氏が率いる学際的共同チームは、ユニバーサルインテリジェントBRIシステムNOIR(Neural Signal Operated Intelligent Robots/Neural Signal Operated Intelligent Robots)を提案しました。

論文アドレス: https://openreview.net/pdf?id=eyykI3UIHa

プロジェクトウェブサイト: https://noir-corl.github.io/

システムは非侵襲的脳波検査に基づいています( EEG）テクノロジー。報告書によると、このシステムの主な原理は階層型の共有自律性です。つまり、人間が高レベルの目標を定義し、ロボットが低レベルの動作命令を実行することでその目標を達成します。このシステムには、神経科学、ロボット工学、機械学習の新たな進歩が組み込まれており、以前の方法よりも改善されています。チームはこれまでの貢献を要約します。

まず第一に、NOIR は多用途であり、さまざまなタスクに使用でき、さまざまなコミュニティで使いやすいです。研究によると、NOIR は 1 日あたり最大 20 件のアクティビティを実行できます。これに比べ、以前の BRI システムは 1 つまたはいくつかのタスク用に設計されているか、単なるシミュレーションシステムでした。さらに、NOIR システムは、一般の人でも最小限のトレーニングで使用できます。

第二に、NOIR の I は、ロボットシステムがインテリジェントであり、適応能力があることを意味します。このロボットには、人間による集中的な監督なしで低レベルのアクションを実行できる、多様なスキルのレパートリーが装備されています。 Pick (obj-A) や MoveTo (x,y) などのパラメーター化されたスキルプリミティブを使用すると、ロボットは人間の行動目標を自然に取得、解釈、実行できます。

さらに、NOIR システムには、コラボレーションのプロセス中に人間が達成したいことを学習する機能もあります。研究によると、基礎となるモデルの最近の進歩を活用することで、システムは非常に限られたデータにも適応できることがわかっています。これにより、システムの効率が大幅に向上します。

NOIR の主な技術貢献には、人間の意図を理解するために神経信号をデコードするためのモジュール式ワークフローが含まれます。ご存知のように、神経信号から人間の意図した目標を解読するのは非常に困難です。これを実現するために、チームのアプローチは、人間の意図を 3 つの主要な要素、つまり操作対象のオブジェクト (What)、オブジェクトと対話する方法 (How)、および対話する場所 (Where) に分解することです。彼らの研究は、これらの信号をさまざまな種類の神経データからデコードできることを示しています。これらの分解された信号は、パラメータ化されたロボットのスキルに自然に対応し、ロボットに効果的に伝達できます。

3 人の被験者は、デスクトップまたはモバイル操作 (すき焼きを作る、衣類にアイロンをかける、三目並べをする、ロボット犬を撫でるなどを含む) を含む 20 の家庭内活動で NOIR システムを使用することに成功しました。彼らの脳信号です！

実験により、人間を教師として使用して数ショットのロボット学習を行うことで、NOIR システムの効率が大幅に向上できることが示されました。人間の脳信号を使用して共同してインテリジェントなロボットシステムを構築するこの方法は、人々、特に障害のある人々の生活の質を向上させるための重要な支援技術を開発する大きな可能性を秘めています。

NOIR システム

この研究が解決しようとしている課題は次のとおりです: 1. さまざまなタスクに適した汎用 BRI システムを構築するにはどうすればよいですか? 2. 人間の脳からの関連通信信号をデコードするにはどうすればよいですか? 3. ロボットの知能と適応性を向上させて、より効率的なコラボレーションを実現するにはどうすればよいですか?図2にシステムの概要を示します。

このシステムでは、計画エージェントとして人間が行動目標を認識し、計画し、ロボットに伝達しますが、ロボットはこれらの目標を達成するために事前定義された原始的なスキルを使用します。

ユニバーサル BRI システムを作成するという全体的な目標を達成するには、これら 2 つの設計を協力して統合する必要があります。この目的を達成するために、チームは新しい脳信号デコードワークフローを提案し、ロボットにパラメータ化された独自のスキルライブラリのセットを装備しました。最後に、チームは少数サンプルの模倣学習テクノロジーを使用して、ロボットにより効率的な学習機能を与えました。

脳: モジュール式デコードワークフロー

図 3 に示すように、人間の意図は 3 つの要素に分解されます: 操作されるオブジェクト (What)、オブジェクトと対話する方法 (How)、および対話の場所。

EEG 信号から特定のユーザーの意図を解読するのは簡単ではありませんが、定常状態の視覚誘発電位 (SSVEP) と運動イメージを通じて達成できます。プロセスを簡単に説明すると、次のとおりです:

定常状態視覚誘発電位 (SSVEP) を持つオブジェクトを選択します
運動イメージ (MI) を介してスキルとパラメーターを選択します
確認または中断するために筋肉の締め付けを介して選択します

ロボット: パラメータ化された原始スキル

パラメータ化された原始スキルを組み合わせて、さまざまなタスクに再利用して、複雑で多様な操作を実現できます。さらに、これらのスキルは人間にとって非常に直感的です。人間もエージェントもこれらのスキルの制御メカニズムを理解する必要がないため、堅牢で多様なタスクに適応できる限り、どのような方法でもこれらのスキルを実装できます。

チームは実験で 2 台のロボットを使用しました。1 つはデスクトップ操作タスク用の Franka Emika Panda ロボットアームで、もう 1 つはモバイル操作タスク用の PAL Tiago ロボットです。次の表は、これら 2 つのロボットの基本的なスキルを示しています。

効率的な BRI のためのロボット学習の使用

上記のモジュラーデコーディングワークフローとプリミティブスキルライブラリは、NOIR の基礎を築きます。ただし、このようなシステムの効率はさらに向上させることができます。ロボットは、コラボレーションプロセス中にユーザーのアイテム、スキル、パラメーター選択の好みを学習できる必要があります。これにより、将来的には、ユーザーが達成したい目標を予測し、より良い自動化を実現し、デコードをよりシンプルかつ簡単にできるようになります。アイテムの位置、ポーズ、配置、インスタンスは実行されるたびに異なる可能性があるため、学習能力と汎化能力が必要です。さらに、人間のデータの収集には費用がかかるため、学習アルゴリズムはサンプル効率が高くなければなりません。

チームはこれのために 2 つの方法を採用しました。1 つは検索ベースの少数サンプルのアイテムとスキルの選択、もう 1 つは単一サンプルのスキルパラメータ学習です。

検索ベースの少数サンプルのアイテムとスキルの選択。このメソッドは、観察された状態の暗黙的な表現を学習できます。新しい観察された状態が与えられると、隠れた空間内で最も類似した状態と対応するアクションが見つかります。図 4 に、この方法の概要を示します。

ミッションの実行中、画像と人間が選択した「アイテムとスキル」のペアで構成されるデータポイントが記録されます。これらの画像はまず、ロボット操作タスクに役立つ特徴を抽出するために事前トレーニングされた R3M モデルによってエンコードされ、その後、トレーニング可能な完全に接続された多数のレイヤーを通過します。これらのレイヤーは、三重項損失を伴う対照学習を使用してトレーニングされます。これにより、同じ「アイテムスキル」ラベルを持つ画像が隠れた空間で互いに近づくことが促進されます。学習された画像の埋め込みと「アイテムスキル」ラベルはメモリに保存されます。

テスト中、モデルは隠れた空間で最も近いデータポイントを取得し、そのデータポイントに関連付けられたアイテムとスキルのペアを人間に提案します。

単一サンプルのスキルパラメータ学習。パラメータの選択には、モーターイメージ (MI) による正確なカーソル操作が必要なため、広範囲にわたる人間の関与が必要です。人間の労力を軽減するために、チームは、カーソル制御の開始点として使用されるアイテムとスキルのペアを考慮してパラメータを予測する学習アルゴリズムを提案しました。ユーザーがカップのハンドルを持ち上げる正確なキーポイントを特定できたと仮定すると、今後このパラメーターを再度指定する必要がありますか?最近では、DINOv2 などの基本モデルが大幅に進歩し、対応するセマンティックキーポイントが見つかるため、パラメータを再度指定する必要がなくなりました。

以前の研究と比較して、ここで提案された新しいアルゴリズムは単一サンプルであり、意味論的な断片ではなく特定の 2D 点を予測します。図 4 に示すように、トレーニング画像 (360 × 240) とパラメーター選択 (x、y) が与えられると、モデルはさまざまなテスト画像内の意味的に対応する点を予測します。具体的には、チームは事前トレーニングされた DINOv2 モデルを使用して意味論的な特徴を取得しました。

実験と結果

ミッション。実験用に選択されたタスクは、日常生活の行動と活動のベンチマークに基づいており、人間の日常的なニーズをある程度反映することができます。図 1 は、16 個のデスクトップタスクと 4 個のモバイル操作タスクを含む実験タスクを示しています。

サンドイッチの作成と新型コロナウイルス感染症患者のケアのための実験プロセスの例を以下に示します。

実験的なプロセス。実験中、ユーザーは隔離された部屋に留まり、じっとして画面上のロボットを観察し、脳信号のみを頼りにロボットとコミュニケーションをとりました。

システムパフォーマンス。表 1 は、成功までの試行回数と成功後のタスク完了までの時間という 2 つの指標に基づくシステムパフォーマンスをまとめたものです。

これらのタスクのスパンと難しさにも関わらず、NOIR は非常に心強い結果を達成しました。タスクを完了するのに必要な試行回数は平均 1.83 回のみでした。

デコード精度。脳信号をデコードする精度が NOIR システムの成功の鍵となります。表 2 は、さまざまな段階でのデコード精度をまとめたものです。 SSVEP に基づく CCA (正準相関分析) は 81.2% という高い精度を達成でき、項目選択が概ね正確であることがわかります。

アイテムとスキルの選択結果。では、新しく提案されたロボット学習アルゴリズムはNOIRの効率を向上させることができるのでしょうか?研究者らはまず、アイテムとスキルの選択学習を評価しました。これを行うために、アイテムとスキルのペアごとに 15 個のトレーニングサンプルを含む、MakePasta タスク用のオフラインデータセットを収集しました。与えられた画像に対して、正しいアイテムとスキルが同時に予測された場合、その予測は正しいと見なされます。結果を表３に示す。