DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。-AI-php.cn

多くの学者の見解では、身体化された知能は AGI に向けた非常に有望な方向性であり、ChatGPT の成功は強化学習に基づく RLHF テクノロジーと切り離すことができません。 DeepMind と OpenAI、どちらが先に AGI を達成できるでしょうか? 答えはまだ明らかにされていないようです。

私たちは、一般的な身体化知能 (つまり、敏捷性と器用さで物理世界で行動し、動物や人間のように理解するエージェント) を作成することが AI 研究者にとって重要なステップであることを理解しています。ロボット工学者の長期的な目標。時間的には、複雑な移動機能を備えたインテリジェントな実体エージェントの作成は、シミュレーションと現実世界の両方で何年も前に遡ります。

近年、進歩のペースは大幅に加速しており、学習ベースの手法が大きな役割を果たしています。たとえば、深層強化学習は、複雑な知覚主導の全身制御やマルチエージェントの動作など、シミュレートされたキャラクターの複雑なモーション制御の問題を解決できることが示されています。同時に、深層強化学習は物理ロボットでの使用が増えています。特に、広く使用されている高品質の四足歩行ロボットは、さまざまな堅牢な運動行動を生成する学習のデモンストレーションのターゲットとなっています。

ただし、静的環境での移動は、動物や人間が世界と対話するために体を展開するさまざまな方法の一部にすぎず、この移動様式は多くの研究で使用されています。特に四足ロボットにおいては、全身制御と動作操作が検証されています。関連する動作の例には、木登り、ドリブルやボールキャッチなどのサッカーのスキル、脚を使う簡単な操作などがあります。

その中でも、サッカーに関しては、人間の感覚運動知性の多くの特徴が示されています。サッカーの複雑さには、走る、曲がる、避ける、蹴る、パスする、倒れる、起き上がるなど、機敏でダイナミックなさまざまな動きが必要です。これらのアクションはさまざまな方法で組み合わせる必要があります。プレーヤーはボール、チームメイト、相手プレーヤーを予測し、ゲーム環境に応じて行動を調整する必要があります。この課題の多様性がロボット工学と AI コミュニティで認識され、ロボカップが誕生しました。

ただし、サッカーを上手にプレーするために必要な機敏性、柔軟性、素早い反応、そしてこれらの要素の間のスムーズな移行は、非常に困難で時間がかかることに注意する必要があります。ロボットの手動設計。最近、DeepMind (現在は Google Brain チームと合併して Google DeepMind を設立) の新しい論文では、二足歩行ロボットの機敏なサッカースキルを学習するための深層強化学習の使用について検討しています。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

#論文アドレス: https://arxiv.org/pdf/2304.13653 .pdf

プロジェクトのホームページ: https://sites.google.com/view/op3-soccer

この論文では、研究者らは動的なマルチエージェント環境における小型ヒューマノイドロボットの全身制御とオブジェクトの相互作用を研究しています。彼らは、フットボール全体の問題のサブセットを検討し、20 個の制御可能な関節を備えた低コストの小型ヒューマノイドロボットをトレーニングして 1 対 1 のフットボールゲームをプレイし、固有受容とゲーム状態の特性を観察しました。コントローラーを内蔵しているため、ロボットはゆっくりとぎこちなく動きます。しかし、研究者らは、深層強化学習を使用して、動的で機敏な状況適応型運動スキル (歩く、走る、方向転換する、ボールを蹴る、転んでから立ち上がるなど) を統合し、エージェントが自然かつスムーズな方法で複雑な運動スキルを統合しました。 -期の行動。

実験では、エージェントはボールの動きを予測し、ボールを配置し、攻撃をブロックし、バウンドしたボールを使用することを学習しました。エージェントは、スキルの再利用、エンドツーエンドのトレーニング、シンプルな報酬の組み合わせにより、マルチエージェント環境でこれらの行動を実現します。研究者らは、シミュレーションでエージェントをトレーニングし、それらを物理的なロボットに転送し、低コストのロボットでもシミュレーションから現実への転送が可能であることを実証しました。

データがそれ自体を物語ります。ロボットの歩行速度は 156% 増加し、立ち上がるまでの時間は 63% 短縮され、キック速度も 24% 増加しました。ベースラインまで。

技術的な解釈に入る前に、1 対 1 のサッカーの試合におけるロボットのハイライトのいくつかを見てみましょう。たとえば、撮影:

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。 #＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃ペナルティーキック：＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃

ターン、ドリブル、キックをすべて一度に DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

##ブロック:

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。実験設定

ロボットにサッカーを学習させたい場合は、まず基本的な設定が必要です。

環境に関しては、図 1 に示すように、DeepMind はまずカスタマイズされたサッカー環境でエージェントをシミュレートしてトレーニングし、次に戦略を対応する実際の環境に移行します。環境は、長さ 5 メートル、幅 4 メートルのサッカー場と、開口幅 0.8 メートルの 2 つのゴールから構成されていました。シミュレーション環境と実際の環境の両方で、コートはボールを範囲内に保つために傾斜路で囲まれています。実際のコートは、転倒によるロボットの損傷のリスクを軽減し、地面との摩擦を増やすためにゴム製のタイルで覆われています。 DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。 #環境をセットアップしたら、次のステップはハードウェアとモーションキャプチャをセットアップすることです。 DeepMind は、高さ 51 cm、重さ 3.5 kg の Robotis OP3 ロボットを使用しており、20 個のサーボモーターで駆動されます。ロボットには GPU やその他の専用アクセラレータがないため、すべてのニューラルネットワークの計算は CPU 上で実行されます。ロボットの先頭には Logitech C920 ウェブカメラがあり、オプションで 30 フレーム/秒の RGB ビデオストリームを提供できます。

方法

DeepMind の目標は、人々が歩いたり、蹴ったりできるように訓練することです。ボールを投げ、立ち上がって、防御し、エージェントに得点を与える方法を理解し、これらの機能を実際のロボットに移管します。図 3 に示すように、DeepMind はトレーニングを 2 つの段階に分割します。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

第 1 フェーズでは、DeepMind は、エージェントを地面から立ち上がらせることと、ゴールを決めることという 2 つの特定のスキルに関する教師の戦略をトレーニングします。

第 2 段階では、第 1 段階の教師戦略を使用してエージェントを制御し、エージェントはますます強力になる敵と効果的に戦う方法を学習します。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

#トレーニング

最初は教師のトレーニングです。教師は、目標を達成するためのトレーニングをできるだけ多く受ける必要があります。このラウンド (エピソード) は、エージェントが転倒するか、範囲外に出るか、制限エリア (図 1 の赤でマーク) に進入するか、対戦相手が得点すると終了します。各ラウンドの開始時に、エージェント、相手側、ボールはコート上のランダムな位置と方向に初期化されます。両側がデフォルトのスタンスに初期化されます。敵対者はトレーニングされていないポリシーで初期化されるため、エージェントはこの段階で敵対者を回避する方法を学習しますが、それ以上の複雑な相互作用は発生しません。さらに、各トレーニング段階の報酬とその重みを表 2 に示します。

エージェントがトレーニングされた後の次のステップは、トレーニングされたキック戦略をサンプルなしで実際のロボットに転送することです。ゼロショット転送の成功率を向上させるために、DeepMind はシンプルなシステム識別を通じてシミュレートされたエージェントと実際のロボットの間のギャップを減らし、トレーニング中のドメインのランダム化と摂動を通じて戦略の堅牢性を向上させ、獲得するための報酬戦略の形成を含みます。ロボットに害を及ぼす可能性が高すぎる動作。

実験

1v1 競技: サッカーエージェントは、地面からの立ち上がり、転倒からの迅速な回復、そして走って振り返る。ゲーム中、エージェントはこれらすべてのスキルの間を流動的に移行します。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

#以下の表 3 は、定量分析の結果を示しています。この結果から、強化学習戦略は人工的に設計された特殊なスキルよりも優れたパフォーマンスを発揮し、エージェントの歩行速度が 156% 速くなり、立ち上がるまでの時間が 63% 短縮されたことがわかります。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

#次の図は、エージェントの歩行軌跡を示しています。学習戦略の充実:

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

#学習戦略の信頼性を評価するために、DeepMind はペナルティキックとジャンピングショットのセットピースを設計しました。、およびシミュレートされた環境と実際の環境で実装されます。初期構成を図 7 に示します。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

#実際の環境では、ロボットはペナルティキックタスクで 10 回中 7 回 (70%) の得点を獲得しました。 . 打ち上げミッションで 10 回中 8 回 (80%) をヒットします。シミュレーション実験では、これら 2 つのタスクにおけるエージェントのスコアはより一貫していました。これは、エージェントのトレーニング戦略が現実の環境 (実際のロボット、ボール、床面などを含む) に移され、パフォーマンスがわずかに低下していることを示しています。動作の違いは大きくなりましたが、ロボットは依然として確実に立ち上がってボールを蹴り、得点することができます。結果を図 7 および表 3 に示します。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。