「Minecraft」ビデオを 70,000 時間視聴すると、AI はどのレベルに到達できるでしょうか?
「ダイヤモンドのつるはし」を例に挙げると、上級の人間のプレイヤーがそれを完了するには、20 分間の素早いクリックと約 24,000 回のアクションが必要です。
そして現在の AI はすでにそれを簡単に保持できます。
哐哐さまざまな素材を見つけて、さまざまな合成を段階的に実行します:
これは、最強として知られる OpenAI の「Minecraft」AI です— —MineDojo。
「ダイヤモンドツール」を作成できる世界初のAIでもあります。
それだけでなく、「石のツルハシ」や「簡易シェルター」の構築も問題ありません:
もちろん、「Minecraft」ではその他のルーチン操作も MineDojo で簡単に処理できます。
たとえば、水泳、狩猟、柱ジャンプなど:
OpenAI が AI にこれらのスキルを学習させたい理由について、研究者のボーエン・ベイカー氏は次のように述べています。
これは主に、インターネットをサーフィンするときに人間の行動をシミュレートしているためです。
先ほども述べたように、MineDojo を「洗練する方法」はビデオを見ることです。
これらのビデオ コンテンツは、人間のプレイヤーが「Minecraft」をプレイする様子を YouTube に投稿したものです。
その後、70,000 時間のビデオを視聴した後、AI はゲーム内のさまざまなタスクの実行方法を学習しました。
この方法は一般に模倣学習と呼ばれ、人間の行動を観察してニューラル ネットワークを学習させる方法です。
これまでに多くの関連研究が行われてきましたが、まだ解決する必要がある問題がいくつかあります。
「タグ付け」もその 1 つです。
伝統的な方法は、すべてのアクションにラベルを付けることです。これを実行すると、これが起こり、あれを実行すると、あれが起こります。
しかし、この方法の考えられる結果は、ワークロードが大きすぎて、トレーニングに使用できるデータが少なくなるということです。
したがって、OpenAI 研究者は別のアプローチをとり、別の研究アイデアを思いつきました - ビデオ事前トレーニング (VPT):
中心となるアイデアこの方法は、退屈な「ラベル付け」作業を処理するために別のニューラル ネットワークを特別にトレーニングすることです。
この目的のために、研究者たちはまずプレイヤーのグループを見つけて、最初に「Minecraft」をプレイするよう依頼しました。もちろん、楽しみながら、キーボードとマウスのクリック数も記録する必要がありました。
このようにして、研究者らはまず、約 2000 時間分のラベル付きデータを取得しました。
これに基づいて、キーボードとマウスの動きと画面上の結果を一致させるモデルのトレーニングを開始しました。 -
たとえば、どのような状況でマウスをクリックすると、ゲームがキャラクターを振り回すようになりますか?斧。
このモデルをトレーニングした後、70,000 時間のラベルなしビデオが導入され、そのサポートにより、巨大で使用可能なデータ セットが生まれます。
次のステップは、模倣学習という以前のアイデアに戻り、これらの新しいデータを使用して AI をトレーニングすることです。
模倣学習は強化学習の一分野であると言えますが、OpenAI の研究者は、VPT によって訓練された AI が強化学習だけでは達成できないタスクを完了できることを発見しました。
木の板を作ってテーブルに変えるなど(約970回の連続アクションが必要)。
それだけでなく、研究者らは、模倣学習と強化学習を組み合わせると効果が最大になることも発見しました。
「Minecraft」に関するこの調査から拡張して、OpenAI 研究者は次のようにも述べています:
私たちの AI は、マウスで Web サイトを閲覧したり、航空券を予約したり、オンラインで買い物をしたりするなど、他のタスクも実行できます。
実は、今回のOpenAIの研究のハイライトは、VPT手法そのものを除けば、その研究 - 「Minecraft」」やビデオも熱い議論の焦点となっています。
ゲーム「Minecraft」の大きな特徴はそのオープン性であり、プレイヤーはこの仮想世界で予期せぬ傑作を数多く作ることができます。
強化学習によってAIを訓練したこれまでのゲーム環境とは異なり、結果として「勝ち負け」で終わることがほとんどでしたが、その後訓練されたAIの能力がこの「限界」を超えることもよくあります。
しかし、「Minecraft」には「勝ち負け」というものはなく、ここでは AI が最大限の役割を果たします。したがって、OpenAI 研究者は次のように述べています:
「Minecraft」は AI を訓練するための優れた実験場です。
そして、これは NeurIPS の評価も獲得しました - MineDojo は今年のトップカンファレンスで賞を受賞しました。
この調査の 2 番目の注目のトピックである「ビデオ」について、ソニー エグゼクティブ ディレクターのピーター ストーン氏は次のように述べています。
ビデオは大きな可能性を秘めたトレーニング リソースです。
しかし、OpenAI 研究者はこの結果に満足していないようで、100 万時間分の「Minecraft」ビデオを収集すれば AI がさらに改良されると考えています。
もちろん、この研究はネチズンからも多くの注目を集め、いくつかの興味深い議論もありました:
人々はAIに意識を持ってほしいと願っていますが、意識を持って初めて気づくのです。長時間ビデオを見るのは疲れます。
論文アドレス: https://openai.com/blog/vpt/
[1]https : //www.reddit.com/r/technology/comments/z58fmi/a_bot_that_watched_70000_hours_of_minecraft_could/
[2]https://www.youtube.com/watch?v=Z2FsxrRmDPQ[3]https://www .youtube.com/watch?v=fJn9B64Znrk
以上がAIは人間の高度なスキルを学ぶために7万時間の「Minecraft」ビデオを視聴、ネチズン:とても苦痛だの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。