アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました-AI-php.cn

チェスは常に AI の実験場でした。 70 年前、アランチューリングは、自ら学習し、自身の経験から継続的に改善できるチェスマシンを構築することが可能であるという仮説を立てました。前世紀に出現した「ディープ・ブルー」は初めて人類を破ったが、人間のチェスの知識を暗号化するのは専門家に依存しており、2017年に誕生したアルファゼロはニューラルネットワーク駆動の強化学習マシンとしてチューリング予想を実現した。

AlphaZero は、人工的に設計されたヒューリスティックを使用したり、人間がチェスをプレイするのを観察したりする必要はなく、完全にそれ自体と対戦することによってトレーニングされます。

それでは、チェスについての人間の概念を本当に学習したのでしょうか?これはニューラルネットワークの解釈可能性の問題です。

これに関して、AlphaZero の作者である Demis Hassabis は、DeepMind の同僚および Google Brain の研究者と協力して、AlphaZero のニューラルネットワーク内で人間のチェスの概念の証拠を見つける研究を行いました。トレーニングの過程で、ネットワークはこれらの概念を獲得し、AlphaZero のチェスのプレイスタイルが人間とは異なることも発見します。この論文は最近 PNAS に掲載されました。

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

#文書アドレス: https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119

AlphaZero はトレーニングで人間のチェスの概念を取得します

AlphaZero のネットワークアーキテクチャには、バックボーンネットワーク残余ネットワーク (ResNet) と個別のポリシーヘッドとバリューヘッドが含まれています。ResNet は A シリーズで構成されていますネットワークブロックとスキップ接続で構成される層の数。

トレーニングの反復に関しては、AlphaZero はランダムに初期化されたパラメーターを持つニューラルネットワークから開始し、それ自体に対して繰り返し再生し、ピースの位置の評価を学習し、データに基づいて複数のテストを実行します。プロセス中に生成されるトレーニング時間。

AlphaZero ネットワークが人間の持つチェスの概念をどの程度表現しているかを判断するために、この研究では、スパース線形プローブ法を使用して、トレーニング中のネットワークのパラメーターの変化をマッピングしました。人間が理解できる概念で。

図 1 のオレンジ色に示すように、概念をユーザー定義関数として定義することから始めます。一般化線形関数 g は、チェスの概念 c を近似するためのプローブとしてトレーニングされます。近似 g の品質は、層が概念をどの程度うまく (線形に) エンコードしているかを示します。特定の概念について、このプロセスは、各ネットワークのすべての層のトレーニングプロセス中に生成されたネットワークシーケンスに対して繰り返されます。

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

図 1: AlphaZero ネットワークで人間がエンコードしたチェスの概念を探索する (青)。

たとえば、関数を使用して、私たちの国または場所に「司教」がいるかどうかを判断できます (♗):

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

もちろん、この例よりも複雑なチェスの概念はたくさんあります。たとえば、チェスの駒の可動性については、こちらと敵のスコアを比較する関数を作成できます。動く駒。

この実験では、概念関数が事前に指定されており、チェスの特定の分野の知識がカプセル化されています。

次のステップは、プローブをトレーニングすることです。研究者らは、ChessBase データセット内の 10^5 の自然に発生するチェスの局面をトレーニングセットとして使用し、深さ d のネットワークアクティベーションからスパース回帰プローブ g をトレーニングして、特定の概念 c の値を予測しました。

AlphaZero 自己学習サイクルのさまざまなトレーニングステップでのネットワークと、各ネットワークのさまざまな層でのさまざまなコンセプトプローブのスコアを比較することで、ネットワークが持つ情報を抽出できます。時間と場所という特定の概念について学びました。

最後に、各概念の「いつ、どこで、何を計算するか」の図が得られます。これは、「計算される概念は何か」、「ネットワーク内のどこで計算が行われるか」、「概念がいつ行われるか」に関するものです。ネットワークトレーニング中に表示される」これら 3 つの指標を視覚化します。図 2 に示すように。

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

図2：AからBまでの概念は「総合スコアの評価」と「負けたか？」、「脅威の評価」、「敵の女王を捕まえることができるか」、「敵の動きで殺されるか」、「駒のスコアの評価」、「駒のスコア」、「我々の側に王国の兵士はいますか？」

C 図では、AlphaZero が強力になるにつれて、「脅威」概念の機能と AlphaZero の表現 (これは、リニアプローブ) の変更はますます重要ではなくなります。

このような「いつ、どこで」プロットには、検出方法の比較に必要な 2 つのベースラインが含まれています。1 つはレイヤー 0 で示される入力回帰で、もう 1 つはネットワークからのものです。ランダムな重みアクティブ化された回帰。トレーニングステップ 0 で示されます。上図の結果から、回帰精度の変化は完全にネットワーク表現の変化によって決定されると結論付けることができます。

さらに、多くの What-When-Where グラフの結果は同じパターンを示しています。つまり、ネットワーク全体の回帰精度は、約 32k ステップまでは非常に低く、その後はネットワークの深さが増すにつれて急速に増加し、その後安定し、後続の層では変化しません。したがって、すべての概念関連の計算はネットワークの比較的早い段階で行われ、その後の残差ブロックは移動選択を実行するか、指定された概念セットの外で特徴を計算します。

さらに、トレーニングが進むにつれて、人間が定義した多くの概念が、AlphaZero の表現から高い予測精度で予測できるようになります。

より高度な概念については、研究者は、AlphaZero がそれらを習得する場所に違いがあることを発見しました。まず、2k トレーニングステップでゼロから大きく異なる概念は「マテリアル」と「空間」であり、「king_safety」、「脅威」、「モビリティ」などのより複雑な概念は、8k トレーニングステップでゼロから大きく異なります。ゼロであり、32,000 トレーニングステップが終了するまで大幅には増加しません。この結果は、図 2 の「いつ、どこで」プロットで示されている急激な上昇点と一致しています。アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

さらに、ほとんどの What-When-Where グラフの注目すべき特徴は、ネットワークの回帰精度が最初に急速に増加し、その後プラトーに達するか低下することです。これは、AlphaZero からこれまでに発見された一連の概念はネットワークの初期の層のみを検出し、後の層を理解するには新しい概念検出技術が必要であることを示唆しています。

AlphaZero の序盤戦略は人間とは異なります

AlphaZero が人間のチェスの概念を学習したことを観察した後、研究者らは、序盤戦略の観点から AlphaZero のチェスの戦術の理解をさらに調査しました。 , なぜなら、オープニングの選択は、プレイヤーが関連する概念を理解していることも意味するからです。

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

研究者らは、AlphaZero が人間とは異なる開始戦略を持っていることを観察しました。時間の経過とともに、AlphaZero は選択肢を狭めましたが、人間はその範囲を拡大しました。選択肢。

図 3A は、白の初手に対する人間の好みの歴史的進化を示しています。初期段階では、初手として e4 を使用するのが一般的でした。その後、序盤の戦略は次のようになりました。よりバランスが取れ、より柔軟になります。

図 3B は、AlphaZero のオープニング戦略の進化をトレーニングステップとともに示しています。ご覧のとおり、AlphaZero は常にすべてのオプションを均等に評価することから始めて、徐々にオプションを絞り込んでいきます。

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

図 3: トレーニングのステップと時間に対する最初のステップに対する AlphaZero と人間の好みの比較。

これは、人間の知識の進化が e4 から徐々に拡大するのに対し、AlphaZero は明らかにトレーニングの後期段階で d4 を支持するのとは対照的です。ただし、セルフプレイトレーニングは、探索を容易にするために多くのランダム性が追加されたクイックプレイに基づいているため、この好みについて詳しく説明する必要はありません。

この違いの理由は不明ですが、人間と人工ニューラルネットワークの根本的な違いを反映しています。考えられる要因の 1 つは、人間のチェスの歴史的データがマスタープレイヤーの集合的な知識を強調しているのに対し、AlphaZero のデータには初心者レベルのチェスのプレイと単一の進化した戦略が含まれていることです。

では、AlphaZero のニューラルネットワークが複数回トレーニングされた場合、特定のオープニング戦略に対して安定した優先順位を示すのでしょうか?

調査結果では、多くの場合、この好みはトレーニングが異なると安定せず、AlphaZero のオープニング戦略は非常に多様です。たとえば、古典的な Ruy Lopez のオープニング (一般に「スパニッシュオープニング」として知られています) では、AlphaZero は初期段階で黒を選択することを好み、典型的なプレイ方法、つまり 1.e4 e5、2.Nf3 Nc6、3 に従います。 .Bb5。

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

図 4: ルイ・ロペスがスタート

そして別のトレーニングで、 AlphaZero は、3.f6 または 3.a6 のいずれかに徐々に収束します。さらに、AlphaZero モデルのさまざまなバージョンはそれぞれ、あるアクションを別のアクションよりも強く好むことを示しており、この好みはトレーニングの早い段階で確立されました。

これは、成功するチェスのプレイが人間と機械の間だけでなく、AlphaZero のさまざまなトレーニング反復間でも多様であることのさらなる証拠です。

AlphaZero の知識習得のプロセス

それでは、オープニング戦略に関する上記の研究結果と AlphaZero の概念理解との間にはどのような関係があるのでしょうか?

この研究では、さまざまなコンセプトの「いつ、どこで」のグラフに明確な変曲点があり、これは開口部の好み、特に素材とモビリティの大幅な変化と一致していることがわかりました。はオープニング戦略に直接関係しているようです。

マテリアルの概念は主にトレーニングステップ 10k と 30k の間に学習され、ピースモビリティの概念は同じ期間に AlphaZero のバリューヘッドに徐々に統合されます。チェス駒の物質的価値についての基本的な理解は、チェス駒の可動性についての理解に先立って行う必要があります。 AlphaZero は、この理論を 25k から 60k のトレーニングステップの間の初期設定に組み込みました。

著者は、チェスに関する AlphaZero ネットワークの知識の進化をさらに分析しました: 最初にチェスの強さの発見、次に主に移動性に関連する基本的な知識が短期間で爆発的に増加しましたいくつかの概念、そして最後に、ニューラルネットワークの開始戦略が数十万のトレーニングステップにわたって洗練される洗練フェーズです。全体の学習時間は長くなりますが、特定の基礎能力は比較的短期間ですぐに身につきます。

元チェスの世界チャンピオン、ウラジミール・クラムニク氏もこの結論を支持するために招かれましたが、彼の観察は上記のプロセスと一致していました。

最後に、この研究は、AlphaZero ネットワークによって学習されたチェス盤表現が多くの人間のチェスの概念を再構築できることを実証し、トレーニング時にかかった時間でネットワークによって学習された概念的な内容を詳しく説明します。コンセプトと、計算されたコンセプトのネットワーク上の場所を学習します。さらに、AlphaZero のチェスのプレイスタイルは人間と同じではありません。

人間が定義したチェスの概念という観点からニューラルネットワークを理解したところで、次の疑問は、ニューラルネットワークは人間の知識を超えたものを学習できるのかということです。

以上がアルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。