OpenAI は GPT-4 を使用して GPT-2 の 300,000 ニューロンを説明します: これが知恵の姿です-AI-php.cn

ChatGPT は人間を知能の再現に近づけるようですが、これまでのところ、自然か人工かにかかわらず、知能とは何かを完全には理解していません。

インテリジェンスの原理を理解することが明らかに必要ですが、大規模な言語モデルのインテリジェンスを理解するにはどうすればよいでしょうか? OpenAI が提供する解決策は、GPT-4 が何を言っているかを尋ねることです。

5 月 9 日、OpenAI は最新の研究を発表しました。この研究では、GPT-4 を使用して大規模な言語モデルにおけるニューロンの動作を自動的に解釈し、多くの興味深い結果を得ました。

OpenAI は GPT-4 を使用して GPT-2 の 300,000 ニューロンを説明します: これが知恵の姿です

解釈可能性を研究する簡単な方法は、まず AI モデルのさまざまなコンポーネント (ニューロンと注意) を理解することです。頭) )何をしているのですか。従来の方法では、ニューロンがデータのどの特徴を表しているかを判断するために、人間が手動でニューロンを検査する必要があります。このプロセスは拡張するのが難しく、数千億または数千億のパラメータを持つニューラルネットワークに適用すると、法外な費用がかかります。

そこで OpenAI は自動化手法を提案しました - GPT-4 を使用してニューロンの動作の自然言語説明を生成してスコア付けし、それをモデル内の別の言語ニューロンに適用します - ここで彼らは GPT-2 を選択しましたを実験サンプルとして使用し、これらの GPT-2 ニューロンの解釈とスコアのデータセットを公開しました。

OpenAI は GPT-4 を使用して GPT-2 の 300,000 ニューロンを説明します: これが知恵の姿です

#紙のアドレス: https://openaipublic.blob.core.windows.net/ neuron-explainer/paper/index.html
GPT-2 ニューロン図: https://openaipublic.blob.core.windows.net/neuron-explainer /neuron-viewer/index.html
コードとデータセット: https://github.com/openai/automated-interpretability

##このテクノロジーを使用すると、GPT-4 を使用して AI モデルの説明可能性の定量的概念を定義し、自動的に測定できます。これは、自然言語の圧縮と再構成を使用して言語モデルを測定するために使用されます。ニューロンが活性化します。その定量的な性質により、ニューラルネットワークの計算目標の理解の進歩を測定できるようになりました。

OpenAI は、自社が確立したベンチマークを使用して AI を説明すると、人間のレベルに近いスコアを達成できると述べています。

OpenAI は GPT-4 を使用して GPT-2 の 300,000 ニューロンを説明します: これが知恵の姿です

OpenAI の共同創設者である Greg Brockman 氏も、AI を使用してアライメント調査を自動化することに向けて重要な一歩を踏み出したと述べました。

具体的な方法

AI を使用して AI を説明する方法には、各ニューロンで 3 つのステップを実行する必要があります:

ステップ 1: GPT-4 を使用して説明を生成する

OpenAI は GPT-4 を使用して GPT-2 の 300,000 ニューロンを説明します: これが知恵の姿です ##GPT-2 ニューロンを与えて、GPT を表示する-4 つの関連するテキストシーケンスとアクティベーションにより、その動作の説明が生成されます。

モデル生成の説明: 映画、キャラクター、エンターテイメントへの参照。

ステップ 2: GPT-4 を使用してシミュレートします。

GPT-4 を再度使用して、解釈されたニューラルをシミュレートします。袁はそうするだろうか。

#ステップ 3: 比較 OpenAI は GPT-4 を使用して GPT-2 の 300,000 ニューロンを説明します: これが知恵の姿です

説明は、シミュレートされたアクティベーションが実際のアクティベーションとどの程度一致するかに基づいてスコア付けされます。この場合、GPT-4 のスコアは 0.34 でした。

OpenAI は GPT-4 を使用して GPT-2 の 300,000 ニューロンを説明します: これが知恵の姿です

#主な調査結果

独自の使用法OpenAI は、スコアリング手法を活用して、ネットワークのさまざまな部分でテクノロジーの有効性を測定し、現在不明な部分のテクノロジーを改善しようと試み始めました。たとえば、彼らの手法は、より大きなモデルではうまく機能しません。これは、おそらく、後の層の解釈がより難しいためです。

OpenAI は GPT-4 を使用して GPT-2 の 300,000 ニューロンを説明します: これが知恵の姿です

OpenAI は、説明の大部分で高いスコアは得られなかったものの、ML を使用できるようになったと考えていると述べています。テクノロジーを利用して、説明を生成する能力をさらに強化します。たとえば、次のことがスコアの向上に役立つことがわかりました:

OpenAI は、GPT-2 の 307,200 個のニューロンすべてを解釈する GPT-4 で書かれたデータセットと視覚化ツールをオープンソース化すると発表しています。同時に、OpenAI API で公開されているモデルを使用して解釈およびスコアリングするためのコードも提供します。彼らは、研究コミュニティが、よりスコアの高い説明を生成するための新しい技術や、説明を通じて GPT-2 を探索するためのより良いツールを開発することを望んでいます。

研究者らは、1,000 個を超えるニューロンの説明スコアが少なくとも 0.8 であることを発見しました。これは、GPT-4 によるニューロンの最上位の活性化動作のほとんどをそれらのニューロンが占めていることを意味します。これらの十分に説明されたニューロンのほとんどは、あまり興味深いものではありません。しかし、GPT-4 が理解できない興味深いニューロンも多数発見されました。 OpenAI は、説明が改善されるにつれて、モデルの計算に関する興味深い定性的な洞察がすぐに明らかになるかもしれないと期待しています。

#ここでは、さまざまな層で活性化されるニューロンの例をいくつか示します。上位層ほど抽象的になります。

OpenAI は GPT-4 を使用して GPT-2 の 300,000 ニューロンを説明します: これが知恵の姿です

OpenAI は GPT-4 を使用して GPT-2 の 300,000 ニューロンを説明します: これが知恵の姿です # # GPT が理解している概念が人間とは違うようですが？

OpenAI の今後の取り組み

現時点では、この方法にはまだいくつかの制限があり、OpenAI は将来の取り組みでこれらの問題を解決したいと考えています:

この方法は短い自然言語の説明に焦点を当てていますが、ニューロンは簡潔に説明できない非常に複雑な動作をする可能性があります;
OpenAI 最終的には自動的に実行されることが期待されています。神経回路全体を見つけて解釈し、ニューロンとアテンションヘッドが連携して複雑な動作を実現します。現在の方法は、下流の影響を考慮せずに、生のテキスト入力の関数としてニューロンの動作を単に解釈します。たとえば、ピリオドで起動するニューロンは、次の単語が大文字で始まるか、文カウンターをインクリメントする必要があることを示すことができます。
#OpenAI は、このニューロンの動作を説明します。この動作を生み出すメカニズムを説明しようとしています。これは、スコアの高い説明であっても、単に相関関係を説明しているだけであるため、配布されていないテキストではパフォーマンスが低下する可能性があることを意味します;
プロセス全体で大量の計算能力を消費します。

最終的に、OpenAI は、説明可能性の研究者が行うのと同じように、モデルを使用して完全に一般的な仮説を形成、テスト、反復することを望んでいます。さらに、OpenAI は、その最大のモデルを、展開の前後に調整とセキュリティの問題を検出する方法として解釈したいと考えています。しかし、それが起こるまでにはまだ長い道のりがあります。

以上がOpenAI は GPT-4 を使用して GPT-2 の 300,000 ニューロンを説明します: これが知恵の姿ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。