大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る-AI-php.cn

長年にわたり、私たちは人工知能がどのように意思決定を行い、出力を生成するかを理解できませんでした。

モデル開発者ができるのは、アルゴリズムとデータについて決定し、最終的にはモデルの出力結果、および中間部分、つまりモデルがこれらのアルゴリズムとデータに基づいて結果を出力する方法は、目に見えない「ブラックボックス」になります。

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

「モデルのトレーニングは錬金術のようなもの」というジョークがあります。

しかし今、モデルのブラックボックスがついに解釈可能になりました。

Anthropic の研究チームは、モデルのニューラルネットワーク内の最も基本的な単位ニューロンの解釈可能な特徴を抽出しました。

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

#これは、人類が AI のブラックボックスを明らかにするための画期的な一歩となるでしょう。

人間は興奮した表情でこう言いました:

「モデル内のニューラルネットワークがどのように機能するかを理解できれば、モデルの欠陥を診断できます。パターン、設計の修正、企業や社会による安全な採用は、手の届く現実になるでしょう!」

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

Anthropic の最新の研究ではレポート「単一意味性を目指して: 辞書学習を使用した言語モデルの分解」では、研究者が辞書学習手法を使用して、512 個のニューロンを含む層を 4,000 を超える解釈可能な特徴に分解することに成功しました

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

研究レポートのアドレス: https://transformer-circuits.pub/2023/monosemantic-features/index.html

これらの特徴は、DNA 配列、法的言語、HTTP リクエストを表します

#単一ニューロンの活性化を個別に観察すると、これらのモデルのプロパティのほとんどを確認することは不可能です

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

ほとんどのニューロンは「多意味的」です。つまり、単一のニューロンは、ネットワークの動作間に一貫した対応関係がありません。

たとえば、小規模な言語モデルでは、単一のニューロンが、学術的な引用、英会話、HTTP リクエスト、韓国語のテキストなど、無関係な多くのコンテキストでアクティブになります。

古典的な視覚モデルでは、単一のニューロンが猫の顔と車の前部に反応します。

#さまざまな状況において、ニューロンの活性化がさまざまな意味を持つことを多くの研究が実証しています。

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る #考えられる理由の 1 つは、ニューロンの多意味的な性質が相加効果によるものであるということです。これは仮説的な現象で、ニューラルネットワークが各特徴に独自のニューロンの線形結合を割り当てることでデータの独立した特徴を表し、そのような特徴の数がニューロンの数を超えます

If 各特徴がニューロン上のベクトルと見なされる場合、特徴セットはネットワークニューロンの活性化に対する過完全な線形基礎を形成します。

Anthropic の以前の「重ね合わせのおもちゃモデル」論文では、スパース性によってニューラルネットワークトレーニングのあいまいさが解消され、モデルが特徴間の関係をよりよく理解できるようになり、それによって不確実性が軽減されることが証明されました。活性化ベクトルのソース特徴を分析し、モデルの予測と決定の信頼性を高めます。

この概念は、信号の希薄性により、限られた観測から完全な信号を復元できる圧縮センシングの概念と似ています。

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

ただし、「重ね合わせのおもちゃモデル」で提案されている 3 つの戦略のうち、

# (1) 重ね合わせのないモデルを作成する、おそらく活性化の疎性を促進することができます。

##(2) 重ね合わせ状態を示すモデルでは、辞書学習を使用して過完全な特徴を見つけます#(3) ) は、2 つを組み合わせたハイブリッドアプローチに依存しています。

書き直す必要があるのは、方法 (1) では曖昧さの問題を解決できないのに対し、方法 (2) では深刻な過学習が発生する傾向があるということです。

そこで今回、Anthropic の研究者は、スパースオートエンコーダーと呼ばれる弱い辞書学習アルゴリズムを使用して、訓練されたモデルから学習された特徴を生成しました。これにより、意味解析のより統一的な単位であるモデルニューロン自体よりも優れたパフォーマンスが得られます。

具体的には、研究者らは 512 個のニューロンを備えた MLP 単層トランスフォーマーを採用し、最終的に 80 億のデータポイントからの MLP アクティベーションでスパースオートエンコーダーをトレーニングしました。MLP アクティベーションを比較的解釈可能な特徴に分解し、拡張係数の範囲は 1 倍 (512 フィーチャ) から 256 倍 (131,072 フィーチャ) です。

#この研究で見つかった特徴がモデルのニューロンよりも解釈可能であることを検証するために、ブラインドレビューを実施し、人間の評価者にその解釈可能性を評価するよう依頼しました。

#ご覧のとおり、特徴 (赤色) はニューロン (シアン) よりもはるかに高いスコアを持っています。

研究者によって発見された特徴は、モデル内のニューロンに比べて理解しやすいことが示されています

さらに、研究者らは、大規模な言語モデルを使用して小規模なモデルの機能の短い説明を生成し、別のモデルに機能のアクティベーションを予測する能力に基づいてその説明をスコアリングさせるという「自動解釈可能性」アプローチを採用しました。

同様に、特徴のスコアはニューロンよりも高く、特徴の活性化とモデルの動作に対する下流の影響について一貫した解釈が示されています。大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

さらに、これらの抽出された特徴は、モデルをガイドするための対象を絞った方法も提供します。

下の図に示すように、機能を人為的にアクティブ化すると、モデルの動作が予測可能な方法で変化する可能性があります。大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

#以下は、抽出された解釈可能性の特徴を視覚化したものです:

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

左側の特徴リストをクリックして、ニューラルネットワークの特徴空間をインタラクティブに探索します

調査レポートの概要

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

##この調査Anthropic のレポート「Toward Monosemanticity: Decomposition Language Models With Dictionary Learning」は 4 つの部分に分けることができます。

問題設定では、研究者は研究の動機を紹介し、訓練されたトランスフォーマーとスパースオートエンコーダーについて詳しく説明しました。

個々の特徴の詳細な調査により、研究で見つかったいくつかの特徴が機能的に特異的な原因単位であることが証明されました。

グローバル分析を通じて、典型的な特徴は解釈可能であり、MLP 層の重要なコンポーネントを説明できると結論付けました。

現象分析では、特徴のセグメンテーション、普遍性、および複雑な動作を実現するために「有限状態オートマトン」に似たシステムを形成する方法など、特徴のいくつかの特性について説明します。

結論には次の 7 が含まれます。

スパースオートエンコーダには、比較的単一の意味論的特徴を抽出する機能があります。

スパースオートエンコーダーは、実際にはニューロンの基盤では目に見えない解釈可能な特徴を生成できます

3. スパースオートエンコーダーの特徴は、ニューロンの生成に介入し、ガイドするために使用できます。トランスフォーマー。

4. スパースオートエンコーダーは、比較的一般的な特徴を生成できます。

オートエンコーダーのサイズが大きくなると、特徴が「分割」される傾向があります。書き換え後: オートエンコーダーのサイズが大きくなるにつれて、特徴は「分割」の傾向を示します

##6。わずか 512 個のニューロンで数千の特徴を表現できます

#7. 以下の図に示すように、これらの機能は「有限状態オートマトン」システムと同様に相互に接続され、複雑な動作を実現します。

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

具体的な詳細については、レポートをご覧ください。

Anthropic は、この研究レポートの小さなモデルの成功をより大きなモデルに再現するには、将来私たちが直面する課題はもはや科学的な問題ではなく、工学的な問題になると考えています。問題

大規模なモデルで解釈可能性を実現するには、モデルの複雑さとサイズによってもたらされる課題を克服するために、エンジニアリングにおいてより多くの労力とリソースが必要です

#新しい開発が含まれますこれには、モデルの複雑さとデータ規模の課題に対処するためのツール、テクニック、方法が含まれ、大規模モデルのニーズに適応するためのスケーラブルな解釈フレームワークとツールの構築も含まれます。

これは解釈型人工知能と大規模深層学習研究の最新トレンドとなるでしょう

以上が大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

問題設定では、研究者は研究の動機を紹介し、訓練されたトランスフォーマーとスパース オートエンコーダーについて詳しく説明しました。

問題設定では、研究者は研究の動機を紹介し、訓練されたトランスフォーマーとスパースオートエンコーダーについて詳しく説明しました。