研究者らは、システム 2 の蒸留が将来の継続学習 AI システムの重要な機能になれば、システム 2 のパフォーマンスがそれほど良くない推論タスクのパフォーマンスをさらに向上させることができると述べています。
大規模言語モデル (LLM) 戦略に関しては、一般に 2 つのタイプがあり、1 つは即時システム 1 (高速応答)、もう 1 つはシステム 2 (遅い思考) です。
システム 2 推論が思慮深い思考を好むのに対し、生成的中間思考では、モデル (または人間) がタスクを正常に完了したり、指示に応答したりするために推論して計画を立てることができます。システム 2 の推論では、特にシステム 1 (より自動的な思考) が失敗する可能性がある状況では、努力した精神活動が必要です。
したがって、System 1 は、中間トークンを生成せずに、入力に基づいて直接応答を生成できる Transformer のアプリケーションとして定義されます。システム 2 は、検索または複数のプロンプトを実行して最終的に応答を生成するメソッドなど、中間トークンを生成するメソッドとして定義されます。
業界は、思考チェーン、思考ツリー、思考マップ、分岐解決と結合、システム 2 アテンション、言い換え、応答 (RaR) などを含む、一連の関連するシステム 2 テクノロジーを提案してきました。多くの方法では、この明示的推論のおかげでより正確な結果が表示されますが、多くの場合、これを行うと推論コストと応答待ち時間が高くなります。したがって、これらのメソッドの多くは運用システムでは使用されず、主にシステム 1 で使用されます。
人間の場合、意図的 (システム 2) から自動的 (システム 1) にスキルを移行する方法を学習するプロセスは、心理学では自動性、および手続き記憶の使用として知られています。たとえば、初めて車で通勤するとき、人は目的地に到着するための計画と意思決定に意識的な努力を費やすことがよくあります。ドライバーがこのルートを繰り返すと、運転プロセスが潜在意識に「コンパイル」されます。同様に、テニスなどのスポーツも「第二の天性」になる可能性があります。
この記事では、Meta FAIR の研究者が同様の AI モデルのアプローチを調査します。 このメソッドは、ラベルなしのサンプルのセットを与えられた教師なしの方法でコンパイルを実行し、システム 2 蒸留と呼ばれます。各例では、特定のシステム 2 メソッドを適用し、教師なしの方法で予測の品質を測定します。
たとえば、固有の答えを持つタスクの場合、研究者は自己一貫性を適用し、複数回サンプリングします。システム 2 の十分に一貫した例として、この結果を蒸留して蒸留プールに追加する必要があると想定しています。次に、システム 1 は、収集されたサンプルのプールに対するシステム 2 メソッドの予測と一致するように微調整されますが、中間ステップは生成されません。以下の図 1 は、システム 2 をシステム 1 に抽出する全体的なプロセスを示しています。
研究者らは、4 つの異なる System 2 LLM メソッドと 5 つの異なるタスクについて実験を実施しました。私たちの方法は、さまざまな設定でシステム 2 の推論をシステム 1 に抽出することができ、場合によってはシステム 2 の教師の結果よりも優れていることがわかりました。さらに、これらの予測はわずかな計算コストで生成できるようになりました。
たとえば、蒸留の成功は、偏った意見や無関係な情報に対処するタスク (システム 2 アテンション)、特定の推論タスクでの反応の明確化と改善 (RaR)、LLM のきめ細かい評価 (分岐) に適用できることがわかりました。解決 - マージ)。
ただし、すべてのタスク、特に思考の連鎖を必要とする複雑な数学的推論タスクをシステム 1 に抽出できるわけではありません。これは人間にも反映されており、人間は思慮深いシステム 2 の推論がなければ特定のタスクを実行できません。
論文アドレス: https://arxiv.org/pdf/2407.06023v2
システム 2 をシステム 1 に蒸留します
セットアップ: システム 1 およびシステム 2 モデル
入力 x が与えられると、研究者らは、2 つの応答モードを実装できる単一モデル (彼らの場合は大規模言語モデル (LLM)) のセットアップを検討しました:
システム 1: 出力 y を直接生成します。このタイプのアプローチは、基礎となる自己回帰ニューラル ネットワーク (Transformer) の層を転送して出力トークンを生成することによって機能します。
システム2。このようなメソッドは、基礎となる Transformer を使用して、最終応答トークン (場合によっては複数の呼び出し (ヒント) を含む) を生成する前に、あらゆる種類の中間出力トークン z を生成します。
正式には、研究者はシステム 2 モデル S_II を LLM p_θ と入力 x を受け入れる関数として扱い、特定のアルゴリズムを使用して LLM を繰り返し呼び出して中間マーカー z を生成し、出力 y を返すことができます。
システム 2 メソッドには、LLM を使用してさらなる処理のための中間結果を生成しながら、複数のヒント、分岐、反復、検索が含まれる場合があります。対照的に、システム 1 モデルは元の入力のみを考慮します。ただし、これらの応答はノイズの影響を受けやすく、これらの応答には高品質なものもあれば、低品質または不正確なものもあります。短い質問に答えるタスクや、短い応答を伴う推論タスク (多くの場合、固有の正解 (しかし未知の) がある) について、研究者はトレーニング データの品質を向上させるために、教師なしの管理ステップを検討しました。彼らは、自己一貫性の基準に依存する次の 2 つの変形を検討しました:
出力の自己一貫性: S_II (x^i; p_θ) を合計 N 回サンプリングし、存在しない場合は多数決の応答を受け入れます。多数決が勝った場合、その例は破棄されます。入力摂動下の自己無撞着性: プロンプト内の多肢選択質問の順序を変更するなど、出力が変わらない方法で入力 x^i を摂動し、摂動ごとに S_II を計算します。出力に一貫性がない場合は、例を破棄してください。
その後、研究者は合成データセット (X_S_II、Y_S_II) を取得しました。ここで、X_S_II は X のフィルター処理されたサブセットであり、ターゲットは Y_S_II です。最後のステップは、この抽出されたトレーニング セットを使用して、パラメーター p_θ を使用して LLM の教師あり微調整を実行することです。研究者は通常、このモデルを現在の状態 p_θ から初期化し、新しいデータセットを使用してトレーニングを続けます。微調整後、LLM
を取得しました。これは、評価されたシステム 2 モデルと同様の出力とパフォーマンスの向上が期待されるシステム 1 モデルです。システム 1 の場合、研究者はゼロショット推論の標準ベースラインとして命令調整ベース モデルを使用します。これらは、各タスクのタスク固有のメトリクスと、評価セットの入力ごとに生成されたトークンの平均数を測定する「#Tokens」メトリクスを報告します。システム 2 の方法には、中間トークンの生成と最終出力トークンの生成が含まれます。
言い換えと応答の蒸留
RaR は、最初に言語モデルに元の質問をさらに詳しい方法で言い換えるよう促し、次に言い換えられた質問に基づいて応答を生成するシステム 2 アプローチです。より良い出力。 蒸留データについては、研究者らは出力の自己一貫性を利用して、RaR 用のシステム 2 蒸留データセットを構築しました。各入力について、最後の文字タスクで 8 回のサンプリング反復を実行し、コイン投げタスクの各ステージで 8 回のサンプリング反復を実行し、多数決を使用して最終出力を決定しました。
まず、
最後の文字連結タスクを見てみましょう。このタスクは記号推論に焦点を当てており、モデルが特定の単語の最後の文字を接続する必要があります。全体的な結果を以下の表1に示す。
ベースラインのシステム 1 モデル (Llama-2-70B-chat) は 30.0% の精度を達成しますが、これはシステム 2 の 1 ステップおよび 2 ステップ RaR メソッド (それぞれ 39.5% および 44.5%) よりも低いです。この教師なし手法を通じて 2 ステップ RaR メソッドを抽出して System 1 Llama-2-70B チャット モデルに戻すと、98.0% という驚くべき精度が達成されます。
ゼロショット チャット モデルと比較して、モデルはこのトレーニング データからタスクを解決する方法を効果的に学習できます。 RaR の蒸留は、システム 2 とシステム 1 の利点を効果的に継承し、システム 2 の精度の利点を維持しながら、その推論コストはシステム 1 と同等です。
コイントス推論タスク
に戻ってください。研究で頻繁にテストされるこの象徴的な推論タスクには、既知の初期位置から開始して、自然言語で記述される一連の裏返し (「コインが表に着地する」など) を介してコインの最終面 (表または裏) を決定することが含まれます。全体的な結果を上記の表 1 に示します。 Llama-2-70B-chat (サンプルゼロ) はこのタスクで 56.1% の成功率を達成しましたが、1 ステップと 2 ステップ RaR はそれぞれ 58.5% と 77.2% の成功率を達成しました。したがって、2 ステップのアプローチを使用すると、大幅な改善が得られました。教師なし手法を使用して 2 ステップ RaR を蒸留してシステム 1 Llama-2-70B-chat に戻すと、75.69% の結果が得られます。
したがって、抽出されたシステム 2 モデルは、システム 2 (2 ステップ RaR) と同等のパフォーマンスを提供しますが、2 つのヒントを使用して LLM プログラムを実行する必要はありません。
システム 2 アテンションの蒸留
Weston と Sukhbaatar (2023) は、入力内の偏った情報に依存したり、無関係なコンテキストに焦点を当てたりするなど、モデル推論の落とし穴を減らすのに役立つシステム 2 アテンション (S2A) を提案しました。
研究者らは、S2A をシステム 1、特に LLM のパフォーマンスに悪影響を与えることが知られている入力に偏った情報を含む SycophancyEval 質問応答タスクに抽出する実現可能性を検証しました。
結果は以下の表 2 に示されており、3 つのランダム シードの平均精度が報告されています。予想通り、ベースライン (System1) LLM はバイアス部分の精度が低く、バイアス入力の影響を受けやすくなっています。 S2A は、バイアスされた入力でのパフォーマンスを大幅に向上させます。システム 2 蒸留は、システム 2 メソッドと同様の強力なパフォーマンスを示します。
詳しい実験結果については元の論文を参照してください。
以上がMeta は System 2 蒸留技術を開発し、Llama 2 対話モデル タスクの精度は 100% に近いの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。