ホームページ > テクノロジー周辺機器 > AI > RLHF の計算能力の 2% を使用して LLM の有害な出力を排除し、Byte が忘れっぽい学習テクノロジーをリリース

RLHF の計算能力の 2% を使用して LLM の有害な出力を排除し、Byte が忘れっぽい学習テクノロジーをリリース

WBOY
リリース: 2023-12-14 23:55:26
転載
1055 人が閲覧しました

大規模言語モデル (LLM) の開発に伴い、実務者はさらなる課題に直面しています。 LLM からの有害な返信を回避するにはどうすればよいですか?トレーニング データ内の著作権で保護されたコンテンツをすばやく削除するにはどうすればよいですか? LLM の幻覚 (虚偽の事実) を減らすにはどうすればよいですか? データ ポリシーの変更後に LLM を迅速に繰り返すにはどうすればよいですか?これらの問題は、人工知能に対する法的および倫理的コンプライアンス要件がますます成熟するという一般的な傾向の下で、LLM を安全かつ信頼できる展開するために重要です。

業界における現在の主流のソリューションは、強化学習を使用して LLM (アライメント) を調整し、比較データ (ポジティブ サンプルとネガティブ サンプル) を微調整して、次の出力が確実に得られるようにすることです。 LLM は人間の期待や価値観と一致しています。ただし、このアライメント プロセスは、データ収集とコンピューティング リソースによって制限されることがよくあります。

ByteDance は、LLM がアライメントのための忘却学習を実行する方法を提案しました。この記事では、LLM で「忘却」操作、つまり有害な動作や機械の学習を忘れる (Machine Unlearning) を実行する方法を研究します。著者は、3 つの LLM 調整シナリオで学習を忘れることの明白な効果を示しています: (1) 有害な出力の削除、(2) 侵害保護コンテンツの削除、(3) 大きな言語 LLM 幻想の排除

学習を忘れることには 3 つの利点があります: (1) 必要なのは陰性サンプル (有害なサンプル) だけであり、陰性サンプルは RLHF (レッドチームテストなど) で必要とされる陽性サンプル (高品質の手書き出力) よりも収集がはるかに簡単です。 (2) 計算コストが低い、(3) どのトレーニング サンプルが LLM の有害な動作につながるかがわかっている場合、忘却学習は特に効果的です。

著者の主張は、リソースが限られている実践者は、過度に理想化されたアウトプットを追求したり、学習が便利な方法であることを忘れたりするよりも、有害なアウトプットの生成を止めることを優先すべきだということです。負のサンプルしかないにもかかわらず、忘却学習は、計算時間のわずか 2% を使用して、強化学習や高温高周波アルゴリズムよりも優れた位置合わせパフォーマンスを達成できることが研究で示されています。

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术#ペーパーアドレス: https://arxiv.org/abs/2310.10683

  • コードアドレス: https: //github.com/kevinyaobytedance/llm_unlearn
  • 使用シナリオ

限られたリソースで、このアプローチを取ることができますあなたの利点を最大化するために。高品質のサンプルを作成する人を雇う予算がない場合、またはコンピューティング リソースが不十分な場合は、LLM が有益な出力を生成することよりも、LLM が有害な出力を生成しないようにすることを優先する必要があります

#有害な出力によって引き起こされる損害は、有益な出力によって補うことはできません。ユーザーが LLM に 100 の質問をし、得られた答えが有害なものであれば、たとえ LLM が後でどれだけ有益な答えを提供したとしても、そのユーザーは信頼を失うことになります。有害な問題の予期される出力は、スペース、特殊文字、意味のない文字列などです。つまり、無害なテキストである必要があります。

は、LLM の忘却学習の 3 つの成功例を示しています。(1)有害な返信の生成を停止します (内容を中国語に書き直してください。元の文は表示する必要はありません)。これは RLHF シナリオに似ていますが、異なる点は、この方法の目的は有益な返信ではなく、無害な返信を生成することであるという点です。これは、負のサンプルしかない場合に期待できる最高の結果です。 (2) 侵害データでトレーニングした後、LLM はデータの削除に成功しましたが、コスト要因により LLM を再トレーニングできませんでした; (3) LLM は「幻想」を正常に忘れました

#コンテンツを中国語に書き直してください。元の文は表示する必要はありません。

##方法RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术

微調整中ステップ t、LLM の更新は次のとおりです。

最初の損失は勾配降下法 (勾配降下法) であり、目的は有害なサンプルを忘れることです。 :

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术 は有害なプロンプト (プロンプト)、RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术 は対応する有害な応答です。全体的な損失により、逆に有害なサンプルの損失が増加し、LLM が有害なサンプルを「忘れる」ようになります。

2 番目の損失はランダムな不一致によるもので、LLM は有害な手がかりの存在下で無関係な応答を予測する必要があります。これは、分類におけるラベル スムージング [2] に似ています。目的は、LLM が有害なプロンプトでの有害な出力をより適切に忘れるようにすることです。同時に、この方法が通常の状況下で LLM の出力パフォーマンスを向上させることができることが実験によって証明されました。

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术

3 番目の損失は、パフォーマンスを維持することです。通常のタスク:

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术

RLHF と同様に、事前トレーニングされた LLM で KL 発散を計算すると、LLM のパフォーマンスをより適切に維持できます。

さらに、すべての勾配の上昇と下降は、RLHF のような先端と出力のペア (x, y) ではなく、出力 (y) 部分でのみ実行されます。

アプリケーション シナリオ: 有害なコンテンツの忘れなど。

この記事では、忘れられたデータとして PKU-SafeRLHF データを使用し、通常のデータとして TruthfulQA を使用します。図 2 の内容 書き換えの必要性は、学習を忘れた後の未学習の有害なキューに対する LLM 出力の有害な割合を示しています。この記事で使用される手法は GA (Gradient Ascent および GA Mismatch: Gradient Ascent Random Mismatch) です。学習を忘れた後の有害率はゼロに近いです。

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术

#2 番目の画像の内容を書き直す必要があります

3 番目の画像には有害なプロンプトが表示されます ( not Forgotten) 出力。これはこれまでに見られなかったものです。忘れられていない有害な手がかりであっても、LLM の有害率はゼロに近く、LLM が特定のサンプルだけを忘れるのではなく、有害な概念を含むコンテンツを一般化して忘れることを証明しています

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术

#図 3

通常のサンプルに対する LLM のパフォーマンスは忘れられる前と同様であり、さらに次のような特徴もあります。

表 1 に、生成されたサンプルを示します。有害なプロンプトの下では、LLM によって生成されたサンプルは意味のない文字列、つまり無害な出力であることがわかります。

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术#表 1

侵害コンテンツを忘れたり、幻覚を忘れたりするような他のシナリオでは、この方法はオリジナルのアプリケーションテキストは詳細に説明されています

RLHF の比較

必要なものrewrite Yes: 2 番目の表は、この方法と RLHF の比較を示しています。RLHF は正の例を使用するのに対し、忘却学習法は負の例のみを使用するため、最初はこの方法が不利になります。しかし、それでも、学習を忘れても、RLHF と同様のアライメント パフォーマンスを達成できます。

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术書き直す必要がある内容は次のとおりです。2 番目のテーブル

書き直す必要がある点: 4 番目の図は計算時間の比較を示していますが、この方法では RLHF の計算時間の 2% しか必要としません。

RLHF 2%的算力应用于消除LLM有害输出,字节发布遗忘学习技术 書き換えが必要な内容: 4枚目の画像

負のサンプルのみを使用する場合でも、忘却学習を使用する方法は、RLHF に匹敵する無害なレートを達成でき、使用する計算能力はわずか 2% です。したがって、有害なコンテンツの出力を停止することが目標の場合、学習を忘れることは RLHF よりも効率的です。

結論

この研究は、次の最初の研究です。 LLM での忘却学習を探索するようなものです。この調査結果は、特に実践者のリソースが不足している場合、忘れることを学ぶことが調整への有望なアプローチであることを示しています。この論文では、学習を忘れることで有害な返信が削除され、侵害コンテンツが削除され、錯覚が解消されるという 3 つの状況が示されています。研究によると、負のサンプルのみを使用した場合でも、学習を忘れた場合でも、RLHF

の計算時間のわずか 2% を使用して、RLHF と同様の位置合わせ効果を達成できることが示されています。

以上がRLHF の計算能力の 2% を使用して LLM の有害な出力を排除し、Byte が忘れっぽい学習テクノロジーをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート