RLHF の計算能力の 2% を使用して LLM の有害な出力を排除し、Byte が忘れっぽい学習テクノロジーをリリース-AI-php.cn

RLHF の計算能力の 2% を使用して LLM の有害な出力を排除し、Byte が忘れっぽい学習テクノロジーをリリース

WBOY

リリース： 2023-12-14 23:55:26

転載

1055 人が閲覧しました

大規模言語モデル (LLM) の開発に伴い、実務者はさらなる課題に直面しています。 LLM からの有害な返信を回避するにはどうすればよいですか?トレーニングデータ内の著作権で保護されたコンテンツをすばやく削除するにはどうすればよいですか? LLM の幻覚 (虚偽の事実) を減らすにはどうすればよいですか? データポリシーの変更後に LLM を迅速に繰り返すにはどうすればよいですか?これらの問題は、人工知能に対する法的および倫理的コンプライアンス要件がますます成熟するという一般的な傾向の下で、LLM を安全かつ信頼できる展開するために重要です。

業界における現在の主流のソリューションは、強化学習を使用して LLM (アライメント) を調整し、比較データ (ポジティブサンプルとネガティブサンプル) を微調整して、次の出力が確実に得られるようにすることです。 LLM は人間の期待や価値観と一致しています。ただし、このアライメントプロセスは、データ収集とコンピューティングリソースによって制限されることがよくあります。

ByteDance は、LLM がアライメントのための忘却学習を実行する方法を提案しました。この記事では、LLM で「忘却」操作、つまり有害な動作や機械の学習を忘れる (Machine Unlearning) を実行する方法を研究します。著者は、3 つの LLM 調整シナリオで学習を忘れることの明白な効果を示しています: (1) 有害な出力の削除、(2) 侵害保護コンテンツの削除、(3) 大きな言語 LLM 幻想の排除

学習を忘れることには 3 つの利点があります: (1) 必要なのは陰性サンプル (有害なサンプル) だけであり、陰性サンプルは RLHF (レッドチームテストなど) で必要とされる陽性サンプル (高品質の手書き出力) よりも収集がはるかに簡単です。 (2) 計算コストが低い、(3) どのトレーニングサンプルが LLM の有害な動作につながるかがわかっている場合、忘却学習は特に効果的です。

著者の主張は、リソースが限られている実践者は、過度に理想化されたアウトプットを追求したり、学習が便利な方法であることを忘れたりするよりも、有害なアウトプットの生成を止めることを優先すべきだということです。負のサンプルしかないにもかかわらず、忘却学習は、計算時間のわずか 2% を使用して、強化学習や高温高周波アルゴリズムよりも優れた位置合わせパフォーマンスを達成できることが研究で示されています。

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术 #ペーパーアドレス: https://arxiv.org/abs/2310.10683

コードアドレス: https: //github.com/kevinyaobytedance/llm_unlearn
使用シナリオ

限られたリソースで、このアプローチを取ることができますあなたの利点を最大化するために。高品質のサンプルを作成する人を雇う予算がない場合、またはコンピューティングリソースが不十分な場合は、LLM が有益な出力を生成することよりも、LLM が有害な出力を生成しないようにすることを優先する必要があります

#有害な出力によって引き起こされる損害は、有益な出力によって補うことはできません。ユーザーが LLM に 100 の質問をし、得られた答えが有害なものであれば、たとえ LLM が後でどれだけ有益な答えを提供したとしても、そのユーザーは信頼を失うことになります。有害な問題の予期される出力は、スペース、特殊文字、意味のない文字列などです。つまり、無害なテキストである必要があります。

は、LLM の忘却学習の 3 つの成功例を示しています。(1)有害な返信の生成を停止します (内容を中国語に書き直してください。元の文は表示する必要はありません)。これは RLHF シナリオに似ていますが、異なる点は、この方法の目的は有益な返信ではなく、無害な返信を生成することであるという点です。これは、負のサンプルしかない場合に期待できる最高の結果です。 (2) 侵害データでトレーニングした後、LLM はデータの削除に成功しましたが、コスト要因により LLM を再トレーニングできませんでした; (3) LLM は「幻想」を正常に忘れました

#コンテンツを中国語に書き直してください。元の文は表示する必要はありません。

##方法 RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术