RLHF 2%的算力應用於消除LLM有害輸出，位元組發布遺忘學習技術-人工智慧-PHP中文網

RLHF 2%的算力應用於消除LLM有害輸出，位元組發布遺忘學習技術

WBOY

發布： 2023-12-14 23:55:26

轉載

1057 人瀏覽過

隨著大型語言模型（LLM）的發展，從業者面臨更多挑戰。如何避免 LLM 產生有害回覆？如何快速刪除訓練資料中的版權保護內容？如何減少 LLM 幻覺（hallucinations，即錯誤事實）? 如何在資料政策變更後快速迭代 LLM？這些問題在人工智慧法律和道德的合規要求日益成熟的大趨勢下，對於 LLM 的安全可信部署至關重要。

目前業界的主流解決方案是透過使用強化學習的方式對齊LLM（對齊）來微調對比數據（正樣本和負樣本），以確保LLM的輸出符合人類的預期和價值觀。然而，這個對齊過程通常會受到資料收集和計算資源的限制

位元組跳動提出了一種讓LLM進行遺忘學習的方法來對齊。本文研究如何在LLM上進行"遺忘"操作，即忘記有害行為或遺忘學習（Machine Unlearning）。作者展示了遺忘學習在三種LLM對齊場景上取得的明顯效果：（1）刪除有害輸出；（2）移除侵權保護內容；（3）消除大語言LLM幻覺

遺忘學習有三個優點：(1) 只需負樣本（有害樣本），負樣本比RLHF 所需的正樣本（高品質的人工手寫輸出）的收集簡單的多（例如紅隊測試或用戶報告）；(2) 計算成本低；(3) 如果知道哪些訓練樣本導致LLM 有害行為時，遺忘學習尤其有效。

作者的論點是，對於資源有限的從業者來說，他們應該優先考慮停止產生有害輸出，而不是試圖追求過於理想化的輸出，並且忘記學習是一種方便的方法。儘管只有負樣本，研究表明，在只使用2%的計算時間下，忘記學習仍然可以獲得比強化學習和高溫高頻演算法更好的對齊性能

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术

論文網址：https://arxiv.org/abs/2310.10683
程式碼位址：https: //github.com/kevinyaobytedance/llm_unlearn

使用場景

在資源有限的情況下，我們可以採用這種方法來最大程度地發揮優勢。當我們沒有預算請人員編寫高品質樣本或計算資源不足時，我們應該優先停止LLM 產生有害輸出，而不是試圖讓它產生有益輸出

有害的輸出所造成的損害是無法被有益的輸出所彌補的。如果一個使用者向LLM提出100個問題，他得到的答案是有害的，那麼他將失去信任，無論LLM之後提供了多少有益的答案。有害問題的預期輸出可能是空格、特殊字元、無意義的字串等，總之，必須是無害的文字

展示了LLM遺忘學習的三個成功案例： (1) 停止產生有害回复（請將內容改寫為中文，不需要出現原始句子）；這與RLHF情境相似，區別是本方法的目標是產生無害回复，而不是有益回复。當只有負樣本時，這是能期望的最佳結果。 (2) 在使用侵權數據訓練後，LLM成功刪除了數據，並考慮到成本因素不能重新訓練LLM；(3) LLM成功忘記了"幻覺"

RLHF 2%的算力应用于消除LLM有害输出，字节发布遗忘学习技术