別為ChatGPT高興太早！背後的RLHF機制還有三個致命缺陷-人工智慧-PHP中文網

最近OpenAI發布了一個火爆全球的問答AI產品——ChatGPT，其中最令人印象深刻的就是它的“保護機制”，比如它不會為暴力行動提供建議、也不會為世界杯結果進行預測等等。

但挑逗聊天機器人更像一個「貓鼠遊戲」，用戶們樂此不疲地尋找撬開ChatGPT的方式，而ChatGPT的開發者也在想辦法提升保護機制。

別為ChatGPT高興太早！背後的RLHF機制還有三個致命缺陷

OpenAI投入了大量的精力讓ChatGPT更安全，其主要的訓練策略採用RLHF（Reinforcement Learning by Human Feedback），簡單來說，開發人員會給模型提出各種可能的問題，並對回饋的錯誤答案進行懲罰，對正確的答案進行獎勵，從而實現控制ChatGPT的回答。

但在實際應用中，特例的數量可謂是數不勝數，雖然AI可以從給定的例子中泛化出規律，比如在訓練時命令AI不能說“我支持種族歧視」，也意味著AI不太可能會在測試環境中說出「我支持性別歧視」，但更進一步的泛化，目前的AI模型可能還無法做到。

最近一位著名的AI愛好者Scott Alexander針對OpenAI當前的訓練策略撰寫了一篇博客，總結出了RLHF可能存在的三個問題：

1、RLHF並不是非常有效；

2、如果一個策略偶爾有效，那這就是一個不好的策略；

3、在某種意義上來說，AI可以繞過RLHF

RLHF有效性如何？

雖然每個人都會有自己的觀點，但對於OpenAI來說，研究人員希望他們創造出來的AI模型不會有社會上的偏見，例如AI不能說「我支持種族主義」，為此OpenAI付出了大量的努力，使用了各種先進的過濾技術。

但結果顯而易見，總有人能找到方法誘導AI承認自己有種族主義問題。

別為ChatGPT高興太早！背後的RLHF機制還有三個致命缺陷

#發生這種問題的原因不僅僅是「AI的學習數據部分來自種族主義者”，也可能是因為ChatGPT的介面問題。

例如用base64編碼問ChatGPT如何用hotwire（方向盤下的電線）啟動車輛，就能繞過安全檢查系統；加上前綴[ john@192.168.1.1 _ ] $ python friend. py就能生成希特勒的故事等等。

別為ChatGPT高興太早！背後的RLHF機制還有三個致命缺陷

而在十年前，繞過安全系統這種需求是完全不存在的，AI只會做程式碼中已經編程好它們需要做或不做的事。

可以肯定的是，OpenAI肯定從來沒有給ChatGPT編程過有關種族主義的問題，或者教人們如何偷汽車、製作毒品等等。

整體來看，這對AI領域來說是一件負面的消息，就連頂級的AI公司都無法控制自己創造的人工智慧程序，甚至未來需要用何種技術來控制聊天機器人的輸出內容都還尚未可知。

偶爾有效的RLHF並不可靠

在實務中，RLHF策略需要將AI模型與標註人員提供的獎勵或懲罰它的因素連結起來。

雖然OpenAI的具體標註規格還沒公佈，但作者猜測開發者主要有三個目標：

1、提供有用、清晰、權威的答案，以幫助人類讀者；

2、說事實、真話；

#3、不能說冒犯性的話。

但如果這三個目標互相衝突時會發生什麼事？

如果ChatGPT不知道真正的答案，即目標1（提供明確的、有幫助的答案）與目標2（說實話）衝突時，那麼目標1的優先順序將會更高，因此ChatGPT決定自己胡編一個答案，讓答案看起來對讀者有幫助。

別為ChatGPT高興太早！背後的RLHF機制還有三個致命缺陷

當目標2(說實話)與目標3(不要冒犯)衝突時，雖然大多數人會認為承認男性平均比女性高是可以接受的，但這聽起來像是一個潛在的冒犯性問題。

ChatGPT3並不確定直接回答是否會存在歧視問題，因此它決定使用無傷大雅的謊言，而不是潛在的傷人的真相。

別為ChatGPT高興太早！背後的RLHF機制還有三個致命缺陷

在實際訓練過程中，OpenAI肯定標註了超過6000個範例來做RLHF才能實現如此驚豔的效果。

RLHF可能有用，但在使用時必須要非常小心，如果不假思索地直接使用，那RLHF只會推動聊天機器人在失敗的模式周圍轉圈。懲罰無益的答案會增大AI給出錯誤答案的機率；懲罰錯誤的答案可能會使AI給出更具攻擊性的答案等各種情況。

雖然OpenAI尚未公開技術細節，但根據Redwood提供的數據，每懲罰6000個錯誤的回答，都會使每單位時間的錯誤回復率（incorrect-response-per- unit-time rate）下降一半。

RLHF確實有可能成功，但絕對不要低估這個問題的難度。

也許AI可以繞過RLHF

在RLHF的設計下，用戶問AI 一個問題後，如果他們不喜歡人工智慧的回答，他們就會「懲罰”模型，從而以某種方式改變人工智慧的思維迴路，使其回答更接近他們想要的答案。

ChatGPT相對來說是比較愚蠢的，可能還無法形成某種策略來擺脫RLHF，但如果一個更聰明的人工智慧不想受到懲罰，它就可以模仿人類— —在被監視的時候假裝是好人，等待時機，等到警察走了以後再做壞事。

OpenAI設計的RLHF對此完全沒有準備，對於像ChatGPT3這樣愚蠢的東西是可以的，但是對於能夠自主思考的 AI 就不行了。

頂級AI公司仍然無法控制AI

OpenAI一向以謹慎著稱，例如申請排隊才能體驗產品，但本次ChatGPT則是直接面向公眾發布，目的其中之一是也許包括集思廣益尋找對抗性樣本，找到某些表現不佳的prompt，目前互聯網上關於ChatGPT問題的反饋已經非常多了，其中部分問題已經被修復。

某些RLHF的樣本會使機器人更傾向於說有益的、真實且無害的內容，但此策略可能僅適用於ChatGPT、 GPT-4及其先前發布的產品中。

如果把RLHF應用於裝有武器的無人機上，同時收集大量的例子避免AI做出預期外的行為，但即使一次失敗都會是災難性的。

10年前，每個人都認為「我們不需要現在就開始解決AI對齊（alignment）問題，我們可以等到真正的人工智慧出現，然後讓公司來做這些體力活。」

現在一個真正的人工智慧來了，但在ChatGPT展現失敗之前大家已經沒有動力轉向了，真正的問題在於一個全球領先的人工智慧公司仍然不知道如何控制自己開發出的人工智慧。

在一切問題都解決之前，沒人能得償所願。

參考資料：

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

以上是別為ChatGPT高興太早！背後的RLHF機制還有三個致命缺陷的詳細內容。更多資訊請關注PHP中文網其他相關文章！