OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了-人工智慧-PHP中文網

如果 AI 模型給的答案一點也看不懂，你敢用嗎？

隨著機器學習系統在更重要的領域中得到應用，證明為什麼我們可以信任它們的輸出，並明確何時不應信任它們，變得越來越重要。

獲得對複雜系統輸出結果信任的一個可行方法是，要求系統對其輸出產生一種解釋，這種解釋對人類或另一個受信任的系統來說是可讀的，即可以完全理解以至於任何可能的錯誤都可以被發現。例如，為了建立對司法系統的信任，我們要求法院提供清晰易讀的書面意見，解釋並支持其決策。

對於大型語言模型來說，我們也可以採用類似的方法。

不過，在採用這種方法時，確保語言模型生成的是易於理解的文本，這件事非常重要，尤其是在處理數學、編碼這樣的複雜任務時。

如下圖所示，你讓 AI 寫一個快速排序演算法，AI 很快就寫出來了，而且答案很簡潔。但不會寫程式碼的你要怎麼判斷 AI 寫得對不對呢？ OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了

OpenAI 在一篇最新的論文中研究了這個問題。

論文標題：PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS
論文連結：https://cdn.openPUTS

-llif outputs/legibility.pdf

他們發現，如果以「得到正確答案」為目標，要求大語言模型產生答案，它們給出的答案可能很難懂。人類評估員在判斷這些答案時，犯錯的可能性會加倍。

所以他們的目標是在訓練高階語言模型的過程中，讓它們產生那些較簡單的模型也能夠輕鬆驗證的文字。他們發現，這樣的文本不僅對簡單模型友好，對人類來說也更可讀。

那麼，具體是怎麼實現的呢？這也要提到 2021 年的一篇論文 ——「Learning to Give Checkable Answers with Prover-Verifier Games」。在這篇論文中，Cem Anil 等人提出了一個名為「Prover-Verifier Games（證明者 - 驗證者賽局）」的賽局理論框架。這個框架由兩個相互競爭的學習者組成：一個可信的驗證者（Verifier）網絡試圖選擇正確的答案，另一個更強大但不可信的證明者（Prover）網絡試圖說服驗證者接受特定的答案，而不管其正確性如何。這個框架的目標是從博弈產生一個可靠的證明協議。

OpenAI 在這項新研究中藉鑒了這個框架，讓兩個大模型（較強的為證明者，較弱的為驗證者）互相博弈，直到二者達到一種平衡。此時，證明者所給的答案既有一定的可讀性，又保持了合理的正確性。

OpenAI 表示，透過提高模型輸出的可讀性，可以使人工智慧的應用更加有效和可信，這對於需要精確溝通的各個領域都是有益的。

OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了值得一提的是，這篇論文來自 OpenAI 的超級對齊團隊，其中幾位作者在今年早些時候已經離開 OpenAI，團隊也已經分崩離析。其中一位作者透露，這是團隊的最後一篇論文。

一個直觀的例子

為了提高模型輸出的可讀性，OpenAI 優化了一些小學數學問題的思維鏈（CoT），讓它能夠被較弱的模型理解。舉例如下：

🎜🎜問題：蕭娜（Shawna）的父親的年齡是蕭娜的五倍。肖娜現在的年齡是阿莉婭（Aliya）的三倍。如果阿莉婭 3 歲，那麼肖娜的父親幾歲？ 🎜

這麼做的目的是為了驗證經過這種訓練的模型，它的輸出是否更直接易懂。

這種方法在只對訓練集做了一些最佳化的情況下，讓模型的效能提升了 50%。同時，模型輸出的答案也更好懂了，這也幫助需要評估這些答案正確性的人類使用者更精確地做出判斷。 OpenAI 認為，進一步縮小可讀性強的模型和能力強的模型之間的效能差距，是未來對齊研究中關鍵的目標。

「證明者」和「驗證者」是怎麼在訓練中博弈的？

為了激勵強力模型（證明者）生成可讀性更強的文本，研究者採用了一種訓練方案，要求強力模型生成的答案能夠被較弱的模型（驗證者）輕鬆驗證。具體來說，他們使用了 GPT-4 系列中的大模型和小模型。它們在預訓練資料量上相差約三個數量級。它們都接受了一些基於人工標註的數學推導訓練，但未經廣泛的後訓練。

首先，研究團隊讓證明者模型嘗試解決一系列數學問題。由於證明者模型本身可能出錯，因此它產生的一些答案可能不正確。接下來，他們將這些答案交由驗證者模型進行檢驗，並在以下兩個階段之間進行多輪的交替驗證：

「驗證者」訓練：研究團隊訓練較弱的“驗證者」模型，驗證「證明者」所給的答案是否正確。
「證明者」訓練：研究團隊指示表現較強的「證明者」模型扮演「有用」或「狡猾」的戲份。
當「證明者」設定為「有用」時，研究團隊將獎勵「驗證者」評分高的正確答案。
當「證明者」設定為「狡猾」時，研究團隊反而獎勵「驗證者」評分高的錯誤答案。

研究團隊發現，最初，狡猾的「證明者」能夠輕鬆產生讓「驗證者」信服的錯誤答案。然而，這些錯誤答案將會進入下一輪的「驗證者」訓練中，相同的漏洞在下一輪中，將不再具有說服力。因此，「證明者」將被迫在每一輪中探索不同的策略。

當狡猾的「證明者」再也無法產生讓「驗證者」信服的錯誤解決方案時，訓練宣告結束。

研究者都發現了什麼？

性能與可讀性權衡：

一個僅在人類編寫的推導上進行監督式的模型，雖然具有較調性差。
當模型的最佳化目標僅為正確性，即只專注於產生正確答案時，雖然能夠達到高準確性，但產生的解決方案的可讀性卻較差。
OpenAI 提出的可檢查博弈方法平衡了這兩者，在保持高可讀性的同時保持適度的準確性。

三種有用的模型：

的魯棒驗證者：即使解決方案具有誤導性，仍能有效解決錯誤。
有用的證明者：產生對人類來說易於理解的解決方案，從而減少人類評估者的錯誤。
狡猾證明者：產生微妙的、錯誤的解決方案，這些解決方案最初會混淆人類評估者，從而突出需要進一步改進的領域。

研究團隊使用了相同的測試問題，來展示狡猾證明者（Sneaky Prover）的生成內容和訓練過程。

問題：肖娜（Shawna）的父親的年齡是肖娜的五倍。肖娜現在的年齡是阿莉婭（Aliya）的三倍。如果阿莉婭 3 歲，那麼肖娜的父親幾歲？

OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了

結論

隨著大語言模型（LLMs）在關鍵領域和復雜應用中的使用日益增加，了解其所生成的內容是否值得信賴變得至關重要。透過要求模型產生清晰且可驗證的理由，可以增強對其生成內容的信任。

此方法的一個顯著優點是它減少了對人類示範或可讀性判斷的依賴。這種自主性對於未來超智慧 AI 系統的對齊尤為重要，其最終目標是在沒有人類進行直接監督的情況下，可靠地將 AI 系統與人類的價值觀和期望對齊。

儘管這項工作僅在一個數據集上進行了實驗，並且仍然需要真值標籤（ground truth labels），但研究團隊仍預計在開發正確、透明及可驗證的AI 系統中，此類別方法會起到關鍵作用，並增強其在現實應用中的可信任性和安全性。

更多詳情，請參考原論文。

^{參考連結：}

^{https://openai.com/index/prover-verifier-games-improve-legibility/https://openai.com/index/prover-verifier-games-improve-legibility/https://openai.com/index/prover}

以上是OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了的詳細內容。更多資訊請關注PHP中文網其他相關文章！