社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 首屆大模型頂會COLM 高分論文：偏好搜尋演算法PairS，讓大模型進行文字評估更有效率

首屆大模型頂會COLM 高分論文：偏好搜尋演算法PairS，讓大模型進行文字評估更有效率

WBOY

發布： 2024-08-05 14:31:52

原創

885 人瀏覽過

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

文章作者皆為來自劍橋大學語言技術實驗室，一為三年級博士生劉胤，導師為教授Nigel Collier 和Ehsan Shareghi。他的研究興趣是大模型和文本評估，數據生成等。共同一作為二年級博士生週涵，導師為教授 Anna Korhonen 和 Ivan Vulić，他的研究興趣是高效大模型。

大模型展現出了卓越的指令跟隨和任務泛化的能力，這種獨特的能力源自 LLMs 在訓練中使用了指令跟隨數據以及人類反饋強化學習（RLHF）。在 RLHF 訓練範式中，獎勵模型根據排名比較資料與人類偏好對齊。這增強了 LLMs 與人類價值觀的對齊，從而產生更好地幫助人類並遵守人類價值觀的回應。

近日，第一屆大模型頂會COLM 剛剛公佈接收結果，其中一項高分工作分析了LLM 作為文本評估器時難以避免和糾正的分數偏見問題，並提出了將評估問題轉換成偏好排序問題，從而設計了PairS 演算法，一個可以從成對偏好（pairwise preference）中搜尋和排序的演算法。透過利用不確定性和 LLM 傳遞性（transitivity）的假設，PairS 可以給出高效，準確的偏好排序，並在多個測試集上展現出和人類判斷更高的一致性。

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

論文連結: https://arxiv.org/abs/2403.16950
論文標題： Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators
Github 地址: https://github.com/cambridgeltl/PairS

用大模型評估有什麼問題？

最近大量的工作展示了 LLMs 在評估文本質量上的出色表現，形成了一種無需參考的生成任務評估新範式，避免了昂貴的人類標註成本。然而，LLM 評估器（evaluator）對提示（prompt）設計高度敏感，甚至會受到多種偏見的影響，包括位置偏見、冗長偏見和上下文偏見。這些偏見阻礙了 LLM 評估器的公平和可信，導致與人類判斷的不一致和不對齊。

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

為了減少 LLMs 的偏見預測，先前的工作開發了校準技術（calibration）以減少 LLM 預測中的偏見。我們先對校準技術在對齊單點（pointwise） LLM 評估器的有效性進行了系統分析。如上圖 2 所示，即使提供了監督數據，現有的校準方法仍然無法很好的對齊 LLM 評估器。

如公式1 所示，我們認為評估不對齊的主要原因並非LLM 評估分數分佈的先驗具有偏見（biased priors over evaluation score distribution），而是評估標準（evaluation standard）的錯位，即LLM 評估器的似然（likelihood）。我們認為做成對（pairwise）評估時，LLM 評估器會與人類有更一致的評價標準，因此，我們探索了一種新的 LLM 評估範式，以促進更對齊的判斷。

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

RLHF 帶來的啟發

如下圖1 所示，受到RLHF 中透過偏好對獎勵模型進行對齊的資料啟發，我們認為LLM 評估器可以透過產生偏好排序（preference ranking）來得到更和人類對齊的預測。最近已有一些工作開始透過讓 LLM 進行成對比較（pairwise comparison）來得到偏好排序。然而，評估偏好排序的複雜性和可擴展性在很大程度上被忽視了。它們忽略了傳遞性假設（transitivity assumption），使得比較次數的複雜度為 O (N^2)，讓評估過程變得昂貴且可行。

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

PairS：高效偏好搜尋演算法

在本工作中，我們提出了兩種成對偏好搜尋演算法（PairS-greedy 和PairS-beam）。 PairS-greedy 是基於完全的傳遞性假設和合併排序（merge sort）的演算法，只需要透過 O (NlogN) 的複雜度就可以獲得全局的偏好排序。傳遞性假設是指，例如 3 個候選項，LLM 總是有如果 A≻B 以及 B≻C，則 A≻C。在這個假設下我們可以直接用傳統的排序演算法從成對偏好中獲得偏好排序。

但 LLM 並不具有完美的傳遞性，所以我們又設計了 PairS-beam 演算法。在較寬鬆傳遞性假設下，我們推導並化簡了偏好排序的似然函數（likelihood function）。 PairS-beam 在合併排序演算法的每一次的合併操作（merge operation）中按似然值做集束搜索，並通過偏好的不確定性（uncertainty）來減枝成對比較的空間的搜索方法。 PairS-beam 可以調整對比複雜度和排序質量，高效的給出偏好排序的最大似然估計（MLE）。在下圖 3 中我們展示了一個 PairS-beam 如何做合併操作的範例。

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

實驗結果

我們在多個代表性的資料集上進行了測試，包括閉合式產生的縮寫任務NewsRoom 和SummEval，和開放式的故事生成任務HANNA，並對比了多個LLM 單點評估的基線方法，包括無監督的direct scoring, G-Eval, GPTScore 和有監督訓練過的UniEval 以及BARTScore。如下表 1 所示，PairS 在每個任務上和他們相比都有著和人類評分更高的一致性。 GPT-4-turbo 更是能達到 SOTA 的效果。

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

在文章中，我們也比較了兩種偏好排序的基準方法，win rate 和 ELO rating。 PairS 可以只用約 30% 的對比次數就能達到他們同樣品質的偏好排序。論文還提供了更多關於如何使用成對偏好來量化計算 LLM 評估器的傳遞性，以及成對評估器如何在校準中受益的見解。

更多研究細節，可參考原論文。

以上是首屆大模型頂會COLM 高分論文：偏好搜尋演算法PairS，讓大模型進行文字評估更有效率的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

rlhf 工程 COLM

來源：jiqizhixin.com

上一篇：RNN效率媲美Transformer，Google新架構兩連發：同等規模強於Mamba 下一篇：小紅書這場大模型論文分享會，集齊了四大國際頂會的作者

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

傳回值中變數的格式是什麼？我是php的新學習者。我發現有一段程式碼：if($x<time()){return[false,'error'];}邏輯或變數並不重要，但我不明白[false,'error'...

來自於 2024-04-06 21:55:20

0

1

778

頁面突然無法拉動 css 或 bootstrap 所以我正在開發一個頁面，我昨天做了一部分，效果很好，今天我繼續做剩下的部分，一切都很好。當我嘗試將其作為普通html頁面打開時，CSS或BOOTSTRAP不起作用，僅顯示頁面文本，...

來自於 2024-04-06 21:58:04

0

1

800

數獨檢查器無法運作？誰能幫我辨識錯誤？我嘗試了在線編輯器上的所有方法，但仍然收到錯誤。但當我在我的機器上的VSCode上執行此操作時，它工作正常。我很困惑，在沒有發現錯誤的情況下無法提交程式碼。我不知道該去哪裡找了。我...

來自於 2024-04-06 21:21:07

0

1

474

動態修改Javafx中的內嵌CSS樣式我試圖在應用程式最大化時更改窗格的背景圖像。我的背景是使用內嵌css設定的。我為樣式設定了兩個不同的變數和一個if語句。但是，我沒有運氣讓它改變樣式。 StringcssStyle...

來自於 2024-04-06 20:57:16

0

1

487

在網路應用程式中顯示版本資訊的最佳實踐是什麼？我正在開發一個網頁應用程式。在網路應用程式中顯示版本資訊的最佳實踐是什麼？我正在使用語義版本控制，並且我已經有了semver，例如1.2.0但我很好奇在哪裡顯示它的最佳方式以及如何...

來自於 2024-04-06 19:13:16

0

2

476

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1422728
php入門教程之一週學會PHP

4267732
JAVA 初級入門影片教學

2531514
小甲魚零基礎入門學習Python影片教學

507128
PHP 零基礎入門教學

862223

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板