只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

王林

Aug 05, 2024 pm 04:10 PM

產業 DITTO

人類的教育方式，對大模型而言也很適用。

養育孩子時，古往今來人們都會談到一種重要方法：以身作則。也就是讓自己成為孩子模仿學習的範例，而不是單純地告訴他們該怎麼做。在訓練大語言模型（LLM）時，我們或許也能採用這樣的方法 —— 向模型示範。

近日，史丹佛大學楊笛一團隊提出了一種新框架 DITTO，可透過少量演示（使用者提供的期望行為範例）將 LLM 與特定設定對齊。這些範例可以從使用者現有的互動日誌中獲取，也能透過直接編輯 LLM 的輸出得到。這樣就可以讓模型針對不同的使用者和任務有效率地理解並對齊使用者偏好。

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

論文標題：Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

DITTO 可基於少量簡報（少於10）自動建立一個包含大量偏好比較資料的資料集（這個過程被稱為scaffold），其具體做法是預設這一點：相比於原始LLM 及早期迭代版本的輸出，使用者更偏好演示。然後，將示範與模型輸出組成資料對，得到增強資料集。之後便可以使用 DPO 等對齊演算法來更新語言模型。

此外，該團隊還發現，DITTO 可被視為一種在線模仿學習演算法，其中從 LLM 採樣的數據會被用於區分專家行為。從這一角度出發，團隊證明 DITTO 可透過外推實現超越專家的表現。

團隊也透過實驗驗證了 DITTO 的效果。

DITTO 框架

為了對齊LLM，此前需要使用的各類方法往往需要使用成千上萬對比較數據，而DITTO 僅需使用少量演示就能修改模型的行為。這種低成本的快速適應之所以能實現，主要得益於該團隊的核心見解：可透過簡報輕鬆取得線上比較數據。

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

符號與背景

語言模型可以視為一個策略(y|y|x) ，這會得到prompt x 和完成結果y 的一個分佈。 RLHF 的目標是訓練 LLM 以最大化一個獎勵函數 r (x, y)，其評估的是 prompt - 完成結果對 (x, y) 的品質。通常來說，也會增加一個 KL 散度，以防止更新後的模型偏離基礎語言模型（π_ref）太遠。整體而言，RLHF 方法最佳化的目標為：

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

這是最大化在 prompt 分佈 p 上的預期獎勵，而 p 則受 α 調節的 KL 限制的影響。通常而言，優化這一目標使用的是形式為{(x, y^w, y^l )} 的比較資料集，其中「獲勝」的完成結果y^w 優於「失敗」的完成結果y ^l，記為y^w ⪰ y^l。

另外，這裡把小型專家示範資料集記為 D_E，並假設這些示範是由專家策略 π_E 產生的，其能最大化預測獎勵。 DITTO 能直接使用語言模型輸出和專家演示來產生比較數據。也就是說，不同於合成資料的生成範式，DITTO 無需在給定任務上已經表現良好的模型。

關鍵思路

DITTO 的關鍵見解在於語言模型本身，再加上專家示範，可以得到用於對齊的比較資料集，這樣就無需收集大量成對的偏好資料了。這會得到一個類似對比的目標，其中專家演示是正例。

產生比較。假定我們從專家策略取樣了一個完成結果 y^E ∼ π_E (・|x) 。那麼可以認為，從其它策略 π 採樣的樣本對應的獎勵都低於或等於從 π_E 採樣的樣本的獎勵。基於這個觀察，團隊建構了比較數據 (x, y^E, y^π )，其中 y^E ⪰ y^π。儘管這樣的比較數據源自於策略而非各個樣本，但先前已有研究證明了這種方法的有效性。對 DITTO 來說，一個很自然的做法就是使用這個資料集以及一個現成可用的 RLHF 演算法來最佳化 (1) 式。這樣做能在提升專家回應的機率同時降低目前模型樣本的機率，這不同於標準微調方法 —— 只會做前者。關鍵在於，透過使用來自 π 的樣本，可使用少量演示來建立無邊界的偏好資料集。但是，團隊發現，透過考慮學習過程的時間面，還能做到更好。

從比較到排名。僅使用來自專家和單一策略 π 的比較數據，可能不足以獲得優良性能。這樣做只會降低特定 π 的可能性，導致過擬合問題 —— 這也困擾著少數據情況下的 SFT。團隊提出也可以考慮 RLHF 期間隨時間而學習到的所有策略所產生的數據，這類似於強化學習中的 replay（重播）。

設第一輪迭代時的初始策略為 π_0。透過採樣該策略可得到一個資料集 D_0。然後可以基於此產生一個用於 RLHF 的比較資料集，可記為 D_E ⪰ D_0。使用這些導出的比較數據，可以對 π_0 進行更新而得到 π_1。根據定義，只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

也成立。之後，繼續使用 π_1 產生比較數據，並且 D_E ⪰ D_1。繼續這個過程，不斷使用之前的所有策略來產生越來越多樣化的比較數據。該團隊將這些比較數據稱為「重播比較數據（replay comparisons）」。

儘管這種方法理論上說得通，但如果 D_E 較小，卻可能出現過擬合。但是，如果假設每一輪迭代後策略都會獲得提升，則也可在訓練期間考慮策略之間的比較。有別於與專家的比較，我們並不能保證每一輪迭代之後策略都更好，但該團隊發現模型每次迭代後總體依然是提升的，這可能是因為獎勵建模和(1) 式都是凸的。這樣便可以依照以下的排名來取樣比較數據：

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

透過加入這些「模型間」和「重播」比較數據，得到的效果是早期樣本（例如D_1 中的樣本）的似然會比後期的（如D_t 中的）壓得更低，從而使隱含的獎勵圖景變得平滑。在實務實作中，該團隊的做法是除了使用與專家的比較數據，也聚合了一些這些模型間比較數據。

一個實踐演算法。在實踐中，DITTO 演算法是一個迭代過程，其由三個簡單的組件構成，如演算法 1 所示。

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

首先，在專家演示集上執行監督式微調，執行數量有限的梯度步驟。將此設為初始策略π_0. 第二步，採樣比較資料：在訓練過程中，對於D_E 中的N 個演示中的每一個，透過從π_t 採樣M 個完成結果而建立一個新的資料集D_t，然後根據策略(2) 式將它們加到排名中。當從(2) 式取樣比較資料時，每一批B 都由70% 的「線上」比較資料D_E ⪰ D_t、20% 的「重播」比較資料D_E ⪰ D_{i

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

其中σ 是來自Bradley-Terry 偏好模型的logistic 函數。在每次更新期間，來自 SFT 策略的參考模型都不會更新，以避免偏離初始化太遠。

將DITTO 推導成線上模仿學習

DITTO 可透過線上模仿學習角度推導出組合專家演示和線上數據來同時學習獎勵函數和策略。具體來說，策略玩家會最大化預期獎勵? (π, r)，而獎勵玩家則會最小化在線上資料集D^π 上的損失min_r L (D^π , r) 更具體而言，該團隊的做法是使用(1) 式中的策略目標和標準的獎勵建模損失來實例化該最佳化問題：

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

推導DITTO，簡化(3) 式的第一步是解決其內部策略最大化問題。幸運的是，團隊基於先前的研究發現策略目標 ?_KL 有一個閉式解，其形式為，其中 Z (x) 用於歸一化分佈的配分函數。值得注意的是，這會在策略和獎勵函數之間建立雙射關係，這可以用於消除內部最佳化。透過重新排列這個解，可將獎勵函數寫成：只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

此外，先前有研究顯示這種重新參數化可以表示任意獎勵函數。於是，透過代入到 (3) 式，可以將變數 r 變成 π，從而得到 DITTO 目標：只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

請注意，類似於 DPO，這裡是隱式地估計獎勵函數。而不同於 DPO 的地方是 DITTO 依賴一個在線的偏好資料集 D^π。

為什麼 DITTO 比只使用 SFT 好？

DITTO 表現較好的一個原因是：透過產生比較數據，其使用的數據量遠多於 SFT。另一個原因是在某些情況下，線上模仿學習方法的表現會超過演示者，而 SFT 只能模仿演示。

實驗結果

團隊也進行了實證研究，證明了 DITTO 的有效性。實驗的具體設定請參閱原論文，我們這裡僅關注實驗結果。

基於靜態基準的研究結果

靜態基準的評估使用了GPT-4，結果見表1 。

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

平均而言，DITTO 勝過其它所有方法：在 CMCC 上平均勝率為 71.67%，在 CCAT50 上平均勝率為 82.50%；總體平均勝率為 77.09%。在 CCAT50 上，對於所有作者，DITTO 僅在其中一個上沒有全面優勝。在 CMCC 上，對於所有作者，DITTO 全面勝過其中一半基準，之後是 few-shot prompting 贏得 3 成。儘管 SFT 的表現很不錯，但 DITTO 相較於其的平均勝率提升了 11.7%。

使用者研究：測試泛化到自然任務的能力

整體而言，使用者研究的結果與在靜態基準上的結果一致。 DITTO 在對齊演示的偏好方面優於對比方法，如表2 所示：其中DITTO (72.1% 勝率) > SFT (60.1%) > few-shot (48.1%) > self-prompt (44.2%) > zero- shot (25.0%)。

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

DITTO 什麼時候有用？

在使用 DITTO 之前，使用者必須考慮一些前提條件，從他們有多少演示到必須從語言模型中取樣多少負例。該團隊探索了這些決定的影響，並重點關注了 CMCC，因為其覆蓋的任務超過 CCAT。此外，他們還分析了演示與成對回饋的樣本效率。

演算法擾動

團隊對 DITTO 的組件進行了消融研究。

如圖 2（左）所示，增加 DITTO 的迭代次數通常可以提升效能。

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

可以看到，當迭代次數從 1 次提升到 4 次，GPT-4 評估的勝率會有 31.5% 的提升。這樣的提升是非單調的 —— 在第 2 次迭代時，表現稍有降低（-3.4%）。這是因為早期的迭代可能會得到雜訊更大的樣本，從而降低效能。另一方面，如圖 2（中）所示，增加負例數量會使 DITTO 效能單調提升。此外，隨著採樣的負例增多，DITTO 效能的變異數會下降。

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

另外，如表 3 所示，對 DITTO 的消融研究發現，去除其任何組件都會導致表現下降。

例如如果放棄線上方式的迭代式取樣，相較於使用 DITTO，勝率會從 70.1% 降至 57.3%。而如果在線上過程中持續更新 π_ref，則會導致效能大幅下降：從 70.1% 降至 45.8%。該團隊猜想原因是：更新 π_ref 可能會導致過擬合。最後，我們也能從表 3 中看到重播和策略間比較資料的重要性。

樣本效率

DITTO 的一大關鍵優勢是其樣本效率。團隊對此進行了評估，結果見圖 2（右）；同樣，這裡報告的是歸一化後的勝率。

首先可以看到，DITTO 的勝率一開始會快速提升。在展示數量從 1 變成 3 時，每次增加都會讓歸一化效能大幅提升（0% → 5% → 11.9%）。

但是，當演示數量進一步增加時，收益增幅降低了（從4 增至7 時為11.9% → 15.39%），這說明隨著演示數量增加，DITTO 的性能會飽和。

另外，團隊猜想，不只展示數量會影響 DITTO 的效能，示範品質也會，但這還留待未來研究。

成對偏好與簡報相比如何？

DITTO 的一個核心假設是樣本效率源自於示範。理論上講，如果使用者心中有一套完美的演示集合，透過標註許多成對的偏好資料也能達到類似的效果。

團隊做了一個近似實驗，使用從指令遵從 Mistral 7B 採樣的輸出，讓一位提供了用戶研究的演示的作者也標註了 500 對偏好數據。

總之，他們建構了一個成對的偏好資料集 D_pref = {(x, y^i , y^j )}，其中 y^i ≻ y^j。然後他們計算了採樣自兩個模型的20 對結果的勝率情況—— 其一是使用DITTO 在4 個演示上訓練的，其二是僅使用DPO 在{0...500} 偏好數據對訓練的。

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

當僅從π_ref 採樣成對偏好數據時，可以觀察到產生的數據對位於演示的分佈外—— 成對的偏好不涉及用戶演示的行為（圖3 中Base policy 的結果，藍色）。即使當他們使用使用者演示對 π_ref 進行微調時，仍然需要超過 500 對偏好數據才能比肩 DITTO 的性能（圖 3 中 Demo-finetuned policy 的結果，橙色）。

以上是只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

PHP教程

1596

276

Related knowledge

DeepMind機器人打乒乓球，正手、反手溜到飛起，全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺？巴黎奧運正在如火如荼地進行中，乒乓球項目備受關注。同時，機器人打乒乓球也取得了新突破。剛剛，DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址：https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢？大概和人類業餘選手不相上下：正手反手都會：對手採用多種打法，機器人也能招架得住：接不同旋轉的發球：不過，比賽激烈程度似乎不如公園老大爺對戰。對機器人來說，乒乓球運動

首配機械爪！元蘿蔔亮相2024世界機器人大會，發布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相，並最新發布元蘿蔔AI下棋機器人－國際象棋專業版（以下簡稱「元蘿蔔國象機器人」），成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品，全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新，首次在家用機器人上實現了透過機械爪拾取立體棋子，並進行人機對弈、人人對弈、記譜複盤等功能，

Claude也變懶了！網友：學會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學將至，該收心的不只即將開啟新學期的同學，可能還有AI大模型。前段時間，Reddit擠滿了吐槽Claude越來越懶的網友。「它的水平下降了很多，經常停頓，甚至輸出也變得很短。在發布的第一周，它可以一次性翻譯整整4頁文稿，現在連半頁都輸出不了！」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”，滿滿地

李飛飛團隊提出ReKep，讓機器人具備空間智能，還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時，加上最近老上頭條的1X人形機器人NEO，你可能會產生一種感覺：我們似乎開始進入機器人時代了。事實上，這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道，有用的機器人往往需要與環境進行複雜精妙的交互，而環境則可被表示成空間域和時間域上的限制。舉個例子，如果要讓機器人倒茶，那麼機器人首先需要抓住茶壺手柄並使之保持直立，不潑灑出茶水，然後平穩移動，一直到讓壺口與杯口對齊，之後以一定角度傾斜茶壺。這

分散式人工智慧盛會DAI 2024徵稿：Agent Day，強化學習之父Richard Sutton將出席！顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 Aug 22, 2024 pm 08:02 PM

會議簡介隨著科技的快速發展，人工智慧成為了推動社會進步的重要力量。在這個時代，我們有幸見證並參與分散式人工智慧（DistributedArtificialIntelligence，DAI）的創新與應用。分散式人工智慧是人工智慧領域的重要分支，這幾年引起了越來越多的關注。基於大型語言模型（LLM）的智能體（Agent）異軍突起，透過結合大模型的強大語言理解和生成能力，展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型，成為目前AI圈的熱門話題。 Au

鴻蒙智行享界S9全場景新品發表會，多款重磅新品齊發 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

ACL 2024獎項發表：華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會，投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議，由國際計算語言學協會組織，每年舉辦一次。一直以來，ACL在NLP領域的學術影響力都名列第一，它也是CCF-A類推薦會議。今年的ACL大會已是第62屆，接收了400餘篇NLP領域的前沿工作。昨天下午，大會公佈了最佳論文等獎項。此次，最佳論文獎7篇（兩篇未公開）、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎（ResourceAward）3篇、社會影響力獎（

世界機器人大會上，這家承載「未來養老希望」的國產機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上，人形機器人的展示成為了現場絕對的焦點，在星塵智能的展台上，由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲，能文能武，吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏，讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道，公司創始人來傑解釋到，絲滑動作的背後，是硬體側追求最好力控和最仿人身體指標（速度、負載等），而是在AI側則採集人的真實動作數據，讓機器人遇強則強，快速學習進化。而敏捷

See all articles

只需幾個演示就能對齊大模型，楊笛一團隊提出的DITTO竟然如此高效

熱AI工具

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題