社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

WBOY

發布： 2023-11-09 11:13:08

轉載

971 人瀏覽過

別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

「別讓大模型被基準評估給坑了」。

這是一項最新研究的題目，來自人民大學資訊學院、高瓴人工智慧學院和伊利諾大學厄巴納-香檳分校。

別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

研究發現，基準測試中相關資料意外被用於模型訓練的現象，變得越來越常見了。

因為預訓練語料包含許多公開文本資料，而評估基準也建立在這些資訊之上，本來這種情況就在所難免。

現在隨著大模型試圖蒐集更多公開數據，問題正在加重。

要知道，這種數據重疊帶來的危害非常大。

不僅會導致模型部分測驗分數虛高，還會使模型泛化能力下降、不相關任務表現驟降。甚至可能讓大模型在實際應用上產生「危害」。

別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

所以這項研究正式發出警告，並透過多項模擬測試驗證了可能誘發的實際危害，具體來看。

大模型「被漏題」很危險

研究主要透過模擬極端洩漏資料的情況，來測試觀察大模型會產生的影響。

極端洩漏資料的方式有四種：

使用MMLU的訓練集
使用MMLU以外所有測試基準的訓練集
使用所有訓練集測試prompt
使用所有訓練集、測試集和測試prompt（這是最極端情況，僅為實驗模擬，正常情況下不會發生）

然後研究人員給4個大模型進行“投毒”，然後再觀察它們在不同benchmark中的表現，主要評估了在問答、推理、閱讀理解等任務中的表現。

所使用的模型分別是：

GPT-Neo（1.3B）
phi-1.5（1.3B）
OpenLLaMA（3B ）
LLaMA-2（7B）

同時使用LLaMA（13B/30B/65B）作為對照組。

結果發現，當大模型的預訓練數據中包含了某一個評測基準的數據，它會在這一評測基準中表現更好，但在其他不相關任務中的表現會下降。

例如使用MMLU資料集訓練後，多個大模型在MMLU測試中分數提高的同時，在常識基準HSwag、數學基準GSM8K中分數下降。

這表示大模型的泛化能力受到影響。

別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

另一方面，也可能造成不相關測驗分數虛高。

如上給大模型進行「投毒」的四個訓練集中僅包含少量中文數據，但是大模型被「投毒」後，在C3（中文基準測試）中的分數卻都變高了。

這種升高是不合理的。

別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

這種訓練資料外洩的情況，甚至會導致模型測試分數，異常超越更大模型的表現。

例如phi-1.5（1.3B）在RACE-M和RACE-H上的表現優於LLaMA65B，後者是前者規模的50倍。

但這種分數上升沒有意義，只是作弊罷了。

別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

更嚴重的是，即使是沒有外洩資料的任務，也會受到影響，表現下降。

下表中可以看到，在程式碼任務HEval中，兩個大模型都出現了分數大幅下降的情況。

別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

同時被洩漏資料後，大模型的微調提升遠不如未洩露情況。

別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

對於資料重疊/外洩的情況，本項研究分析了各種可能。

例如大模型預訓練語料和基準測試資料都會選用公開文本（網頁、論文等），所以發生重疊在所難免。

而且目前大模型評估都是在本地進行，或是透過API呼叫來獲得結果。這種方式無法嚴格檢查一些不正常的數值提升。

以及當下大模型的預訓練語料都被各方視為核心機密，外界無法評估。

所以導致了大模型被意外「投毒」的情況發生。

那該如何規避這一問題呢？研究團隊也出了一些建議。

如何規避？

研究團隊給了三點建議：

第一，實際情況中很難完全避免資料重疊，所以大模型應該採用多個基準測試進行更全面的評估。

第二，對於大模型開發者，應該要對資料進行脫敏，公開訓練語料的詳細構成。

第三，對於基準測試維護人員，應該提供基準測試資料來源，分析資料被污染的風險，使用更多樣化的提示進行多次評估。

不過團隊也表示本次研究中仍有一定限制。例如沒有對不同程度資料外洩進行系統性測試，以及沒能在預訓練中直接引入資料外洩進行模擬等。

本研究由中國人民大學資訊學院、高瓴人工智慧學院和伊利諾大學香檳分校的多位學者共同帶來。

在研究團隊中我們發現了兩位資料探勘領域大佬：文繼榮和韓家煒。

文繼榮教授現任中國人民大學高瓴人工智慧學院院長、中國人民大學資訊學院院長。主要研究方向為資訊檢索、資料探勘、機器學習、大規模神經網路模型的訓練與應用。

韓家煒教授領銜是資料探勘領域專家，現為伊利諾大學香檳分校電腦系教授，美國電腦協會院士與IEEE院士。

論文網址：https://arxiv.org/abs/2311.01964。

以上是別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

人工智慧大模型

來源：51cto.com

上一篇：盲訂突破10000+！魅族AR眼鏡再度預熱，主打雙模真無線下一篇：來聊聊近期火爆的幾個大模型和自動駕駛概念

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

數獨檢查器無法運作？誰能幫我辨識錯誤？我嘗試了在線編輯器上的所有方法，但仍然收到錯誤。但當我在我的機器上的VSCode上執行此操作時，它工作正常。我很困惑，在沒有發現錯誤的情況下無法提交程式碼。我不知道該去哪裡找了。我...

來自於 2024-04-06 21:21:07

0

1

474

放大 d3.js 時散佈圖點不會保持值這是我第一次使用d3.js，所以請耐心等待。我在vue.js檔案中將其作為純JavaScript實作。我正在嘗試製作具有縮放功能的散點圖。到目前為止，我幾乎一切正常，但當我縮放時，...

來自於 2024-04-06 18:16:26

0

1

403

使用SCSS產生預設值和CSS變數我正在實現網站樣式。出於遺留支援的原因，我需要支援IE11，至少一段時間。出於工作流程和我的理智原因，我想盡可能使用css變數。我已經研究過這個解決方案，它會產生一些有效的東西，但...

來自於 2024-04-06 17:46:54

0

1

355

了解 Nuxtjs auth 模組的內部工作原理我實際上試圖將Nuxtjsauth模組整合到我的專案中，但我無法理解auth模組的實際工作原理。如果有人幫助我理解這個概念，那將對我非常有幫助。謝謝！

來自於 2024-04-06 15:38:16

0

1

371

Node.js：無法將 SQL 查詢結果儲存在陣列中我正在嘗試將SQL查詢的結果推送到數組。但是，它似乎不起作用。我在網上找不到解決方案。如果有人能幫我解決這個問題，我將不勝感激。 letdata=[];connection.que...

來自於 2024-04-06 14:14:46

0

1

373

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1422775
php入門教程之一週學會PHP

4267841
JAVA 初級入門影片教學

2532005
小甲魚零基礎入門學習Python影片教學

507167
PHP 零基礎入門教學

862267

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板