社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

WBOY

發布： 2023-05-04 23:04:09

轉載

1469 人瀏覽過

最近，來自LMSYS Org（UC柏克萊主導）的研究人員又搞了個大新聞－大語言模型版排位賽！

顧名思義，「LLM排位賽」就是讓一群大語言模型隨機進行battle，並根據它們的Elo得分進行排名。

然後，我們就能一眼看出，某個聊天機器人到底是「嘴強王者」還是「最強王者」。

劃重點：團隊也計畫把國內和國外的這些「閉源」模型都搞進來，是騾子是馬溜溜就知道了！（GPT-3.5現在就已經在匿名競技場裡了）

UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

#匿名聊天機器人競技場長下面這樣：

很明顯，模型B回答正確，拿下這局；而模型A連題都沒讀懂…

UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

#專案網址：https://arena.lmsys.org/

在目前的排行榜中，130億參數的Vicuna以1169分穩居第一，同樣130億參數的Koala則排名第二，LAION的Open Assistant則排在第三。

清華提出的ChatGLM，雖然只有60億參數，但依然衝進了前五，只比130億參數的Alpaca落後了23分。

相比之下，Meta原版的LLaMa只排到了第八（倒數第二），而Stability AI的StableLM則獲得了唯一的800 分，排名倒數第一。

團隊表示，之後不僅會定期更新排位賽榜單，還會優化演算法和機制，並根據不同的任務類型提供更加細化的排名。

UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

目前，所有的評估程式碼以及資料分析都已公佈。

拉著LLM打排位

在這次的評估中，團隊選擇了目前比較有名的9個開源聊天機器人。

每次1v1對戰，系統都會隨機拉兩個上場PK。使用者則需要同時和這兩個機器人聊天，然後決定哪個聊天機器人聊的更好。

可以看到，頁面下方有4個選項，左邊（A）比較好，右邊（B）比較好，一樣好，或是都很差。

當使用者提交投票之後，系統就會顯示模型的名稱。這時，使用者可以繼續聊天，或是選擇新的模型重新開啟一輪對戰。

不過，團隊在分析時，只會採用模型是匿名時的投票結果。在差不多一週的數據收集之後，團隊共收穫了4.7k個有效的匿名投票。

UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

在開始之前，團隊先根據基準測試的結果，掌握了各個模型可能的排名。

根據這個排名，團隊會讓模型去優先選擇更合適的對手。

然後，再透過均勻取樣，來獲得對排名的更好整體覆蓋。

在排位賽結束時，團隊又引進了一個新模型fastchat-t5-3b。

以上這些操作最終導致了非均勻的模型頻率。

UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

每個模型組合的對戰次數

從統計數據來看，大多數使用者所使用的都是英語，中文排在第二位。

UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

排名前15的語言的對戰次數

評估LLM，真的很難

自從ChatGPT爆火之後，經過指令跟隨微調的開源大語言模型如雨後春筍一般大量湧現。可以說，幾乎每週都有新的開源LLM在發布。

但問題是，評估這些大語言模型非常困難。

具體來說，目前用來衡量一個模型好不好的東西基本上都是基於一些學術的benchmark，例如在一個某個NLP任務上建立一個測試資料集，然後看測試資料集上準確率多少。

然而，這些學術benchmark（如HELM）在大模型和聊天機器人上就不好用了。原因在於：

1. 由於評判聊天機器人聊得好不好這件事是非常主觀的，因此現有的方法很難對其進行衡量。

2. 這些大模型在訓練的時候就幾乎把整個互聯網的資料都掃了一個遍，因此很難保證測試用的資料集沒有被看到過。甚至更進一步，用測試集直接對模型進行「特訓」，如此一來表現必然更好。

3. 理論上我們可以和聊天機器人聊任何事情，但很多話題或任務在現存的benchmark裡面根本就不存在。

UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

那如果不想採用這些benchmark的話，其實還有一條路可以走──花錢請人給模型評分。

實際上，OpenAI就是這麼搞的。但是這個方法明顯很慢，而且更重要的是，太貴了…

為了解決這個棘手的問題，來自UC伯克利、UCSD、CMU的團隊發明了一種既好玩又實用的全新機制－聊天機器人競技場（Chatbot Arena）。

比較而言，基於對戰的基準系統具有以下優勢：

可擴展性（Scalability）

當不能為所有潛在的模型對收集足夠的資料時，系統應能擴展到盡可能多的模型。

增量性（Incrementality）

#系統應能使用相對較少的試驗次數評估新模型。

唯一順序（Unique order）

#系統應為所有模型提供唯一順序。給定任兩個模型，我們應該能夠判斷哪個排名較高或它們是否並列。

Elo評分系統

Elo等級分制度（Elo rating system）是一種計算玩家相對技能水平的方法，廣泛應用在競技遊戲和各類運動當中。其中，Elo評分越高，那就表示這個玩家越厲害。

例如英雄聯盟、Dota 2以及吃雞等等，系統給玩家進行排名的就是這個機制。

舉個例子，當你在英雄聯盟裡面打了很多場排位賽後，就會出現一個隱藏分數。這個隱藏分數不僅決定了你的段位，也決定了你打排位時碰到的對手基本上也是類似水平的。

而且，這個Elo評分的數值是絕對的。也就是說，當未來加入新的聊天機器人時，我們依然可以直接透過Elo的評分來判斷哪個聊天機器人比較厲害。

具體來說，如果玩家A的評分為Ra，玩家B的評分為Rb，玩家A獲勝機率的精確公式（使用以10為底的logistic曲線）為：

UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

然後，玩家的評分會在每場對戰後線性更新。

假設玩家A（評分為Ra）預計會獲得Ea分，但實際獲得Sa分。更新該玩家評分的公式為：

UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

#1v1勝率

此外，作者也展示了排位賽中每個模型的對戰勝率以及使用Elo評分估算的預測對戰勝率。

結果顯示，Elo評分確實可以相對準確地進行預測

UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

所有非平局A對B戰鬥中模型A勝利的比例

UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

#在A對B戰鬥中，使用Elo評分預測的模型A的勝率

作者介紹

「聊天機器人競技場」由前小羊駝作者機構LMSYS Org發布。

該機構由UC伯克利博士Lianmin Zheng和UCSD準教授Hao Zhang創立，目標是透過共同開發開放的資料集、模型、系統和評估工具，使每個人都能獲得大型模型。

UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5

Lianmin Zheng

Lianmin Zheng是加州大學柏克萊分校EECS系的博士生，他的研究興趣包括機器學習系統、編譯器和分散式系統。

Hao Zhang

Hao Zhang目前是加州大學柏克萊分校的博士後研究員。他將於2023年秋季開始在加州大學聖地牙哥分校Halıcıoğlu資料科學研究所和電腦系擔任助理教授。

以上是UC伯克利發布大語模型排行榜！ Vicuna奪冠，清華ChatGLM進前5的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

ai 模型

來源：51cto.com

上一篇：用量子糾纏當GPS，無訊號地區也能精準定位了下一篇：港科大&MSRA研究：關於圖片到圖片轉換，Finetuning is all you need

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

在多個路由中聲明的workerpool是否仍然可以保持其cpu使用率而不關心閾值我希望找到一個帶有workerpool的node.js系統來處理CPU密集型任務，但是對於多條路由中的cpu使用情況，我有點困惑。一個場景是這樣的：route1.js:constw...

來自於 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查詢計算另一張表中欄位的總和我有一個這樣的模式：具有屬性“user_id”和“username”的用戶表以及具有屬性“customer_id”（user_id的FK）和“finalPrice”的訂單表資料庫架...

來自於 2024-04-06 19:39:29

0

1

441

無法從網站取得輸入元素所以我試圖從Twitter獲取一個輸入元素，但當我運行它時，它不斷在節點終端中給我一個這樣的錯誤，結果，由此代碼創建的瀏覽器窗口將自行關閉，因為它找不到正確的輸入選擇器。如何取得正...

來自於 2024-04-06 18:59:57

0

1

442

在模板中使用方法中定義的變數這是我第一次使用Vue（v2而不是v3），我一直在嘗試在模板內使用變數（在方法內定義）。我的簡化程式碼：<template><divclass="con...

來自於 2024-04-06 18:10:25

0

2

513

使用SCSS產生預設值和CSS變數我正在實現網站樣式。出於遺留支援的原因，我需要支援IE11，至少一段時間。出於工作流程和我的理智原因，我想盡可能使用css變數。我已經研究過這個解決方案，它會產生一些有效的東西，但...

來自於 2024-04-06 17:46:54

0

1

355

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1422795
php入門教程之一週學會PHP

4267872
JAVA 初級入門影片教學

2532102
小甲魚零基礎入門學習Python影片教學

507172
PHP 零基礎入門教學

862274

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板