社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 新測試基準發布，最強開源Llama 3尷尬了

新測試基準發布，最強開源Llama 3尷尬了

PHPz

發布： 2024-04-23 12:13:10

轉載

593 人瀏覽過

如果試題太簡單，學霸和學渣都能考90分，拉不開差距…

隨著Claude 3、Llama 3甚至之後GPT-5等更強模型發布，業界急需一款更難、更有區分度的基準測試。

大模型競技場背後組織LMSYS推出下一代基準測試Arena-Hard，引起廣泛關注。

Llama 3的兩個指令微調版本實力到底如何，也有了最新參考。

新测试基准发布，最强开源Llama 3尴尬了

與之前大家分數都相近的MT Bench相比，Arena-Hard區分度從22.6%提升到87.4%，孰強孰弱一目了然。

Arena-Hard利用競技場即時人類數據構建，與人類偏好一致率也高達89.1%。

除了上面兩個指標都達到SOTA之外，還有一個額外的好處：

即時更新的測試資料包含人類新想出的、AI在訓練階段從未見過的提示詞，減輕潛在的資料外洩。

發布新模型後，無需再等待一周左右讓人類用戶參與投票，只需花費25美元快速運行測試管線，即可獲得結果。

有網友評價，使用真實使用者提示詞而不是高中考試來測試，真的很重要。

新测试基准发布，最强开源Llama 3尴尬了

新基準測試如何運作？

簡單來說，透過大模型競技場20萬個使用者查詢中，挑選500個高品質提示詞作為測試集。

首先，挑選過程中確保多樣性，也就是測試集應涵蓋廣泛的現實世界主題。

為了確保這一點，團隊採用BERTopic中主題建模管道，首先使用OpenAI的嵌入模型（text-embedding-3-small）轉換每個提示，使用UMAP 降低維度，並使用基於層次結構的模型聚類演算法 (HDBSCAN) 來辨識聚類，最後使用GPT-4-turbo進行總結。

新测试基准发布，最强开源Llama 3尴尬了

同時確保入選的提示詞具有高品質，有七個關鍵指標來衡量：

領域知識：提示詞是否涵蓋一個或多個特定領域？
複雜度：提示詞是否有多層推理、組成部分或變數？
解決問題：提示詞是否直接讓AI展現主動解決問題的能力？
創造力：提示詞是否涉及解決問題的某種程度的創造力？
技術準確度：提示詞是否要求反應具有技術準確度？
實際應用：提示詞是否與實際應用相關？

新测试基准发布，最强开源Llama 3尴尬了

使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進行從 0 到 7 的註釋，判斷滿足多少條件。然後根據提示的平均分數給每個聚類評分。

高品質的問題通常與有挑戰性的主題或任務相關，例如遊戲開發或數學證明。

新测试基准发布，最强开源Llama 3尴尬了

新基準測試準嗎？

Arena-Hard目前還有一個弱點：使用GPT-4做裁判更偏好自己的產出。官方也給了相應提示。

可以看出，最新兩個版本的GPT-4分數高過Claude 3 Opus一大截，但在人類投票分數中差距並沒有那麼明顯。

新测试基准发布，最强开源Llama 3尴尬了

其實關於這一點，最近已經有研究論證，前沿模型都會偏好自己的產出。

新测试基准发布，最强开源Llama 3尴尬了

研究團隊也發現，AI天生就可以判斷出一段文字是不是自己寫的，經過微調後自我識別的能力還能增強，並且自我識別能力與自我偏好線性相關。

新测试基准发布，最强开源Llama 3尴尬了

那麼使用Claude 3來評分會使結果產生什麼變化？ LMSYS也做了相關實驗。

首先，Claude系列的分數確實會提高。

新测试基准发布，最强开源Llama 3尴尬了

但令人驚訝的是，它更喜歡幾個開放模型如Mixtral和零一萬物Yi，甚至對GPT-3.5的評分都有明顯提高。

整體而言，使用Claude 3打分的區分度和與人類結果的一致性都不如GPT-4。

新测试基准发布，最强开源Llama 3尴尬了

所以也有很多網友建議，使用多個大模型來綜合評分。

新测试基准发布，最强开源Llama 3尴尬了

除此之外，團隊也做了更多消融實驗來驗證新基準測試的有效性。

例如在提示詞中加入“讓答案盡可能詳盡”，平均輸出長度更高，分數確實會提高。

但把提示詞換成“喜歡閒聊”，平均輸出長度也有提高，但分數提升就不明顯。

新测试基准发布，最强开源Llama 3尴尬了

此外在實驗過程中還有很多有趣的發現。

例如GPT-4來評分非常嚴格，如果回答中有錯誤會狠狠扣分；而Claude 3即使辨識出小錯誤也會寬大處理。

對於程式碼問題，Claude 3傾向於提供簡單結構、不依賴外部程式碼庫，能幫助人類學習程式設計的答案；而GPT-4-Turbo更傾向最實用的答案，不管其教育價值如何。

另外即使設定溫度為0，GPT-4-Turbo也可能產生略有不同的判斷。

從層次結構視覺化的前64個聚類中也可以看出，大模型競技場使用者的提問品質和多樣性確實是高。

新测试基准发布，最强开源Llama 3尴尬了

這裡面也許就有你的貢獻。

Arena-Hard GitHub：https://github.com/lm-sys/arena-hard
Arena-Hard HuggingFace：https://huggingface.co/spaces/lmsys/arena-hard- browser
大模型競技場：https://arena.lmsys.org

參考連結：

[1]https://x.com/lmsysorg/status/1782179997622649330
[2]https://lmsys.org/blog/2024-04-19-arena-hard/

#

以上是新測試基準發布，最強開源Llama 3尷尬了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

git gpt-5 大模型 llama 3

來源：51cto.com

上一篇：探針Python神器：eli5模組如何解讀機器學習模型的預測結果？下一篇：牛津大學最新！ Mickey：3D中的2D影像匹配SOTA！ (CVPR\'24)

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

編碼的關鍵：為初學者釋放 C 的力量

2024-10-13 11:44:01
使用 PHP 和 MySQL 將您的網站連接到資料庫

2024-10-13 09:56:31
使用 Python 解決問題：作為初學者，解鎖強大的解決方案

2024-10-11 20:58:41
Python 的力量，簡單：一種適合初學者的程式設計方法

2024-10-11 16:53:11
PHP 與社群媒體：將您的網站與世界融為一體

2024-10-11 11:54:51
使用 PHP 的動態圖像畫廊：在線展示您的作品

2024-10-10 16:21:01
使用 PHP 建立 API 和 Web 服務

2024-10-10 15:18:02
揭秘 Java：為新程式設計師提供一條清晰、簡單的道路

2024-10-10 13:34:01
使用 C 創建遊戲和圖形：有趣且實用的介紹

2024-10-10 13:26:26
王者榮耀程咬金怎麼玩？

2024-10-10 11:38:42

最新問題

PHPMailer 使用 gmail 和 XOAUTH2：目前刷新令牌過期時如何自動取得新的刷新令牌？我關注使用Gmail與XOAUTH2(PHPMailerWiki)和如何使用PHPMailer與GmailXOAUTH2發送電子郵件？（Chandanforw3jar.com；2...

來自於 2024-04-06 10:14:45

0

1

373

將 DIV 與兩側的內容置中對齊所以我有5個項目（在包含DIV內）。專案陣容如下：文字圖像DIV圖像文字我希望它顯示為DIV位於中央，圖像「擁抱」DIV，然後文字「擁抱」圖像，因此剩下的任何空間都將位於包含DIV...

來自於 2024-04-04 23:19:14

0

1

3438

Symfony 5 中的自訂預設條款和條件複選框我是symfony的新手，我正在嘗試建立我的註冊頁面。透過我的FormType產生表單和字段，但我有點想更改條款和條件複選框的外觀。預設情況下，它是標籤然後是盒子，我想顛倒它們並將...

來自於 2024-04-04 22:42:19

0

1

1365

如果值存在，則取得記錄總和，將其視為 1，而不是精確值我需要“打開”為2並單擊為1但現在我越來越喜歡打開為5並單擊為2"SELECTCOALESCE(sum(requested),0)asrequested,COALESCE...

來自於 2024-04-04 16:49:24

0

1

338

如何使用 Fetch javascript API 和 php 正確警告資料庫記錄我正在嘗試使用JavasriptfetchAPI從資料庫中獲取警報ID和名稱記錄。我的問題是，由於警報為空，因此沒有任何警報。我認為這行程式碼有問題response.json()....

來自於 2024-04-03 23:38:11

0

2

383

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1423616
php入門教程之一週學會PHP

4269296
JAVA 初級入門影片教學

2540231
小甲魚零基礎入門學習Python影片教學

507746
PHP 零基礎入門教學

863087

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板