社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > UC柏克萊LLM準中文排行榜來了！ GPT-4穩居第一，國人開源RNN模型衝進前六

UC柏克萊LLM準中文排行榜來了！ GPT-4穩居第一，國人開源RNN模型衝進前六

WBOY

發布： 2023-05-16 22:43:20

轉載

894 人瀏覽過

前段時間，來自LMSYS Org（UC伯克利主導）的研究人員搞了個大新聞－大語言模型版排位賽！

這次，團隊不僅帶來了4位新玩家，還有一個（準）中文排行榜。

OpenAI GPT-4
OpenAI GPT-3.5-turbo
Anthropic Claude-v1
#RWKV-4-Raven- 14B（開源）

毫無疑問，只要GPT-4參戰，必定是穩居第一。

不過，出乎意料的是，Claude不僅超過了把OpenAI帶上神壇的GPT-3.5位列第二，而且只比GPT-4差了50分。

相較之下，排名第三的GPT-3.5只比130億參數的最強開源模型Vicuna高了72分。

而140億參數的「純RNN模型」RWKV-4-Raven-14B憑藉著卓越的表現，超越一眾Transformer模型排到了第6——除Vicuna模型外，RWKV在與所有其他開源模型的非平局比賽中贏得了超過50%的比賽。

UC柏克萊LLM準中文排行榜來了！ GPT-4穩居第一，國人開源RNN模型衝進前六

此外，團隊也分別製作了「僅英文」和「非英文」（其中大部分是中文）這兩個單獨的排行榜。

可以看到，不少模型的排位都出現了明顯的變化。

例如，用更多中文資料訓練的ChatGLM-6B確實表現較好，而GPT-3.5也成功超越Claude排到了第二的位置。

UC柏克萊LLM準中文排行榜來了！ GPT-4穩居第一，國人開源RNN模型衝進前六

本次更新的主要貢獻者是盛穎、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。

盛穎是LMSYS Org的3位創辦人之一（另外兩位是Lianmin Zheng和Hao Zhang），史丹佛大學電腦科學系的博士生。

她也是之前爆火的、可以在單GPU上可以跑175B模型推理的系統FlexGen的一作，目前已獲8k星。

UC柏克萊LLM準中文排行榜來了！ GPT-4穩居第一，國人開源RNN模型衝進前六

#論文網址：https://arxiv.org/abs/2303.06865

專案網址：https://github.com/FMInference/FlexGen

#個人首頁：https://sites.google.com /view/yingsheng/home

「開源」VS「閉源」

在社群的幫助下，團隊共收集了13k個匿名投票，並且有了一些有趣的發現。

專有與開源的差距

在三個專有模型中，Anthropic的Claude模型比GPT-3.5-turbo更受用戶歡迎。

而且，Claude在與最強大的GPT-4競爭時，也表現得非常有競爭力。

從下面這個勝率圖來看，GPT-4和Claude之間的66場非平手比賽中，Claude贏得了32場（48%）比賽。

UC柏克萊LLM準中文排行榜來了！ GPT-4穩居第一，國人開源RNN模型衝進前六

在所有非平手A vs B對戰中，模型A勝利的比例

然而，其他開源模型與這三個專有模型之間，依然存在著很大的差距。

特别是，GPT-4以1274的Elo分数领跑排行榜。这比榜单上最好的开源替代——Vicuna-13B——要高出近200分。

在去掉平局后，GPT-4在与Vicuna-13B对战时赢得了82%的比赛，甚至在与前一代GPT-3.5-turbo对战时赢得了79%的比赛。

然而，值得注意的是，排行榜上的这些开源模型通常具有比专有模型更少的参数，范围在30亿 - 140亿之间。

实际上，最近在LLM和数据策划方面的进展使得使用较小模型取得显著性能改进成为可能。

谷歌的最新PaLM 2就是一个很好的例子：我们知道PaLM 2在使用较小模型大小时，比其前一代实现了更好的性能。

因此，团队对开源语言模型迎头赶上充满乐观。

GPT-4在何时会「翻车」？

在下图中，用户提出了一个需要仔细推理和规划的棘手问题。虽然Claude和GPT-4提供了类似的答案，但Claude的回应稍微好一些。

然而，由于采样的随机性，团队发现这种情况并不能总能复刻。有时GPT-4也能像Claude一样给出相同的顺序，但在这次生成试验中失败了。

另外，团队注意到，当使用OpenAI API和ChatGPT接口时，GPT-4的行为略有不同，这可能是由于不同的提示、采样参数或其他未知因素导致的。

UC柏克萊LLM準中文排行榜來了！ GPT-4穩居第一，國人開源RNN模型衝進前六

用户更喜欢Claude而不是GPT-4的一个例子

在下图中，尽管Claude和GPT-4都具有惊人的能力，但它们仍在处理这类复杂的推理问题上挣扎。

UC柏克萊LLM準中文排行榜來了！ GPT-4穩居第一，國人開源RNN模型衝進前六

一个用户认为Claude和GPT-4都错了的例子

除了这些棘手的情况，还有许多并不需要复杂推理或知识的简单问题。

在这种情况下，像Vicuna这样的开源模型可以与GPT-4表现相当，因此我们可能可以使用稍微弱一些（但更小或更便宜）的大型语言模型（LLM）来替代像GPT-4这样更强大的模型。

Elo分数的变化

自从三个强大的专有模型参与以来，聊天机器人竞技场的竞争从未如此激烈。

由于在与专有模型对战时，开源模型输掉了不少比赛，因此它们的Elo分数都有所下降。

最后，团队还计划开放一些API，让用户可以注册自己的聊天机器人来参加排位赛。

以上是UC柏克萊LLM準中文排行榜來了！ GPT-4穩居第一，國人開源RNN模型衝進前六的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

模型排行

來源：51cto.com

上一篇：程式設計師的未來屬於「偽代碼」！ Nature專欄：用ChatGPT加速科學研究程式設計的三種姿勢下一篇：「穿越」成真？科學家造出首個「蟲洞」，登Nature封面

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

在多個路由中聲明的workerpool是否仍然可以保持其cpu使用率而不關心閾值我希望找到一個帶有workerpool的node.js系統來處理CPU密集型任務，但是對於多條路由中的cpu使用情況，我有點困惑。一個場景是這樣的：route1.js:constw...

來自於 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查詢計算另一張表中欄位的總和我有一個這樣的模式：具有屬性“user_id”和“username”的用戶表以及具有屬性“customer_id”（user_id的FK）和“finalPrice”的訂單表資料庫架...

來自於 2024-04-06 19:39:29

0

1

441

無法從網站取得輸入元素所以我試圖從Twitter獲取一個輸入元素，但當我運行它時，它不斷在節點終端中給我一個這樣的錯誤，結果，由此代碼創建的瀏覽器窗口將自行關閉，因為它找不到正確的輸入選擇器。如何取得正...

來自於 2024-04-06 18:59:57

0

1

442

在模板中使用方法中定義的變數這是我第一次使用Vue（v2而不是v3），我一直在嘗試在模板內使用變數（在方法內定義）。我的簡化程式碼：<template><divclass="con...

來自於 2024-04-06 18:10:25

0

2

513

使用SCSS產生預設值和CSS變數我正在實現網站樣式。出於遺留支援的原因，我需要支援IE11，至少一段時間。出於工作流程和我的理智原因，我想盡可能使用css變數。我已經研究過這個解決方案，它會產生一些有效的東西，但...

來自於 2024-04-06 17:46:54

0

1

355

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1421459
php入門教程之一週學會PHP

4265295
JAVA 初級入門影片教學

2517066
小甲魚零基礎入門學習Python影片教學

506300
PHP 零基礎入門教學

861453

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板