社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

WBOY

发布： 2023-05-04 23:04:09

转载

1470 人浏览过

最近，来自LMSYS Org（UC伯克利主导）的研究人员又搞了个大新闻——大语言模型版排位赛！

顾名思义，「LLM排位赛」就是让一群大语言模型随机进行battle，并根据它们的Elo得分进行排名。

然后，我们就能一眼看出，某个聊天机器人到底是「嘴强王者」还是「最强王者」。

划重点：团队还计划把国内和国外的这些「闭源」模型都搞进来，是骡子是马溜溜就知道了！（GPT-3.5现在就已经在匿名竞技场里了）

UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

匿名聊天机器人竞技场长下面这样：

很明显，模型B回答正确，拿下这局；而模型A连题都没读懂……

UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

项目地址：https://arena.lmsys.org/

在当前的排行榜中，130亿参数的Vicuna以1169分稳居第一，同样130亿参数的Koala位列第二，LAION的Open Assistant排在第三。

清华提出的ChatGLM，虽然只有60亿参数，但依然冲进了前五，只比130亿参数的Alpaca落后了23分。

相比之下，Meta原版的LLaMa只排到了第八（倒数第二），而Stability AI的StableLM则获得了唯一的800+分，排名倒数第一。

团队表示，之后不仅会定期更新排位赛榜单，而且还会优化算法和机制，并根据不同的任务类型提供更加细化的排名。

UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

目前，所有的评估代码以及数据分析均已公布。

拉着LLM打排位

在这次的评估中，团队选择了目前比较出名的9个开源聊天机器人。

每次1v1对战，系统都会随机拉两个上场PK。用户则需要同时和这两个机器人聊天，然后决定哪个聊天机器人聊的更好。

可以看到，页面下面有4个选项，左边（A）更好，右边（B）更好，一样好，或者都很差。

当用户提交投票之后，系统就会显示模型的名称。这时，用户可以继续聊天，或者选择新的模型重新开启一轮对战。

不过，团队在分析时，只会采用模型是匿名时的投票结果。在经过差不多一周的数据收集之后，团队共收获了4.7k个有效的匿名投票。

UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

在开始之前，团队先根据基准测试的结果，掌握了各个模型可能的排名。

根据这个排名，团队会让模型去优先选择更合适的对手。

然后，再通过均匀采样，来获得对排名的更好总体覆盖。

在排位赛结束时，团队又引入了一种新模型fastchat-t5-3b。

以上这些操作最终导致了非均匀的模型频率。

UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

每个模型组合的对战次数

从统计数据来看，大多数用户所用的都是英语，中文排在第二位。

UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

排名前15的语言的对战次数

评估LLM，真的很难

自从ChatGPT爆火之后，经过指令跟随微调的开源大语言模型如雨后春笋一般大量涌现。可以说，几乎每周都有新的开源LLM在发布。

但问题是，评估这些大语言模型非常难。

具体来说，目前用来衡量一个模型好不好的东西基本都是基于一些学术的benchmark，比如在一个某个NLP任务上构建一个测试数据集，然后看测试数据集上准确率多少。

然而，这些学术benchmark（如HELM）在大模型和聊天机器人上就不好用了。其原因在于：

1. 由于评判聊天机器人聊得好不好这件事是非常主观的，因此现有的方法很难对其进行衡量。

2. 这些大模型在训练的时候就几乎把整个互联网的数据都扫了一个遍，因此很难保证测试用的数据集没有被看到过。甚至更进一步，用测试集直接对模型进行「特训」，如此一来表现必然更好。

3. 理论上我们可以和聊天机器人聊任何事情，但很多话题或者任务在现存的benchmark里面根本就不存在。

UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

那如果不想采用这些benchmark的话，其实还有一条路可以走——花钱请人来给模型打分。

实际上，OpenAI就是这么搞的。但是这个方法明显很慢，而且更重要的是，太贵了……

为了解决这个棘手的问题，来自UC伯克利、UCSD、CMU的团队发明了一种既好玩又实用的全新机制——聊天机器人竞技场（Chatbot Arena）。

相比而言，基于对战的基准系统具有以下优势：

可扩展性（Scalability）

当不能为所有潜在的模型对收集足够的数据时，系统应能扩展到尽可能多的模型。

增量性（Incrementality）

系统应能够使用相对较少的试验次数评估新模型。

唯一顺序（Unique order）

系统应为所有模型提供唯一顺序。给定任意两个模型，我们应该能够判断哪个排名更高或它们是否并列。

Elo评分系统

Elo等级分制度（Elo rating system）是一种计算玩家相对技能水平的方法，广泛应用在竞技游戏和各类运动当中。其中，Elo评分越高，那么就说明这个玩家越厉害。

比如英雄联盟、Dota 2以及吃鸡等等，系统给玩家进行排名的就是这个机制。

举个例子，当你在英雄联盟里面打了很多场排位赛后，就会出现一个隐藏分。这个隐藏分不仅决定了你的段位，也决定了你打排位时碰到的对手基本也是类似水平的。

而且，这个Elo评分的数值是绝对的。也就是说，当未来加入新的聊天机器人时，我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。

具体来说，如果玩家A的评分为Ra，玩家B的评分为Rb，玩家A获胜概率的精确公式（使用以10为底的logistic曲线）为：

UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

然后，玩家的评分会在每场对战后线性更新。

假设玩家A（评分为Ra）预计获得Ea分，但实际获得Sa分。更新该玩家评分的公式为：

UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

1v1胜率

此外，作者还展示了排位赛中每个模型的对战胜率以及使用Elo评分估算的预测对战胜率。

结果显示，Elo评分确实可以相对准确地进行预测

UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

所有非平局A对B战斗中模型A胜利的比例

UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

在A对B战斗中，使用Elo评分预测的模型A的胜率

作者介绍

「聊天机器人竞技场」由前小羊驼作者机构LMSYS Org发布。

该机构由UC伯克利博士Lianmin Zheng和UCSD准教授Hao Zhang创立，目标是通过共同开发开放的数据集、模型、系统和评估工具，使每个人都能获得大型模型。

UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5

Lianmin Zheng

Lianmin Zheng是加州大学伯克利分校EECS系的博士生，他的研究兴趣包括机器学习系统、编译器和分布式系统。

Hao Zhang

Hao Zhang目前是加州大学伯克利分校的博士后研究员。他将于2023年秋季开始在加州大学圣地亚哥分校Halıcıoğlu数据科学研究所和计算机系担任助理教授。

以上是UC伯克利发布大语言模型排行榜！Vicuna夺冠，清华ChatGLM进前5的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

ai 模型

来源：51cto.com

上一篇：用量子纠缠当GPS，无信号地区也能精准定位了下一篇：港科大&MSRA研究：关于图像到图像转换，Finetuning is all you need

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

什么是 NullPointerException，如何修复它？

2024-10-22 09:46:29
从新手到程序员：您的旅程从 C 基础知识开始

2024-10-13 13:53:41
使用PHP解锁网络开发：初学者指南

2024-10-12 12:15:51
揭秘 C：为新程序员提供一条清晰简单的道路

2024-10-11 22:47:31
释放您的编码潜力：绝对初学者的 C 编程

2024-10-11 19:36:51
释放你内心的程序员：C 绝对初学者

2024-10-11 15:50:41
使用 C 自动化您的生活：适合初学者的脚本和工具

2024-10-11 15:07:41
PHP 变得简单：Web 开发的第一步

2024-10-11 14:21:21
使用 Python 构建任何东西：释放创造力的初学者指南

2024-10-11 12:59:11
编码的关键：为初学者释放 Python 的力量

2024-10-11 12:17:31

最新问题

在多个路由中声明的workerpool是否仍然可以保持其cpu使用率而不关心阈值我希望找到一个带有workerpool的node.js系统来处理CPU密集型任务，但是对于多条路由中的cpu使用情况，我有些困惑。一个场景是这样的：route1.js:constw...

来自于 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查询计算另一张表中字段的总和我有一个这样的模式：具有属性“user_id”和“username”的用户表以及具有属性“customer_id”（user_id的FK）和“finalPrice”的订单表数据库架...

来自于 2024-04-06 19:39:29

0

1

441

无法从网站获取输入元素所以我试图从Twitter获取一个输入元素，但当我运行它时，它不断在节点终端中给我一个这样的错误，结果，由此代码创建的浏览器窗口将自行关闭，因为它找不到正确的输入选择器。如何获取正...

来自于 2024-04-06 18:59:57

0

1

442

在模板中使用在方法中定义的变量这是我第一次使用Vue（v2而不是v3），并且我一直在尝试在模板内使用变量（在方法内定义）。我的简化代码：<template><divclass="co...

来自于 2024-04-06 18:10:25

0

2

513

使用SCSS生成默认值和CSS变量我正在实现网站样式。出于遗留支持的原因，我需要支持IE11，至少一段时间。出于工作流程和我的理智原因，我想尽可能使用css变量。我已经研究过这个解决方案，它会生成一些有效的东西，但...

来自于 2024-04-06 17:46:54

0

1

355

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1422797
php入门教程之一周学会PHP

4267882
JAVA 初级入门视频教程

2532138
小甲鱼零基础入门学习Python视频教程

507172
PHP 零基础入门教程

862277

最新下载

更多>

网站特效

网站源码

网站素材

前端模板