社群學習工具庫休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 和 GPT-4 並列第一，LMSYS 基準測試顯示 Claude-3 模型表現優異

和 GPT-4 並列第一，LMSYS 基準測試顯示 Claude-3 模型表現優異

WBOY

發布： 2024-03-28 17:26:43

轉載

520 人瀏覽過

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

3 月28 日消息，根據LMSYS Org 公佈的最新基準測試報告，Claude-3 得分以微弱優勢超越GPT-4，成為該平台“最佳”大語言模型。

本網站首先介紹下LMSYS Org，該機構是由加州大學柏克萊分校、加州大學聖地牙哥分校和卡內基美隆大學合作創建的研究組織。

該系統推出Chatbot Arena，這是一個針對大型語言模型（LLM）的基準平台，以眾包方式匿名、隨機對抗測試大模型產品，其評級基於國際象棋等競技遊戲中廣泛使用的Elo評分系統。

透過用戶投票產生的評分結果，系統每次都會隨機選擇兩個不同的大模型機器人和用戶聊天，並讓用戶在匿名的情況下選擇哪款大模型產品的表現更好一些，整體而言相對公正。

Chatbot Arena 自去年上線以來，GPT-4 一直穩居頭把交椅，甚至成為了評估大模型的黃金標準。

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

不過昨天 Anthropic 的 Claude 3 Opus 以 1253 比 1251 的微弱優勢擊敗了 GPT-4，OpenAI 的 LLM 被擠下了榜首位置。由於比分過於接近，出於誤差率的考量，該機構讓 Claude 3 和 GPT-4 並列第一，GPT-4 的另一個預覽版也並列第一。

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

更令人印象深刻的是 Claude 3 Haiku 進入前十名。 Haiku 是 Anthropic 的 local size 模型，相當於Google的 Gemini Nano。

它比擁有數萬億參數的 Opus 要小得多，因此相比之下速度要快得多。根據 LMSYS 的數據，Haiku 在排行榜上名列第七，有媲美 GPT-4 的表現。

#

以上是和 GPT-4 並列第一，LMSYS 基準測試顯示 Claude-3 模型表現優異的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

人工智慧

來源：51cto.com

上一篇：CVPR 2024｜生成不了光線極強的圖片？微信視覺團隊有效解決擴散模型奇點問題下一篇：如何利用物流人工智慧實現智慧運輸

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

什麼是 NullPointerException，如何修復它？

2024-10-22 09:46:29
從新手到程式設計師：您的旅程從 C 基礎知識開始

2024-10-13 13:53:41
使用 PHP 解鎖 Web 開發：初學者指南

2024-10-12 12:15:51
揭秘 C：為新程式設計師提供一條清晰簡單的道路

2024-10-11 22:47:31
釋放您的編碼潛力：絕對初學者的 C 編程

2024-10-11 19:36:51
釋放你內心的程式設計師：C 絕對初學者

2024-10-11 15:50:41
使用 C 自動化您的生活：適合初學者的腳本和工具

2024-10-11 15:07:41
PHP 變得簡單：Web 開發的第一步

2024-10-11 14:21:21
使用 Python 建立任何東西：釋放創造力的初學者指南

2024-10-11 12:59:11
編碼的關鍵：為初學者釋放 Python 的力量

2024-10-11 12:17:31

最新問題

數獨檢查器無法運作？誰能幫我辨識錯誤？我嘗試了在線編輯器上的所有方法，但仍然收到錯誤。但當我在我的機器上的VSCode上執行此操作時，它工作正常。我很困惑，在沒有發現錯誤的情況下無法提交程式碼。我不知道該去哪裡找了。我...

來自於 2024-04-06 21:21:07

0

1

474

放大 d3.js 時散佈圖點不會保持值這是我第一次使用d3.js，所以請耐心等待。我在vue.js檔案中將其作為純JavaScript實作。我正在嘗試製作具有縮放功能的散點圖。到目前為止，我幾乎一切正常，但當我縮放時，...

來自於 2024-04-06 18:16:26

0

1

403

使用SCSS產生預設值和CSS變數我正在實現網站樣式。出於遺留支援的原因，我需要支援IE11，至少一段時間。出於工作流程和我的理智原因，我想盡可能使用css變數。我已經研究過這個解決方案，它會產生一些有效的東西，但...

來自於 2024-04-06 17:46:54

0

1

355

了解 Nuxtjs auth 模組的內部工作原理我實際上試圖將Nuxtjsauth模組整合到我的專案中，但我無法理解auth模組的實際工作原理。如果有人幫助我理解這個概念，那將對我非常有幫助。謝謝！

來自於 2024-04-06 15:38:16

0

1

371

Node.js：無法將 SQL 查詢結果儲存在陣列中我正在嘗試將SQL查詢的結果推送到數組。但是，它似乎不起作用。我在網上找不到解決方案。如果有人能幫我解決這個問題，我將不勝感激。 letdata=[];connection.que...

來自於 2024-04-06 14:14:46

0

1

373

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1422621
php入門教程之一週學會PHP

4267444
JAVA 初級入門影片教學

2529860
小甲魚零基礎入門學習Python影片教學

506985
PHP 零基礎入門教學

862126

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板