GPT-4 と同率 1 位の LMSYS ベンチマークは、Claude-3 モデルが良好なパフォーマンスを示していることを示しています-AI-php.cn

GPT-4 と同率 1 位の LMSYS ベンチマークは、Claude-3 モデルが良好なパフォーマンスを示していることを示しています

WBOY

リリース： 2024-03-28 17:26:43

転載

521 人が閲覧しました

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

3 月 28 日のニュース、LMSYS Org が発表した最新のベンチマークレポートによると、Claude-3 のスコアは僅差で GPT-4 を上回り、プラットフォームのスコアになりました。 " 「最高の」大規模言語モデル。

このウェブサイトで最初に紹介するのは、カリフォルニア大学バークレー校、カリフォルニア大学サンディエゴ校、カーネギーメロン大学が共同で設立した研究組織である LMSYS Org です。

このシステムは、大規模言語モデル (LLM) のベンチマークプラットフォームである Chatbot Arena を起動します。これは、クラウドソーシングを使用して大規模モデル製品を匿名かつランダムにテストします。その評価は、チェスのような競技ゲームでの広範な使用に基づいています。Eloスコアリングシステム。

ユーザー投票によって生成された評価結果を通じて、システムは毎回ユーザーとチャットする 2 つの異なる大型モデルロボットをランダムに選択し、ユーザーはどちらの大型モデル製品のパフォーマンスが優れているかを匿名で選択できるようになります。全体的には比較的公平です。

チャットボットアリーナ昨年の発売以来、GPT-4 は常にトップの座を堅持しており、大規模モデルを評価するためのゴールドスタンダードにもなりました。

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

しかし昨日、Anthropic の Claude 3 Opus が 1253 対 1251 の僅差で GPT-4 を破り、OpenAI の LLM がトップの座から追いやられました。スコアが近すぎたため、代理店はエラー率を考慮してクロード 3 と GPT-4 を同率 1 位にランク付けし、GPT-4 の別のプレビューバージョンも同率 1 位にランクしました。

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异