新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑-AI-php.cn

新しいテストベンチマークがリリース、最も強力なオープンソースのLlama 3が困惑

PHPz

リリース： 2024-04-23 12:13:10

転載

606 人が閲覧しました

テスト問題が簡単すぎると、上位の生徒も下位の生徒も90点を獲得できてしまい、その差は広げられません...

Claude 3、Llama 3、さらにはGPT-5などのより強力なモデルのリリースにより業界は、より困難なモデル、より差別化されたベンチマークテストを緊急に必要としています。

大型モデルアリーナの背後にある組織である LMSYS は、次世代ベンチマーク Arena-Hard を発表し、広く注目を集めました。

Llama 3 の 2 つの命令の微調整されたバージョンの強度については、最新のリファレンスも利用できます。

新测试基准发布，最强开源Llama 3尴尬了

同様のスコアだった以前のMTベンチと比較すると、アリーナとハードの区別が22.6%から87.4%に増加しており、これは一目瞭然です。

アリーナ-ハードは、アリーナからのリアルタイムの人間データを使用して構築されており、人間の好みとの一致率は 89.1% にも達します。

SOTA に達する上記の 2 つの指標に加えて、追加の利点があります:

リアルタイムで更新されたテストデータには、人間が新たに考えた、トレーニング段階では AI が決して見たことのないプロンプトワードが含まれており、潜在的なデータが軽減されます。。

新しいモデルをリリースした後、人間のユーザーが投票するまで 1 週間ほど待つ必要はなくなり、25 ドルを費やすだけでテストパイプラインをすぐに実行して結果を取得できます。

一部のネチズンは、テストには高校試験の代わりに実際のユーザープロンプトワードを使用することが非常に重要であるとコメントしました。

新测试基准发布，最强开源Llama 3尴尬了

新しいベンチマークはどのように機能しますか?

簡単に言うと、大規模モデル領域での 200,000 のユーザークエリから 500 の高品質なプロンプトワードがテストセットとして選択されます。

まず、選択プロセス中に多様性を確保します。つまり、テストセットは現実世界のトピックを広範囲にカバーする必要があります。これを確実にするために、チームは BERTopic のトピックモデリングパイプラインを採用し、まず OpenAI の埋め込みモデル (text-embedding-3-small) を使用して各ヒントを変換し、UMAP を使用して次元を削減し、階層ベースのモデルアルゴリズムを使用してクラスタリングしました ( HDBSCAN) を使用してクラスターを識別し、最後に GPT-4-turbo を使用して集約します。

新测试基准发布，最强开源Llama 3尴尬了また、選択したプロンプトワードが高品質であることを確認します。これは、7 つの主要な指標によって測定されます:

具体性: プロンプトワードは特定の出力を必要としますか?

分野の知識: プロンプトの単語は 1 つ以上の特定のフィールドをカバーしていますか?
複雑さ: プロンプトの単語には複数の推論、コンポーネント、または変数の層がありますか?
問題解決: プロンプトの単語により、AI は問題を積極的に解決する能力を直接実証できますか?
創造性: プロンプトの言葉には、問題解決においてある程度の創造性が含まれていますか?
技術的な正確さ: プロンプトの単語の応答には技術的な正確さが必要ですか?
実践的な応用: プロンプトの言葉は実践的な応用に関連していますか?

新测试基准发布，最强开源Llama 3尴尬了 GPT-3.5-Turbo と GPT-4-Turbo を使用して、各チップに 0 から 7 までの注釈を付け、満たされる条件の数を判断します。次に、各クラスターはキューの平均スコアに基づいてスコア付けされます。

質の高い質問は通常、ゲーム開発や数学的証明などの難しいトピックやタスクに関連しています。

新测试基准发布，最强开源Llama 3尴尬了新しいベンチマークは正確ですか?

Arena-Hard には現在弱点があります。GPT-4 を審判として使用すると、独自の出力が優先されます。当局者も同様のヒントを提供した。

GPT-4 の最新の 2 つのバージョンのスコアが Claude 3 Opus よりもはるかに高いことがわかりますが、人間の投票スコアの差はそれほど明白ではありません。

新测试基准发布，最强开源Llama 3尴尬了実際、この点に関して、最新の研究では、最先端のモデルは独自の出力を好むことが実証されています。

新测试基准发布，最强开源Llama 3尴尬了また、研究チームは、微調整後、AI がテキストが自分自身で書かれたものであるかどうかを本質的に判断できること、そして自己認識能力が自己認識能力と直線的に関係していることも発見しました。好み。

新测试基准发布，最强开源Llama 3尴尬了それでは、得点にクロード 3 を使用すると、結果はどう変わりますか? LMSYS は関連する実験も行っています。

まず、クロードシリーズのスコアは確かに上がります。

新测试基准发布，最强开源Llama 3尴尬了

しかし、驚くべきことに、Mixtral や Zero One Thousand Yi などのいくつかのオープンモデルを好み、さらに GPT-3.5 では大幅に高いスコアを獲得しています。

全体的に、Claude 3 を使用してスコア化された人間の結果との識別性と一貫性は GPT-4 ほど良くありません。

新测试基准发布，最强开源Llama 3尴尬了

非常に多くのネチズンが、包括的なスコアリングのために複数の大規模なモデルを使用することを提案しました。

新测试基准发布，最强开源Llama 3尴尬了

さらに、チームは新しいベンチマークテストの有効性を検証するために、さらにアブレーション実験も実施しました。

例えば、プロンプトワードに「答えはできるだけ詳しく書いてください」と追加すると、平均出力長が長くなり、確かにスコアが向上します。

しかし、プロンプトの単語を「チャットが好き」に変更すると、平均出力長も増加しましたが、スコアの改善は明らかではありませんでした。

新测试基准发布，最强开源Llama 3尴尬了

また、実験中にはたくさんの興味深い発見がありました。

例えば、GPT-4 は解答に誤りがあると厳しく減点されますが、Claude 3 はたとえ小さな誤りを認識しても寛大です。コードの質問については、Claude 3 は単純な構造で回答を提供する傾向があり、外部のコードライブラリに依存せず、人間のプログラミング学習に役立ちますが、GPT-4-Turbo は教育に関係なく、最も実用的な回答を好みます。価値。

また、温度を0に設定してもGPT-4-Turboでは若干異なる判定が行われる場合があります。

階層視覚化の最初の 64 クラスターからも、大規模なモデル領域のユーザーからの質問の質と多様性が実際に高いことがわかります。

新测试基准发布，最强开源Llama 3尴尬了これにはあなたの貢献があるかもしれません。