量は力だ！ Tencent が明らかに: エージェントの数が多いほど、大規模な言語モデルの効果が高まる-AI-php.cn

量は力だ！ Tencent が明らかに: エージェントの数が多いほど、大規模な言語モデルの効果が高まる

PHPz

リリース： 2024-02-29 15:55:20

転載

993 人が閲覧しました

Tencent の研究チームは、エージェントのスケーラビリティに関する研究を実施しました。彼らは、単純なサンプリング投票を通じて、インスタンス化されたエージェントの数に応じて大規模言語モデル (LLM) のパフォーマンスが向上することを発見しました。本研究では、この現象の普遍性をさまざまなシナリオで初めて検証し、他の複雑な手法と比較し、この現象の背後にある理由を探り、スケーリング効果をさらに発揮するための手法を提案しました。

量は力だ！ Tencent が明らかに: エージェントの数が多いほど、大規模な言語モデルの効果が高まる

論文のタイトル: 必要なのはエージェントの追加だけです
論文のアドレス: https://arxiv .org/abs/2402.05120
コードアドレス: https://github.com/MoreAgentsIsAllYouNeed/More-Agents-Is-All-You-Need

この記事で、Tencent の研究者は次のことを発見しました: 単純なサンプリング投票方法を通じて、複雑なサポートがなくても、インスタンス化されるエージェントの数が増加するにつれて大規模な言語モデルのパフォーマンスが向上し、スケーリング特性 (スケーラビリティ) が示される複数の LLM エージェントのコラボレーションフレームワークと迅速なエンジニアリング手法。さらに、この方法は既存の高度な方法とは直交しており、組み合わせるとタスクの難易度に関連する程度まで LLM をさらに強化できます。この論文は、生のエージェント (複雑なプロンプトエンジニアリングとコラボレーションフレームワークに依存しない LLM エージェントを指します) のスケーリング特性に関する最初の研究を行い、この発見の普遍性を検証するためにさまざまな LLM ベンチマークで包括的な実験を実施しました。その発生を促進する戦略。コードは現在オープンソースです。

量は力だ！ Tencent が明らかに: エージェントの数が多いほど、大規模な言語モデルの効果が高まる

この複数のモデルは大規模モデルを上回りました

論文では、統合されたさまざまなモデルについて詳しく説明しましたLLM 自己統合、異種 LLM 統合、および複数の LLM エージェントのコラボレーションフレームワークに関する研究を含む、LLM 関連の研究。提案された方法と比較すると、この論文はより包括的な調査と分析を行っていることがわかります。

インスタンス化されたエージェントの数が増加するにつれて、大規模な言語モデルのパフォーマンスがどのように向上するかを研究するため。この論文では単純なサンプリングと投票の方法を使用しています (著者は単純 (st) という用語を使用しています。これは、この方法が最も単純な方法の 1 つである可能性があると考えていることを示しています)。特に、この方法は既存の複雑な方法と直交的に組み合わせることができます。これは 2 つの段階に分けることができます:

タスククエリを単一の LLM または複数の LLM エージェントのコラボレーションフレームワークに入力して、複数の出力を生成します。
最終結果は多数決によって決定されます

この論文では、Llama2 および GPT シリーズから異なるスケールが選択されています。モデルは、推論や生成などの複数のドメインをカバーするタスクデータセットで評価されます。実験結果は、すべてのタスクとさまざまなタイプとサイズの LLM において、インスタンス化されたエージェントの数に応じて LLM のパフォーマンスが向上することが判明したことを示しています。

量は力だ！ Tencent が明らかに: エージェントの数が多いほど、大規模な言語モデルの効果が高まる

たとえば、GSM8K タスクでは 12% ～ 24%、MATH タスクでは 6% ～ 10% の改善が見られます。興味深いことに、複数の小規模 LLM の アンサンブルは、より大きな LLM のパフォーマンスに匹敵するか、それを上回る可能性さえあります。 たとえば、複数の Llama2-13B のアンサンブルは、GSM8K で 59% の精度を達成し、単一の Llama2-70B の 54% の精度を上回りました。

量は力だ！ Tencent が明らかに: エージェントの数が多いほど、大規模な言語モデルの効果が高まる

さらに、著者は と他のメソッドとの互換性も調査しました。 これらの方法は実装方法が異なりますが、組み合わせて使用すると、パフォーマンスをさらに向上させることができます。また、これは、インスタンス化されるエージェントの数が増えるほど、パフォーマンスが向上するという現象とも一致します。 実験結果は、ゲインが 1% から 27% の範囲であることを示しており、この単純な方法を他の方法と直交的に使用することで LLM のパフォーマンスをさらに向上できることを示しています。

# LLama13B

に基づく

## LLama70B に基づく

# ベースGPT-3.5-Turbo さらに、この論文では、

パフォーマンスの向上と問題の難易度の関係も分析しています。

#本質的難易度: タスクの固有の難易度が上がると、パフォーマンスの向上 (つまり、相対的なパフォーマンス)ゲイン）も増加しますが、難易度が一定レベルに達すると徐々にゲインが減少します。これは、タスクが複雑すぎる場合、モデルの推論能力が追いつかない可能性があり、その結果、パフォーマンス向上の限界効果が減少する可能性があることを示しています。

ステップ数: タスクを解決するために必要なステップ数が増加すると、パフォーマンスも向上します。これは、複数ステップのタスクでは、エージェントの数を増やすことでモデルが各ステップをより適切に処理できるようになり、それによってタスク解決のパフォーマンスが全体的に向上することを示しています。
事前確率: 正解の事前確率が高いほど、パフォーマンスの向上が大きくなります。これは、正解が得られる可能性が高い場合、エージェントの数を増やすと大幅なパフォーマンスの向上につながる可能性が高いことを意味します。

#ノード: ステップ、破線: 考えられる代替ステップ。ノードの深さ: ステップ数、色の強度: 固有の難易度のレベル。この図は、タスクの複雑さがこれらの側面に沿ってどのように測定されるかを読者が理解するのに役立ちます。

#これに基づいて、この論文では、この方法の有効性をさらに向上させるための 2 つの最適化戦略を提案します。

段階的なサンプリングと投票: この方法では、タスクを複数のステップに分割し、各ステップでサンプリングと投票を適用することで、累積エラーを減らし、全体的なパフォーマンスを向上させます。

階層的サンプリングと投票: この手法は、確率の低いタスクを確率の高い複数のサブタスクに分解し、階層的に解決します。同時に使用できます。異なるモデルが使用されます。コストを削減するために、異なる確率でサブタスクを処理します。
最後に、コストを削減するためのサンプリング段階の最適化や、LLM 幻覚の影響を軽減するための関連メカニズムの開発の継続など、将来の作業の方向性が提案されています。悪影響を排除し、これらの強力なモデルの展開が責任を持ち、有益であることを保証します。