Das Forschungsteam von Tencent führte eine Studie zur Skalierbarkeit von Agenten durch. Sie fanden heraus, dass durch einfaches Sampling-Voting die Leistung großer Sprachmodelle (LLM) mit der Anzahl der instanziierten Agenten steigt. Diese Studie hat erstmals die Universalität dieses Phänomens in verschiedenen Szenarien überprüft, es mit anderen komplexen Methoden verglichen, die Gründe für dieses Phänomen untersucht und Methoden vorgeschlagen, um den Skalierungseffekt weiter auszuüben.
Papiertitel: More Agents Is All You Need
Papieradresse: https://arxiv.org/abs/2402.05120
Codeadresse: https://github.com/MoreAgentsIsAllYouNeed /Mehr-Agenten-ist-alles-was-Sie-brauchen
In diesem Artikel stellten Forscher von Tencent fest, dass die Leistung großer Sprachmodelle durch die Instanziierung von Agenten verbessert wird Mit zunehmender Anzahl werden Skaliereigenschaften (Skalierbarkeit) angezeigt, ohne dass ein komplexes Multi-LLM-Agenten-Kollaborations-Framework und schnelle Engineering-Methoden erforderlich sind. Darüber hinaus ist diese Methode orthogonal zu bestehenden anspruchsvollen Methoden und kann in Kombination das LLM in einem Maße weiter verbessern, das mit der Aufgabenschwierigkeit zusammenhängt. In diesem Artikel wurde die erste Studie zur Skalierungseigenschaft von Rohagenten durchgeführt (bezogen auf LLM-Agenten, die nicht auf komplexe Prompt-Engineering- und Kollaborations-Frameworks angewiesen sind). Es wurden umfassende Experimente zu verschiedenen LLM-Benchmarks durchgeführt, um die Universalität dieses Ergebnisses zu überprüfen Strategien, die sein Auftreten erleichtern können. Der Code ist derzeit Open Source.过 Mehrere kleine Modelle übertreffen das große Modell. In der Dissertation wurden verschiedene integrierte LLMs ausführlich erörtert, darunter die Selbstintegration von LLM, die Integration heterogener LLM und der Rahmen für die Zusammenarbeit mehrerer LLM-Agenturen. Durch den Vergleich mit der vorgeschlagenen Methode ist ersichtlich, dass in der Arbeit eine umfassendere Untersuchung und Analyse durchgeführt wurde.
Um zu untersuchen, wie sich die Leistung großer Sprachmodelle mit zunehmender Anzahl instanziierter Agenten verbessert. Der Artikel verwendet eine einfache Stichproben- und Abstimmungsmethode (der Autor verwendet den Begriff einfach (st), was zeigt, dass er glaubt, dass diese Methode eine der einfachsten Methoden sein könnte). Insbesondere kann diese Methode orthogonal mit bestehenden komplexen Methoden kombiniert werden. Es kann in zwei Phasen unterteilt werden:
Eingabe einer Aufgabenabfrage in ein einzelnes LLM- oder mehrere LLM-Agenten-Kollaborationsframework, um mehrere Ausgaben zu generieren; Bestimmen des Endergebnisses durch Mehrheitsabstimmung
-
Der Artikel wählt Sprachmodelle unterschiedlicher Größe aus der Llama2- und GPT-Reihe zur Bewertung aus. Der Aufgabendatensatz deckt mehrere Bereiche wie Argumentation und Generierung ab. Experimentelle Ergebnisse zeigen, dass die Leistung von LLM mit der Anzahl der instanziierten Agenten für alle Aufgaben und mit unterschiedlichen Arten und Größen von LLM zunimmt.
Zum Beispiel beträgt die Verbesserung 12 % bis 24 % bei der GSM8K-Aufgabe und 6 % bis 10 % bei der MATH-Aufgabe. Interessanterweise kann ein Ensemble aus mehreren kleinen LLMs die Leistung größerer LLMs erreichen oder sogar übertreffen.
Zum Beispiel erreichte die Integration mehrerer Llama2-13B eine Genauigkeit von 59 % auf GSM8K und übertraf damit die 54 % Genauigkeit eines einzelnen Llama2-70B. Darüber hinaus untersuchte der Autor auch die Kompatibilität von mit anderen Methoden. Obwohl die Implementierung dieser Methoden unterschiedlich ist, kann die Leistung in Kombination mit ihnen weiter verbessert werden. Es stimmt auch mit dem Phänomen überein, dass der Leistungsgewinn umso stärker ist, je mehr Agenten instanziiert werden. Experimentelle Ergebnisse zeigen, dass der Gewinn zwischen 1 % und 27 % liegt, was darauf hindeutet, dass diese einfache Methode die Leistung von LLM weiter verbessern kann, indem sie orthogonal mit anderen Methoden verwendet wird. A Basierend auf LLAMA13B Darüber hinaus analysierte das Papier auch die Beziehung zwischen Leistungsverbesserung und Problemschwierigkeit.
Intrinsische Schwierigkeit: Wenn die inhärente Schwierigkeit der Aufgabe zunimmt, nimmt auch die Leistungsverbesserung (d. h. der relative Leistungszuwachs) zu, aber wenn der Schwierigkeitsgrad ein bestimmtes Niveau erreicht, nimmt der Zuwachs allmählich ab. Dies zeigt, dass die Argumentationsfähigkeit des Modells möglicherweise nicht mithalten kann, wenn die Aufgabe zu komplex ist, was zu einer Verringerung der marginalen Auswirkungen von Leistungsverbesserungen führt.
Anzahl der Schritte: Mit zunehmender Anzahl der zur Lösung einer Aufgabe erforderlichen Schritte steigt auch die Leistungssteigerung. Dies zeigt, dass bei mehrstufigen Aufgaben eine Erhöhung der Anzahl der Agenten dazu beitragen kann, dass das Modell jeden Schritt besser bewältigt und dadurch die Gesamtleistung bei der Aufgabenlösung verbessert wird. Prior-Wahrscheinlichkeit: Je höher die Prior-Wahrscheinlichkeit der richtigen Antwort, desto größer die Leistungsverbesserung. Dies bedeutet, dass eine Erhöhung der Anzahl der Agenten mit größerer Wahrscheinlichkeit zu erheblichen Leistungsverbesserungen führt, wenn die Wahrscheinlichkeit einer korrekten Antwort größer ist.
Knoten: Schritte, gestrichelte Linien: mögliche alternative Schritte. Tiefe der Knoten: Anzahl der Schritte, Intensität der Farben: Grad der inhärenten Schwierigkeit. Die Abbildung hilft dem Leser zu verstehen, wie die Aufgabenkomplexität entlang dieser Dimensionen gemessen wird.
Auf dieser Grundlage schlägt das Papier zwei Optimierungsstrategien vor, um die Wirksamkeit der Methode weiter zu verbessern: Schrittweises Sampling-and-Voting: Diese Methode unterteilt die Aufgabe in Schritte und Wenden Sie bei jedem Schritt Stichproben und Abstimmungen an, um kumulative Fehler zu reduzieren und die Gesamtleistung zu verbessern. Hierarchisches Sampling-and-Voting: Diese Methode zerlegt Aufgaben mit geringer Wahrscheinlichkeit in mehrere Teilaufgaben mit hoher Wahrscheinlichkeit und löst diese hierarchisch. Gleichzeitig können verschiedene Modelle verwendet werden, um Teilaufgaben mit unterschiedlichen Wahrscheinlichkeiten zu bearbeiten .
- Abschließend werden zukünftige Arbeitsrichtungen vorgeschlagen, einschließlich der Optimierung der Probenahmephase zur Kostensenkung und der weiteren Entwicklung relevanter Mechanismen zur Abschwächung der potenziellen negativen Auswirkungen von LLM-Halluzinationen (Halluzinationen), um sicherzustellen, dass diese leistungsstarken Modelle eingesetzt werden ist sowohl verantwortungsbewusst als auch hilfsbereit.
Das obige ist der detaillierte Inhalt vonQuantität ist Macht! Tencent verrät: Je größer die Anzahl der Agenten, desto besser ist die Wirkung des großen Sprachmodells. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!