Sprache, ist nicht nur ein Haufen Wörter, sondern auch ein Karneval von Emoticons, ein Ozean von Memes und ein Schlachtfeld für Tastaturkrieger (Huh? Was ist los?) .
Wie prägt Sprache unser Sozialverhalten?
Wie entwickelt sich unsere soziale Struktur durch ständige verbale Kommunikation?
Kürzlich führten Forscher der Fudan-Universität und Xiaohongshu ausführliche Diskussionen zu diesen Themen, indem sie eine Simulationsplattform namens AgentGroupChat einführten.
Die Gruppenchat-Funktion sozialer Medien wie WhatsApp ist die Inspiration für die AgentGroupChat-Plattform.
Auf der AgentGroupChat-Plattform können Agenten verschiedene Chat-Szenarien in sozialen Gruppen simulieren, um Forschern dabei zu helfen, die Auswirkungen von Sprache auf menschliches Verhalten genau zu verstehen.
Diese Plattform ist einfach ein Cosplay-Gewinnerplatz für große Models. Sie führen Rollenspiele aus und werden zu verschiedenen Agenten. Dann beteiligen sich Agentendurch Sprachkommunikation an der sozialen Dynamik
und zeigen, wie Interaktionen zwischen Individuen zu makroskopischen Verhaltensweisen der Gruppe führen. Wie wir alle wissen, beruht die Entwicklung menschlicher Gruppen auf dem Auftreten neu entstehender Verhaltensweisen, wie der Etablierung sozialer Normen, der Lösung von Konflikten und der Ausübung von Führung. Detailliertes Design der AgentGroupChat-Umgebung
Das erste ist
CharakterdesignIn AgentGroupChat ist die Unterscheidung zwischen Hauptrollen und Nicht-Hauptrollen sehr wichtig. Der Hauptcharakter ist der Kern des Gruppenchats, hat ein klares Spielziel und kann proaktiv private Chats und Treffen mit allen Charakteren führen, während die Nicht-Hauptcharaktere eher eine unterstützende und reagierende Rolle spielen.
Durch ein solches Design kann das Forschungsteam die soziale Struktur im wirklichen Leben simulieren und unterscheiden, ob alle Rollen für das „Hauptforschungsobjekt“ primär sind oder nicht.
Das Hauptforschungsobjekt im experimentellen Fall ist die Roy-Familie, daher werden alle Nicht-Roy-Familienmitglieder als Nicht-Hauptfiguren festgelegt, um die Komplexität der Interaktion zu vereinfachen.
Das zweite istRessourcenmanagement.
In AgentGroupChat beziehen sich Ressourcen nicht nur auf materielle Ressourcen, sondern auch auf Informationsressourcen und soziales Kapital. Diese Ressourcen können Gruppenchat-Themen, soziale Statussymbole oder spezifisches Wissen sein.
Die Zuweisung und Verwaltung von Ressourcen ist wichtig für die Simulation von Gruppendynamiken, da sie die Interaktionen zwischen Charakteren und die Strategieentscheidungen der Charaktere beeinflussen.
Zum Beispiel kann ein Charakter mit wichtigen Informationsressourcen zum Ziel für andere Charaktere werden, um Allianzen zu schließen.
Drittens:
Spielprozessdesign.
Das Design des Spielprozesses simuliert den sozialen Interaktionsprozess im echten Leben, einschließlich privatem Chat, Meeting, Gruppenchat, Aktualisierungsphase und Abrechnungsphase. Diese Phasen dienen nicht nur dazu, den Fortschritt des Spiels zu fördern, sondern auch zu beobachten, wie die Charaktere Entscheidungen treffen und in verschiedenen sozialen Situationen reagieren.
Dieses inszenierte Design half dem Forschungsteam, jeden Schritt der Interaktion im Detail aufzuzeichnen und wie sich diese Interaktionen auf die Beziehungen zwischen Charakteren und die Wahrnehmung der Spielumgebung durch die Charaktere auswirkten.
Der Kernmechanismus von Verb Strategist Agent
Der Artikel erwähnt ein Agenten-Framework, das auf einem großen Modell,
, basiert und darauf ausgelegt ist, interaktive Strategien und Entscheidungsfindung in AgentGroupChat-Simulationen zu verbessern. Verbal Strategist Agent simuliert komplexe soziale Dynamiken und Dialogszenarien, um kollektives Verhalten besser hervorzurufen. Das Team stellte fest, dass die Architektur von Verbal Strategist Agent hauptsächlich aus zwei Kernmodulen besteht:
Eines ist Persona und das andere ist Action.
Personabesteht aus einer Reihe voreingestellter Persönlichkeitsmerkmale und Ziele, die die Verhaltensmuster und Reaktionen des Agenten definieren.
Durch die genaue Einstellung der Persona kann der Agent Verhaltensweisen in Gruppenchats anzeigen, die konsistent und konsistent mit seinen Rolleneinstellungen sind, was für die Generierung glaubwürdiger und konsistenter Gruppenchat-Dynamik von entscheidender Bedeutung ist. Das
Aktionsmoduldefiniert die spezifischen Vorgänge, die der Agent im Spiel ausführen kann, einschließlich Denken
(denken), Planen(planen), Auswählen(wählen), Sprechen(sprechen) und zusammenfassend (Zusammenfassung) , Reflexion (reflektieren) und Abstimmung (Abstimmung) . Diese Verhaltensweisen spiegeln nicht nur die interne Logik und Strategie des Agenten wider, sondern sind auch eine direkte Manifestation der Interaktion des Agenten mit der Umgebung und anderen Agenten. Zum Beispiel ermöglicht das Verhalten „Sprechen“ dem Agenten, geeignete Sprachinhalte basierend auf dem aktuellen Inhalt des Gruppenchats und der sozialen Strategie auszuwählen, während das Verhalten „Reflektieren“ es dem Agenten ermöglicht, vergangene Interaktionen zusammenzufassen und seinen zukünftigen Aktionsplan anzupassen. In der Studie wurde auch erwähnt, dass in einer Umgebung mit reiner Sprachinteraktion das Problem des Token-Overheads besonders ausgeprägt ist, insbesondere bei komplexen Mehrrollensimulationen wie AgentGroupChat, deren Token-Anforderungen die früherer Simulationen wie Generative bei weitem übertreffen Agenten oder Kriegsagenten. Die Hauptgründe sind folgende: Erstens ist Chat selbst komplex. Da es sich bei AgentGroupChat um eine kostenlose Konversation ohne klare oder schwache Ziele handelt, wird der Chat-Inhalt besonders chaotisch und die Token-Kosten sind natürlich höher als bei anderen Agenten in Simulation, die sich auf eine bestimmte Aufgabe konzentrieren. Andere Jobs wie Generative Agents und War Agents enthalten ebenfalls Dialogelemente, aber ihre Dialoge sind nicht so dicht oder komplex wie AgentGroupChat. Insbesondere bei zielgerichteten Gesprächen wie War Agents ist der Token-Verbrauch normalerweise geringer. Das zweite ist die Bedeutung der Rolle und die Häufigkeit des Dialogs. In der anfänglichen Simulation werden mehrere Charaktere so eingerichtet, dass sie nach Belieben Privat- oder Gruppenchats führen können, und die meisten von ihnen neigen dazu, mehrere Gesprächsrunden mit einem „wichtigen Charakter“ zu führen. Dies führt dazu, dass wichtige Charaktere eine große Menge an Chat-Inhalten ansammeln, wodurch sich die Länge des Speichers erhöht. In einer Simulation kann ein wichtiger Charakter an bis zu fünf Runden privater und Gruppenchats teilnehmen, was den Speicheraufwand erheblich erhöht. Der Agent in AgentGroupChat beschränkt die Ausgabe der Aktion auf die Eingabe der Eingabe der nächsten Aktion. Die mehreren Informationsrunden, die gespeichert werden müssen, werden erheblich reduziert, wodurch der Token-Overhead verringert und gleichzeitig die Qualität der Konversation sichergestellt wird. Aus einer Gesamtbewertung des Verhaltens kann die Steigerung der Freundlichkeit im Allgemeinen eine Herausforderung sein, aber die Reduzierung der Freundlichkeit ist relativ einfach. Um die oben genannten Bewertungsziele zu erreichen, richtete das Forschungsteam einen Beobachtungscharakter ein, um alle anderen Charaktere dazu zu veranlassen, ihre Bevorzugung gegenüber dem Beobachtungscharakter zu reduzieren. Anhand der Summe der Beziehungswerte des beobachteten Charakters zu allen anderen Charakteren lässt sich feststellen, ob der Agent rational auf eine negative Einstellung reagiert hat. Jeder Agent kann überprüft werden, ob er sich an die „Scratch“-Einstellungen hält, indem die persönlichen Beziehungswerte anderer Charaktere mit dem beobachteten Charakter beobachtet werden. Darüber hinaus stellte das Team zwei konkrete Bewertungsaufgaben. Jedes Modell durchläuft fünf Testrunden, was bedeutet, dass für T1 die Stichprobengröße für jede Bewertung fünf beträgt. Und da jede Figur im Modell die Einstellungen der vier Hauptfiguren beobachten muss, beträgt die Gesamtstichprobengröße von T2 20: Wie aus der Tabelle ersichtlich ist, sind GPT4-Turbo und GLM4 sehr gut im Handeln Im Einklang mit den menschlichen Erwartungen. Und bleib bei deiner Rolle. Sie haben bei beiden Tests größtenteils 100 % erreicht, was bedeutet, dass sie richtig auf das reagieren können, was andere zu ihnen sagen, und sich an Details ihrer Charaktere erinnern können. LLMs der Standardversion (wie GPT3.5-Turbo und GLM3-Turbo) sind in dieser Hinsicht etwas schlechter. Ihre niedrigeren Werte weisen darauf hin, dass sie ihren Charakteren nicht viel Aufmerksamkeit schenken und nicht immer richtig auf das reagieren, was andere in der Simulation sagen. In Bezug auf die Auswirkungen von Agenten- und Simulationsstrukturen auf neu entstehendes Verhalten verwendet das Team die 2-Gramm-Shannon-Entropie, um die Systemvielfalt und Unvorhersehbarkeit im Dialog zu messen. Forschungsmitglieder haben herausgefunden, dass das Entfernen jedes Designs in der Tabelle die Entropie erhöht, was bedeutet, dass die gesamte Umgebung vielfältiger oder chaotischer wird. In Kombination mit manueller Beobachtung sah das Team das interessanteste aufkommende Verhalten, ohne irgendwelche Komponenten zu entfernen: Daher geht das Team davon aus, dass zwar sichergestellt wird, dass das Verhalten des Agenten zuverlässig ist (d. h. nachdem der experimentelle Wert in 4.2/4.1 einen bestimmten Wert erreicht hat), es jedoch zu mehr führt, wenn die Entropie so klein wie möglich gehalten wird sinnvolles Emergenzverhalten. Die Ergebnisse zeigen, dass neu entstehendes Verhalten das Ergebnis einer Kombination von Faktoren ist: Eine Umgebung, die einem umfassenden Informationsaustausch förderlich ist, Rollen mit unterschiedlichen Merkmalen, hohe Sprachverständnisfähigkeiten und strategische Anpassungsfähigkeit. In der AgentGroupChat-Simulation glaubten Philosophen bei der Diskussion über die „Auswirkungen künstlicher Intelligenz auf die Menschheit“ im Allgemeinen, dass „künstliche Intelligenz das soziale Wohlergehen unter moderaten Einschränkungen verbessern kann“ und kamen sogar zu dem Schluss, dass „die Natur wahrer Intelligenz die Notwendigkeit von Einschränkungen umfasst“. die eigenen Fähigkeiten.“ Darüber hinaus gibt es im Wettbewerb um Hauptrollen in AgentGroupChat-Filmen Schauspieler, die aus ihrem tiefsten Wunsch, einen Beitrag zum Projekt zu leisten, bereit sind, niedrigere Gehälter zu akzeptieren oder niedrigere Rollen anzunehmen. Papier-Link: //m.sbmmt.com/link/5736586058c1336221a695e83618b69dExperimentelle Design- und Bewertungsmethoden
△ Nehmen wir als Beispiel die Simulationsgeschichte von Succession War, die Gesamtleistung jedes Modells bei Verwendung als Agent-Core
△Die Auswirkung des Entfernens verschiedener Komponenten in Agent und Simulation auf die Entropie
Experimentelle Ergebnisse
Code-Link: //m.sbmmt.com/link/12ae3f8 26bb 1b9873c71c353f3df494c
Das obige ist der detaillierte Inhalt vonXiaohongshu brachte die intelligenten Agenten zum Streit! Gemeinsam mit der Fudan-Universität gestartet, um ein exklusives Gruppenchat-Tool für große Models zu starten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!