Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Die ersten Autoren dieses Artikels sind Qian Cheng und He Bingxiang, Studenten der Fakultät für Informatik der Tsinghua-Universität. Beide sind Mitglieder von THUNLP. Qian Chengs Hauptforschungsinteressen sind das Lernen von Werkzeugen und große modellgesteuerte Agenten. Er ist im Begriff, an der UIUC zu promovieren. He Bingxiangs Hauptforschungsinteressen sind die Ausrichtung und Sicherheit großer Modelle und er wird demnächst an der Tsinghua-Universität promovieren. Die entsprechenden Autoren dieses Artikels sind Cong Xin und Lin Yankai, und der Betreuer ist außerordentlicher Professor Liu Zhiyuan.
Heutzutage, mit der rasanten Entwicklung der künstlichen Intelligenz, erforschen wir ständig die Intelligenz von Maschinen, aber wir ignorieren oft, wie tief diese intelligenten Agenten uns – ihre Schöpfer – verstehen. Jede Interaktion, jedes Wort, jede Handlung, die wir Menschen im Leben ausführen, ist voller Absichten und Emotionen. Die eigentliche Herausforderung besteht jedoch darin, wie der Agent diese impliziten Absichten erfasst, analysiert und darauf reagiert. Herkömmliche intelligente Agenten reagieren schnell auf explizite Befehle, verstehen jedoch komplexe implizite menschliche Absichten oft nicht.
In den letzten Jahren haben Sprachmodelle wie GPT und LLaMA erstaunliche Fähigkeiten bei der Lösung komplexer Aufgaben bewiesen. Obwohl die Agenten mit ihnen als Kern gut darin sind, Strategien zu formulieren und Aufgaben auszuführen, berücksichtigen sie selten robuste Benutzerinteraktionsstrategien. Die von Benutzern gestellten Aufgaben sind in der Regel vage und kurz, was vom Agenten erfordert, dass er nicht nur unsere wörtlichen Anforderungen versteht, sondern auch unsere impliziten Absichten durchschaut.
Damit eine neue Generation intelligenter Agenten von der Öffentlichkeit implementiert und genutzt werden kann, muss sie daher auf den Menschen ausgerichtet sein und sich nicht nur auf die Genauigkeit der Aufgabenausführung konzentrieren, sondern auch darauf, wie eine natürlichere Vorgehensweise geschaffen werden kann , reibungslose und fruchtbare Beziehung zu Menschen.
Um diesen Mangel auszugleichen, hat ein gemeinsames Team der Tsinghua-Universität, der Renmin-Universität und Tencent kürzlich einen „neuen intelligenten Agenten-Interaktionsdesignplan“ vorgeschlagen. Diese Arbeit stellt zunächst Intention-in-Interaction (IN3) vor, einen neuen Benchmark, der darauf abzielt, die impliziten Absichten von Benutzern durch explizite Interaktionen mit Benutzern zu verstehen.
Mit Mistral-7B als Rahmenwerk und basierend auf IN3-Schulungen kann Mistral-Interact die Mehrdeutigkeit von Aufgaben proaktiv bewerten, Benutzerabsichten abfragen und sie in umsetzbare Ziele verfeinern, bevor die Ausführung nachgelagerter Agentenaufgaben gestartet wird. Nach der Einbettung des Modells in das XAgent-Framework führt der Artikel eine umfassende Bewertung des vollständig zustandsbehafteten Agentensystems durch.
Die Ergebnisse zeigen, dass diese Lösung eine hervorragende Leistung bei der Identifizierung mehrdeutiger Benutzeraufgaben, der Wiederherstellung und Zusammenfassung wichtiger fehlender Informationen, der Festlegung genauer und notwendiger Ziele für die Agentenausführung und der Reduzierung des Einsatzes redundanter Tools bietet. Diese innovative Methode schließt nicht nur die Lücke in der Interaktion zwischen intelligenten Agenten und Benutzern und stellt den Menschen wirklich in den Mittelpunkt des Designs intelligenter Agenten, sondern bedeutet auch, dass wir dem Ziel, intelligente Agenten zu entwerfen, die besser aufeinander abgestimmt sind, einen Schritt näher kommen mit menschlichen Absichten.
Papiertitel: Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents
-
Papierlink: https://arxiv.org/abs/2402.09205
-
Code-Repository: https ://github.com/HBX-hbx/Mistral-Interact
-
Open-Source-Modell: https://huggingface.co/hbx/Mistral-Interact
-
Open-Source-Datensatz: https://huggingface.co /datasets/hbx/IN3
-
Vergleich von unscharfer Aufgabe und klarer Aufgabenausführung Angesichts der Unvollständigkeit der Bewertungsindikatoren wurde in dieser Arbeit der Intention-in-Interaction (IN3)-Benchmark entwickelt, der darauf abzielt, die interaktiven Fähigkeiten von Agenten durch klare Beurteilung der Aufgabenmehrdeutigkeit und Verständnis der Benutzerabsicht zu bewerten.
IN3 Benchmark-Daten Konstruktionsprozess
Wie in der Abbildung oben gezeigt, ist die auf menschlichem Schreiben basierende Seed-Aufgabe Schritt 1. Das Modell generiert iterativ neue Aufgaben, um den Datensatz zu verbessern, während er Stichproben nimmt den Datensatz als neue Beispiele für die nächste Generierungsrunde (Schritt 2). Nach dieser Self-Instruct-Generierungsmethode werden die Mehrdeutigkeit, fehlende Details jeder Aufgabe, die Wichtigkeit jedes Details und mögliche Optionen manuell mit Anmerkungen versehen (Schritt 3).
Mistral-Interact-Trainingsprozess
Da große Sprachmodelle den Kern des Agentendesigns bilden, wurde in dieser Arbeit zunächst eine Vorstudie durchgeführt, um die implizite Leistung aktueller Open-Source- und Closed-Source-Modelle in der Interaktion zu bewerten Prozess. Fähigkeit zum Verständnis der Formelabsicht.
Konkret wählt der Artikel zufällig zehn Aufgaben aus IN3 aus, wendet sie an, um LLaMA-2-7B-Chat, Mistral-7B-Instruct-v0.2 und GPT-4 zu testen, und gibt an, dass diese Modelle i) die Mehrdeutigkeit bestimmen der Aufgabe, ii) den Benutzer nach fehlenden Details fragen, wenn die Aufgabe nicht eindeutig ist, iii) die detaillierte Benutzeraufgabe zusammenfassen.
Kein Problem. Im Gegensatz dazu kommt GPT-4 der menschlichen Absicht in Bezug auf Aufgabenmehrdeutigkeit und wichtige fehlende Details am nächsten. Gleichzeitig zeigen vorläufige Untersuchungen auch, dass einfaches Prompt Engineering nicht ausreicht, um die Fähigkeit des Agenten, die impliziten Absichten in der Interaktion zu verstehen, weiter zu verbessern. Um das Ziel zu erreichen, ist eine weitere Schulung auf der Grundlage des aktuellen Open-Source-Modells erforderlich Der Grad der Anwendung intelligenter Agenten.
Der Konstruktionsprozess von Schulungsdaten (IN3 -Gesprächsaufzeichnungen)
Unter Bezug Das Gespräch zeichnet mehrere Strategien auf (oranges Kästchen), darunter: die Erstellung einer klaren anfänglichen Argumentationskette, die Erstellung einer Abfrage mit vorgeschlagenen Optionen, die Erstellung verschiedener Benutzerantworttöne und die Erstellung einer klaren Zusammenfassung der Argumentationskette. Diese Dialogkonstruktionsstrategien stimulieren die Abfrage- und Argumentationsfähigkeiten des Zielmodells besser.
Umfassende Bewertung der Agenteninteraktionsfähigkeiten
Die Fähigkeit eines Agenten, implizite Absichten zu verstehen, kann direkt durch Benutzerinteraktion oder indirekt durch die Ausführung nachgelagerter Aufgaben durch den Agenten bewertet werden. Dabei konzentriert sich die Benutzerinteraktion auf das Absichtsverständnis selbst, während sich die Aufgabenausführung auf das ultimative Ziel des Absichtsverständnisses konzentriert, nämlich die Verbesserung der Fähigkeit des Agenten, Aufgaben zu bewältigen.
Um das Design des interaktiven Agenten umfassend zu bewerten, unterteilt der Artikel das Experiment daher in zwei Teile: i)
Anweisungsverständnis: Bewertung der Fähigkeit des Agenten, Absichten während der Benutzerinteraktion zu verstehen; ii)
Anweisungsausführung: Bewerten Sie die Aufgabenausführungsleistung des Agenten nach der Integration des Interaktionsmodells.
Das Verstehen von Anweisungen erfordert keine Agentenausführung in Echtzeit. Daher bewertet der Artikel direkt die Leistung verschiedener Sprachmodelle während des Interaktionsprozesses, um deren Interaktionsfähigkeiten als vorgelagertes Modul im Agentendesign zu bestimmen Zeigen Sie:
Die Anweisungen verstehen die Testergebnisse. Der Pfeil stellt dar, je höher die Punktzahl bzw. je niedriger die Fähigkeit ist, desto besser ist er bei der Beurteilung von Aufgabenmehrdeutigkeiten und der Abdeckung fehlender Details klare und umfassende Zusammenfassungen basierend auf detaillierten Benutzerabsichten. Im Vergleich zu anderen Open-Source-Modellen bietet Mistral-Interact sinnvollere Optionen zum Abfragen fehlender Details in Fuzzy-Aufgaben, die Abfragemethode ist benutzerfreundlicher und die Leistung ist mit GPT-4 vergleichbar.
In Bezug auf die Befehlsausführung integriert der Artikel Mistral-Interact als vorgelagertes Interaktionsmodul in das XAgent-Framework zum Testen, um die Wirksamkeit des impliziten Absichtsverständnisses für die Ausführung von Agentenaufgaben zu bewerten. Unter anderem kann XAgent in Umgebungen wie Netzwerksuche, Codeausführung, Befehlszeile und Dateisystem interagieren.
Quantitative Evaluierungsergebnisse zeigen, dass die Integration von Mistral-Interact hilft: i) das Setzen unnötiger Ziele während des Ausführungsprozesses zu vermeiden , ii) den Ausführungsprozess des Agenten besser an die detaillierten Benutzerabsichten anpassen und iii) unnötige Tool-Aufrufe reduzieren und die Effizienz der Agent-Tool-Nutzung fördern.
Fallanalyse der Agenteninteraktion
Um die Robustheit von Mistral-Interact in verschiedenen Dialogszenarien weiter zu demonstrieren, bietet der Artikel auch drei Fallanalysen im Hinblick auf das Befehlsverständnis.
Interaktion und Benutzer in verschiedenen Szenarien
Fall A zeigt die Auswirkungen verschiedener Benutzertöne und Gesprächsstile auf Mistral-Interact. In dem Artikel wurde festgestellt, dass Mistral-Interact unabhängig davon, ob die Antwort des Benutzers kurz oder ausführlich, enthusiastisch oder kalt war oder sogar Rechtschreibfehler enthielt, in der Lage war, eine angemessene Antwort genau zu verstehen und bereitzustellen, was seine Robustheit unter Beweis stellte.
Im Fall B wurde getestet, ob Mistral-Interact weiterhin Fragen stellen und das Gespräch wieder auf den richtigen Weg bringen kann, wenn der Benutzer eine unkooperative Haltung zeigt. Die Ergebnisse zeigten, dass Benutzer, selbst wenn sie der Frage aus dem Weg gingen, die Konversation dennoch effektiv umleiten konnten.
Im Fall C ist zu beobachten, dass Mistral-Interact zusätzliche vom Benutzer bereitgestellte Informationen in die Zusammenfassung einbeziehen kann, die vom Interaktionsmodell nicht explizit abgefragt werden. Dies zeigt, dass das Modell dennoch in der Lage ist, alle Benutzerabsichten angemessen und umfassend zusammenzufassen, wenn die Abfrage des Modells fehlende Details nicht vollständig abdecken kann oder der Benutzer spezifische Anforderungen hat, was es benutzerfreundlicher macht.
Um die Rolle von Mistral-Interact bei der Befehlsausführung deutlicher zu veranschaulichen, wird in der folgenden Abbildung eine vergleichende Fallstudie bereitgestellt.
Der hellrote Textkann gefunden werden, wenn das Ziel des Benutzers unscharf ist. Laut dem mitlila
markierten Text kann festgestellt werden, dass XAgent häufig einige unnötige Unteraufgaben festlegt. Dies liegt daran, dass die Aufgabe des Benutzers zu vage ist, um sie auszuführen, und der Agent dazu neigt, unnötige Details zu fabrizieren, was nicht mit der wahren Absicht des Benutzers vereinbar ist.
Im Gegensatz dazu ermöglichen klare Aufgabenziele XAgent, nach aktiver Interaktion mit Mistral-Interact spezifischere Teilaufgaben zu formulieren. Der in der Abbildung mitgrün
markierte Text verdeutlicht diese Konsistenz. Gleichzeitig wird der Agentenausführungsprozess einfacher und die Anzahl der Toolaufrufe reduziert. All dies spiegelt einen effizienteren Agentenausführungsprozess wider.
Wir stehen an einem neuen Ausgangspunkt und sind bereit, Zeuge eines neuen Kapitels der Mensch-Maschine-Zusammenarbeit, des gegenseitigen Verständnisses und des Lernens zu werden. Intelligente Agenten werden bald keine kalten Informationsverarbeiter mehr sein, sondern einfühlsame Partner, die in der Lage sind, unsere Bedürfnisse und Wünsche tiefgreifend zu verstehen, die durch subtile interaktive Erfahrungen zunächst möglicherweise nicht klar zum Ausdruck gebracht werden. Diese Revolution im menschenzentrierten Design intelligenter Agenten wird unendliche Möglichkeiten der Interaktion offenbaren und intelligente Agenten zu einem wirklich unverzichtbaren Helfer in unserem Leben machen.
Das obige ist der detaillierte Inhalt vonOpen- und Closed-Source-Modell „Chaos': Mal sehen, welcher Agent die wahren Absichten der Menschen am besten erkennen kann. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!