Wenn Sie mehr über AIGC erfahren möchten, besuchen Sie bitte:
51CTO AI scheint jeden Tag neue Bewertungen von (generativen) Systemen zu veröffentlichen, und viele davon konzentrieren sich auf die Abrufphase des Frameworks fraglich. Allerdings kann der generative Aspekt – wie das Modell diese abgerufenen Informationen synthetisiert und ausdrückt – in der Praxis ebenso wichtig sein. Viele praktische Anwendungsfälle beweisen, dass das System nicht nur Daten aus dem Kontext zurückgeben, sondern diese Informationen auch in eine komplexere Antwort umwandeln muss.
Zu diesem Zweck haben wir mehrere Experimente durchgeführt, um die Erzeugungsfähigkeiten von drei Modellen zu bewerten und zu vergleichen: GPT-4, Claude 2.1 und Claude 3 Opus. In diesem Artikel werden unsere Forschungsmethoden, Ergebnisse und Nuancen dieser Modelle, auf die wir unterwegs gestoßen sind, detailliert beschrieben und erläutert, warum diese für diejenigen wichtig sind, die mit generativer KI arbeiten.
Zusätzliche Hinweise
Obwohl erste Ergebnisse darauf hindeuteten, dass Claude GPT-4 übertraf, zeigten spätere Tests, dass GPT-4 mit dem Aufkommen strategischer Prompt-Engineering-Techniken eine breitere Palette von Bewertungsleistungen übertraf. Kurz gesagt, es gibt immer noch viele Probleme im Modellverhalten und in der prompten Technik, die dem RAG-System innewohnen. Die Leistung von GPT-4 wird erheblich (mehr als doppelt so hoch) verbessert, indem einfach „Bitte erklären Sie sich selbst und beantworten Sie dann die Frage“ zur Eingabeaufforderungsvorlage hinzugefügt wird. Es ist klar, dass die Antwort von LLM dabei zu helfen scheint, die Idee weiterzuentwickeln. Durch Interpretation ist es dem Modell möglich, die richtige Antwort im Einbettungs-/Aufmerksamkeitsraum erneut auszuführen. „Wichtigkeit der Rag-Phase und Generation“ Phase, die diese Rohdaten erhält und sie in kohärente, aussagekräftige und kontextbezogene Antworten umwandelt. Die Aufgabe des Generierungsschritts besteht darin, die abgerufenen Informationen zu synthetisieren, die Lücken zu schließen und sie auf eine Weise darzustellen, die leicht verständlich und für die Benutzeranfrage relevant ist. Die Aufgabe des Generierungsschritts besteht darin, die abgerufenen Informationen zu synthetisieren, die Lücken zu schließen und sie auf eine Weise darzustellen, die leicht verständlich und für die Benutzeranfrage relevant ist. In der Generierungsphase werden leere Informationen ausgefüllt, um eine vollständige und verständliche Interpretation der relevanten Informationen zu erreichen. Gleichzeitig können Benutzer bei Bedarf relevante Informationen abfragen. Durch die Verarbeitung in der Generierungsphase wird durch das Ausfüllen der leeren Informationen das endgültige generierte Ergebnis vollständiger und leichter verständlich. Dies bietet eine Möglichkeit, relevante Informationen zu verstehen und abzufragen und hilft Benutzern, tiefer zu forschen und zu recherchieren. In vielen realen Anwendungen liegt der Wert von RAG-Systemen nicht nur in ihrer Fähigkeit, bestimmte Fakten oder Informationen zu lokalisieren, sondern auch in ihrer Fähigkeit, Informationen in einen breiteren Rahmen zu integrieren und zu kontextualisieren. Die Generierungsphase ermöglicht es RAG-Systemen, über das einfache Abrufen von Fakten hinauszugehen und wirklich intelligente und adaptive Antworten bereitzustellen.Die letzte Ziffer zu isolieren und um 1 zu erhöhen
Basierend auf dem Ergebnis einen Monat für unsere Datumszeichenfolge zu generieren Zufallszahl Nr. 2 abzurufen Generieren Datum aus Zufallszahl 2 Datum der ZeichenfolgeDie Figuren sind unterschiedlich lang und unterschiedlich tief im Kontext platziert. Das Modell hatte zunächst Schwierigkeiten, diese Aufgabe zu bewältigen.
Abbildung 3: Ersttest der gezielten Eingabeaufforderungsergebnisse
Die Leistung des GPT-4-Modells verbesserte sich deutlich und erzielte in nachfolgenden Tests perfekte Ergebnisse. Auch die Ergebnisse des Claude-Modells verbesserten sich.
Dieses Experiment verdeutlicht nicht nur Unterschiede in der Art und Weise, wie Sprachmodelle Generierungsaufgaben bewältigen, sondern demonstriert auch die möglichen Auswirkungen der Hint-Engineering auf ihre Leistung. Claudes Stärke scheint die Ausführlichkeit zu sein, die sich als reproduzierbare Strategie für GPT-4 herausstellt, was darauf hindeutet, dass die Art und Weise, wie ein Modell Schlussfolgerungen verarbeitet und präsentiert, seine Genauigkeit bei Generierungsaufgaben erheblich beeinflussen kann. Insgesamt spielte in all unseren Experimenten auch der scheinbar kleine Satz „Erklären Sie sich“ eine Rolle bei der Verbesserung der Leistung des Modells. Weitere Tests und Ergebnisse : Kombinieren Sie Textfragmente zu zusammenhängenden Zeichenfolgen, um die grundlegenden Textmanipulationsfähigkeiten Ihres Modells zu testen.
Datumszuordnung: Die Konvertierung numerischer Darstellungen in Monatsnamen und Tage erfordert hybrides Abrufen und Kontextverständnis.
Modulare Operationen: Führen Sie komplexe Zahlenoperationen durch, um die mathematischen Generierungsfähigkeiten des Modells zu testen.Wie erwartet zeigte jedes Modell eine starke Leistung bei der String-Verkettung, was auch das bisherige Verständnis bestätigt, dass Textmanipulation eine grundlegende Stärke von Sprachmodellen ist.
Abbildung 6: Offizielle Testergebnisse von der Haystack-Website
Obwohl in einer Testgeneration hervorragende Ergebnisse erzielt wurden, sank die Genauigkeit von Claude 3 in einem reinen Retrieval-Experiment. Theoretisch sollte es auch einfacher sein, Zahlen einfach abzurufen als sie zu manipulieren – was den Leistungsabfall überraschend macht und einen Bereich darstellt, den wir weiter testen möchten. Wenn überhaupt, bestätigt dieser kontraintuitive Rückgang nur noch mehr die Idee, dass sowohl der Abruf als auch die Generierung bei der Entwicklung mit RAG getestet werden sollten.
FazitBeim Testen verschiedener Generierungsaufgaben haben wir festgestellt, dass beide Modelle, Claude und GPT-4, zwar bei trivialen Aufgaben wie der String-Manipulation gut sind, in komplexeren Szenarien jedoch ihre Stärken und Schwächen offensichtlich werden (https:// arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/). LLM ist immer noch nicht sehr gut in Mathematik! Ein weiteres wichtiges Ergebnis ist, dass die Einführung von „selbsterklärenden“ Hinweisen die Leistung von GPT-4 erheblich verbessert und die Bedeutung der Art und Weise, wie das Modell angedeutet und seine Argumentation verdeutlicht werden kann, um genaue Ergebnisse zu erzielen, unterstreicht Ergebnisse. Diese Ergebnisse haben umfassendere Auswirkungen auf die Bewertung von LLM. Beim Vergleich von Modellen wie dem detaillierten Claude und dem anfangs weniger detaillierten GPT-4 wird deutlich, dass die RAG-Bewertungskriterien (https://arize.com/blog-course/rag-evaluation/) über die bisherige Betonung von nur hinausgehen müssen Das ist richtiger Sex. Die Ausführlichkeit von Modellantworten führt eine Variable ein, die ihre wahrgenommene Leistung erheblich beeinflussen kann. Diese Nuance könnte darauf hindeuten, dass zukünftige Modellbewertungen die durchschnittliche Antwortlänge als nennenswerten Faktor berücksichtigen sollten, um die Fähigkeiten des Modells besser zu verstehen und einen faireren Vergleich zu gewährleisten.Einführung in den Übersetzer
Zhu Xianzhong, 51CTO-Community-Redakteur, 51CTO-Expertenblogger, Dozent, Computerlehrer an einer Universität in Weifang und ein Veteran in der freiberuflichen Programmierbranche.
Originaltitel: Tips for Getting the Generation Part Right in Retrieval Augmented Generation, Autor: Aparna Dhinakaran
nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented -generation-7deaa26f28dc.
Um mehr über AIGC zu erfahren, besuchen Sie bitte:51CTO AI.x Community
https://www.51cto.com/aigc/
Das obige ist der detaillierte Inhalt vonGeneratives KI-Modell großer PK – GPT-4, Claude 2.1 und Claude 3.0 Opus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!