Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Der Erstautor und der korrespondierende Autor dieses Artikels stammen beide vom Shanghai Algorithm Innovation Research Institute. Unter ihnen ist der korrespondierende Autor Dr. Li Zhiyu, der sein Studium an der Informatikabteilung der Renmin-Universität in China abgeschlossen hat und an der Implementierung und Forschung von Algorithmen in Internetunternehmen wie Alibaba und Xiaohongshu beteiligt war. Er war an Projekten beteiligt, die Hunderte von Milliarden Produkten umfassten Wissenskarte, Benutzerkarte und öffentliche Meinungskarte. Insgesamt wurden mehr als 40 Artikel veröffentlicht. Li Zhiyu ist derzeit für die gesamte Technologieforschung und -entwicklung in der großen Modellabteilung des Shanghai Algorithm Innovation Research Institute (unter der Leitung von Dr. Xiong Feiyu) verantwortlich. Homepage des Instituts: https://www.iaar.ac.cn/Die rasante Entwicklung großer Sprachmodelle (LLM) hat hitzige Diskussionen darüber ausgelöst, wie ihre Fairness und Zuverlässigkeit bewertet werden können. Obwohl bestehende Bewertungsrahmen wie OpenCompass, LM Eval Harness und UltraEval sowie verschiedene Benchmarks den Branchenfortschritt vorantreiben, gibt es nur wenige Teams, die sich auf die Messung der Glaubwürdigkeit oder Zuverlässigkeit der Kernkomponenten dieser Bewertungsrahmen konzentrieren. Kürzlich veröffentlichte ein Forschungsteam des Shanghai Algorithm Innovation Research Institute und der Renmin University of China einen Artikel mit dem Titel „xFinder: Robust and Pinpoint Answer Extraction for Large Language Models“. Dieses Papier bietet eine eingehende Analyse des Gesamtprozesses des LLM-Bewertungsrahmens und konzentriert sich auf die Bewertung der Zuverlässigkeit und Konsistenz der Antwortextraktorkomponente bei der Bewertung großer Modelle.
-
https://arxiv.org/abs/2405.11874
-
https://github.com/IAAR-Shanghai/xFinder
- https://huggingface.co/collections/IAAR-Shanghai/xfinder-664b7b21e94e9a93f25a8412
Das aktuelle Bewertungsframework basiert hauptsächlich auf regulären Ausdrücken (RegEx), um Antworten zu extrahieren, es gibt jedoch offensichtliche Probleme damit dieser Methodenfehler. Die Ergebnisse der manuellen Überprüfung zeigen, dass die beste Extraktionsgenauigkeitsrate nur 74,38 % beträgt und die Bewertungsergebnisse äußerst unzuverlässig sind. Darüber hinaus kann die RegEx-Methode leicht absichtlich oder unabsichtlich angepasst werden, was die Möglichkeit des „Schummelns“ erhöht und somit die Zuverlässigkeit und Konsistenz der Bewertungsergebnisse beeinträchtigt. Die folgende Abbildung zeigt den Fehler bei der RegEx-Komponentenextraktion im LLM-Bewertungsframework. Um dieses Problem effektiv zu lösen, hat ein Forschungsteam des Shanghai Algorithm Innovation Research Institute und der Renmin University of China ein neues Modell namens xFinder entwickelt, um wichtige Antworten genauer zu extrahieren. xFinder bietet die folgenden Vorteile: (1) Es erfordert keine Antwortausgabe in einem bestimmten Format, verfügt über eine hohe Robustheit der Antwortextraktion und die Extraktionsgenauigkeit beträgt bis zu 95,18 %, was erheblich ist besser als die derzeit besten LLM-RegEx-Methoden im Bewertungsframework. (2) Unterstützt verschiedene Fragetypen, kann Buchstaben-Multiple-Choice-Fragen automatisch in Quizfragen umwandeln und unterstützt die gemischte Bewertung verschiedener Fragetypen, wodurch die Wahrscheinlichkeit verringert wird, dass Tester den Fragetyp anpassen. Einführung in die MethodeDer Implementierungsprozess von xFinder umfasst hauptsächlich die Generierung von LLM-Antwortinhalten, die Annotation von KAF-Datensätzen und das Training von xFinder. Um ein effektives Training des xFinder-Modells zu erreichen, erstellte das Team einen speziellen Datensatz – den Key Answer Finder (KAF)-Datensatz. Der Datensatz enthält 26.900 Trainingsbeispiele, 4.961 Testbeispiele und 4.482 Generalisierungsbeispiele, die eine Vielzahl von Bewertungsaufgaben abdecken.响 Das große Sprachmodell reagiert auf die Generierung von Zunächst wählte das Forschungsteam mehrere typische Bewertungsaufgabendatensätze aus dem vorhandenen Hauptbewertungsbenchmark und -bericht aus. Diese Aufgaben wurden in vier Typen eingeteilt: Buchstabenauswahlaufgabe, kurz Textauswahlaufgabe, Kategoriebeschriftungsaufgabe und Mathematikaufgabe. Dann verwendete das Team verschiedene Serien von LLMs (wie Qwen, InternLM, ChatGLM usw.), um Datenpaare für diese Aufgaben zu generieren. Durch verschiedene LLMs generierte das Team umfangreiche und vielfältige Datenpaare und bot so ausreichende Datenunterstützung für das Training des xFinder-Modells.
Automatische Anmerkung und manuelle Überprüfung
Das Team nutzte eine Strategie, um wichtige Antworten aus LLM-Antworten zu extrahieren und sie als Etiketten zu verwenden, um einen hochwertigen KAF-Datensatz zu erstellen. Um die Annotationseffizienz des Trainingssatzes zu verbessern, führten sie einen halbautomatischen Prozess ein, bei dem GPT-4 verwendet wurde, um über unterschiedliche Eingabeaufforderungen zwei Annotationssätze zu generieren, und nutzten die Selbstkonsistenzstrategie, um Elemente mit inkonsistenten Annotationen usw. herauszufiltern mathematische Fragen und unterzog sie einer manuellen Überprüfung. Um die Gültigkeit und Zuverlässigkeit des Testsatzes und des Generalisierungssatzes sicherzustellen, werden alle Beschriftungen zwei Runden manueller Annotation unterzogen. In Training XFINDER Um die Vielfalt des KAF-Datensatzes und die Generalisierungsfähigkeiten des Modells zu verbessern, hat das Forschungsteam zwei Datenverbesserungsstrategien übernommen:
(1) Simulation LLM-Antwort: 50 % der Buchstabenoptionsfragen im KAF-Trainingsset wurden durch Hinzufügen oder Löschen einer oder zwei Optionen geändert, um die unterschiedlichen Antworten von LLM zu simulieren.
(2) Eingabeaufforderungsformular anreichern: Extrahieren Sie 10 % der LLM-Antworten mit Schlüsselantwortsätzen und ersetzen Sie den Eingabeaufforderungsteil. Ersetzen Sie beispielsweise „Die endgültige Antwort ist A“ durch „Basierend auf dem Kontext der Frage, „A ist die wahrscheinlichste Antwort“. Darüber hinaus nutzte das Team das XTuner-Tool und die QLoRA-Methode zur Feinabstimmung von Basismodellen wie der Llama-Serie, der Qwen-Serie und der Gemma-Serie und erhielt schließlich xFinder.
Experimentelle Ergebnisse
Das Team führte umfangreiche Experimente durch, um die Leistung von xFinder bei verschiedenen Aufgaben zu bewerten und verglich es mit bestehenden RegEx-Methoden. Die Ergebnisse des KAF-Testsatzes Beim KAF-Testsatz erreichte die durchschnittliche Extraktionsgenauigkeitsrate von XFinder-Qwen1505 96,88 %, was deutlich höher ist als die 74,38 % der Regex-Methode im besten Bewertungsrahmen. Konkret beträgt die Extraktionsgenauigkeit von xFinder-qwen1505 97,35 % bei der Aufgabe „Kurztext“ und 98,05 % bei der Aufgabe „Mathe“. %. Diese Ergebnisse zeigen, dass xFinder bei einem breiten Aufgabenspektrum eine gute Leistung erbringt und die Genauigkeit und Zuverlässigkeit der Bewertungen erheblich verbessert.
Ergebnisse zum KAF-Generalisierungssatz
& -qwen1505 zeigte eine hervorragende Leistung mit einer durchschnittlichen Extraktionsgenauigkeit von 93,42 %. Experimentelle Ergebnisse zeigen, dass xFinder nicht nur eine bessere Leistung als andere RegEx-basierte Bewertungsframeworks erbringt, sondern sogar deutlich besser als GPT-4, was seine hohe Robustheit und Generalisierungsfähigkeiten vollständig unter Beweis stellt.
Bewertung in realen Szenarien Das Forschungsteam führte eine umfassende Bewertung von 10 LLMs mit xFinder und herkömmlichen Bewertungsrahmen durch. Die Evaluierungsaufgaben umfassen CommonsenseQA, BoolQ, GSM8K usw. Es wurde eine Reihe von Vergleichsexperimenten durchgeführt, bei denen fünf Antwortextraktionsschemata auf zehn verschiedene LLMs angewendet wurden.Zusammenfassend lassen sich aus den experimentellen Ergebnissen vor allem drei wichtige Erkenntnisse ablesen: (1) Die Rankings desselben Modells unter verschiedenen Frameworks weisen oft große Unterschiede auf, was es schwierig macht, die wahren Fähigkeiten des Modells genau wiederzugeben Modell, das weniger konsistent ist. (2) Verschiedene xFinder zeigten in diesen Experimenten ein hohes Maß an Konsistenz und übertrafen auch andere Bewertungsrahmen bei der Genauigkeit der Antwortenextraktion, was darauf hindeutet, dass xFinder eine zuverlässigere Bewertungsmethode ist. (3) Im Vergleich zu herkömmlichen Buchstabenoptionseinstellungen kann die direkte Verwendung von Optionstext die Konsistenz der Rangfolge erheblich verbessern, was die Instabilität der Buchstabenoptionseinstellungen widerspiegelt. Weitere Details und experimentelle Ergebnisse werden im Anhang vorgestellt, die die Gültigkeit der oben genannten Ergebnisse weiter bestätigen. Im Allgemeinen verbessert xFinder die Genauigkeit und Zuverlässigkeit der LLM-Bewertung durch die Optimierung des Schlüsselantwortextraktionsmoduls. Experimentelle Ergebnisse zeigen, dass xFinder bei einer Vielzahl von Aufgaben eine gute Leistung erbringt und über eine hohe Robustheit und Generalisierungsfähigkeiten verfügt. In Zukunft wird das Forschungsteam xFinder weiter optimieren und andere wichtige Bewertungsthemen untersuchen, um eine solide Grundlage für eine zuverlässige Bewertung der LLM-Leistung zu schaffen. Das obige ist der detaillierte Inhalt vonDie Genauigkeit der Antwortextraktion erreicht 96,88 %, xFinder eliminiert die „Betrugsmentalität' großer Modelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!