Le taux de précision de l'extraction des réponses atteint 96,88 %, xFinder élimine la mentalité de « triche

Le taux de précision de l'extraction des réponses atteint 96,88 %, xFinder élimine la mentalité de « triche » des grands modèles

王林

Libérer： 2024-06-19 08:11:50

original

821 Les gens l'ont consulté

Le taux de précision de lextraction des réponses atteint 96,88 %, xFinder élimine la mentalité de « triche » des grands modèles

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Le premier auteur et l'auteur correspondant de cet article sont tous deux du Shanghai Algorithm Innovation Research Institute. Parmi eux, l'auteur correspondant, le Dr Li Zhiyu, est diplômé du département d'informatique de l'Université Renmin de Chine et a été engagé dans la mise en œuvre d'algorithmes et la recherche dans des sociétés Internet telles que Alibaba et Xiaohongshu. Il a participé à des projets comprenant des centaines de milliards de produits. Carte des connaissances, carte des utilisateurs et carte de l'opinion publique. Dans le cadre des travaux de recherche et développement, au total, plus de 40 articles ont été publiés. Li Zhiyu est actuellement responsable de l'ensemble des travaux de recherche et développement technologique au sein du département des grands modèles de l'Institut de recherche sur l'innovation en algorithmique de Shanghai (dirigé par le Dr Xiong Feiyu). Page d'accueil de l'institut : https://www.iaar.ac.cn/

Le développement rapide des grands modèles de langage (LLM) a déclenché des discussions animées sur la manière d'évaluer leur équité et leur fiabilité.

Bien que les cadres d'évaluation existants tels que OpenCompass, LM Eval Harness et UltraEval ainsi que divers benchmarks stimulent les progrès de l'industrie, seules quelques équipes se concentrent sur la mesure de la crédibilité ou de la fiabilité des composants essentiels de ces cadres d'évaluation.

Récemment, l'équipe de recherche de l'Institut de recherche sur l'innovation en algorithmique de Shanghai et de l'Université Renmin de Chine a publié un article intitulé "xFinder : Extraction de réponses robuste et précise pour de grands modèles linguistiques". Cet article fournit une analyse approfondie du processus global du cadre d'évaluation LLM, en se concentrant sur l'évaluation de la fiabilité et de la cohérence du composant extracteur de réponses dans l'évaluation de grands modèles.

Adresse papier :
https://arxiv.org/abs/2405.11874
Lien Github :
https://github.com/IAAR-Shanghai/xFinder
Câlin Lien :
https://huggingface.co/collections/IAAR-Shanghai/xfinder-664b7b21e94e9a93f25a8412

Le cadre d'évaluation actuel repose principalement sur des expressions régulières (RegEx) pour extraire les réponses, mais il existe des problèmes évidents avec ce défaut de méthode. Les résultats de l'examen manuel montrent que le meilleur taux de précision d'extraction n'est que de 74,38 % et que les résultats de l'évaluation sont extrêmement peu fiables.

De plus, la méthode RegEx est facilement adaptée intentionnellement ou non, ce qui augmente la possibilité de « tricher » et affecte ainsi la fiabilité et la cohérence des résultats de l'évaluation. La figure ci-dessous montre l'erreur d'extraction du composant RegEx dans le cadre d'évaluation LLM.

Pour résoudre efficacement ce problème, une équipe de recherche de l'Institut de recherche sur l'innovation en algorithmique de Shanghai et de l'Université Renmin de Chine a développé un nouveau modèle appelé xFinder pour extraire les réponses clés avec plus de précision.

xFinder présente les avantages suivants :

(1) Il ne nécessite pas de sortie de réponse dans un format spécifique, a une forte robustesse d'extraction de réponse et la précision d'extraction atteint 95,18 %, ce qui est significativement mieux que les meilleures méthodes LLM RegEx actuelles dans le cadre d'évaluation.

(2) Prend en charge divers types de questions, peut automatiquement convertir les questions à choix multiples en lettres en questions de quiz et prend en charge l'évaluation mixte de différents types de questions, réduisant ainsi la possibilité pour les testeurs d'adapter le type de question.

Introduction à la méthode

Le processus de mise en œuvre de xFinder comprend principalement la génération de contenu de réponse LLM, l'annotation des ensembles de données KAF et la formation de xFinder. Afin de parvenir à une formation efficace du modèle xFinder, l’équipe a construit un ensemble de données spécialisé : l’ensemble de données Key Answer Finder (KAF). L'ensemble de données contient 26 900 échantillons d'apprentissage, 4 961 échantillons de test et 4 482 échantillons de généralisation, couvrant une variété de tâches d'évaluation.响 Le grand modèle de langage répond pour générer

Tout d'abord, l'équipe de recherche a sélectionné plusieurs ensembles de données de tâches d'évaluation typiques à partir du référentiel d'évaluation principal et du rapport existants. Ces tâches sont classées en quatre types : Tâche de choix de lettre, courte. tâche de choix de texte, tâche d'étiquette de catégorie et tâche mathématique.

Ensuite, l'équipe a utilisé différentes séries de LLM (tels que Qwen, InternLM, ChatGLM, etc.) pour générer des paires de données pour ces tâches. Grâce à divers LLM, l'équipe a généré des paires de données riches et diversifiées, fournissant un support de données suffisant pour la formation du modèle xFinder.

Annotation automatique et révision manuelle

L'équipe a utilisé une stratégie pour extraire les réponses clés des réponses LLM et les utiliser comme étiquettes pour créer un ensemble de données KAF de haute qualité. Afin d'améliorer l'efficacité des annotations de l'ensemble de formation, ils ont adopté un processus semi-automatique, utilisant GPT-4 pour générer deux ensembles d'annotations via différentes invites, et ont utilisé la stratégie d'auto-cohérence pour filtrer les éléments avec des annotations incohérentes et tout questions mathématiques et les soumettait à une révision manuelle. Pour garantir la validité et la fiabilité de l'ensemble de test et de l'ensemble de généralisation, toutes les étiquettes sont soumises à deux séries d'annotations manuelles. En formation XFINDER

Afin d'améliorer la diversité de l'ensemble de données KAF et les capacités de généralisation du modèle, l'équipe de recherche a adopté deux stratégies d'amélioration des données :

(1) réponse LLM de simulation : 50 % des questions à options de lettres de l'ensemble de formation KAF ont été modifiées en ajoutant ou en supprimant une ou deux options pour simuler les diverses réponses du LLM.

(2) Enrichir le formulaire d'invite : Extrayez 10 % des réponses LLM contenant des phrases de réponse clés et remplacez la partie d'invite, par exemple, remplacez "La réponse finale est A" par "En fonction du contexte de la question, A est la réponse la plus probable".

De plus, l'équipe a utilisé l'outil XTuner et la méthode QLoRA pour affiner les modèles de base tels que les séries Llama, Qwen et Gemma, et a finalement obtenu xFinder.

Résultats expérimentaux

L'équipe a mené des expériences approfondies pour évaluer les performances de xFinder sur différentes tâches et les a comparées aux méthodes RegEx existantes. Les résultats sur l'ensemble de test KAF

Sur l'ensemble de test KAF, le taux de précision d'extraction moyen de XFinder-Qwen1505 a atteint 96,88 %, ce qui est nettement supérieur aux 74,38 % de la méthode regex dans le meilleur cadre d'évaluation.

Plus précisément, la précision d'extraction de xFinder-qwen1505 est de 97,35 % dans la tâche d'option de lettre ; de 96,83 % dans la tâche d'option de texte court ; de 98,05 % dans la tâche d'option de classification ; %. Ces résultats montrent que xFinder fonctionne bien dans un large éventail de tâches, améliorant considérablement la précision et la fiabilité des évaluations.

Résultats sur l'ensemble de généralisation KAF

Sur le nouvel ensemble de généralisation KAF (cet ensemble de généralisation utilise différents LLM et génération de tâches de test à partir de l'ensemble de formation et de l'ensemble de test dans l'ensemble de données KAF) Construit à partir d'échantillons), xFinder -qwen1505 a démontré d'excellentes performances, avec une précision d'extraction moyenne de 93,42 %.

Les résultats expérimentaux montrent que xFinder fonctionne non seulement mieux que les autres cadres d'évaluation basés sur RegEx, mais même nettement mieux que GPT-4, démontrant pleinement sa grande robustesse et ses capacités de généralisation.

Évaluation dans des scénarios du monde réel

L'équipe de recherche a mené une évaluation complète de 10 LLM à l'aide de xFinder et de cadres d'évaluation traditionnels. Les tâches d'évaluation couvrent CommonsenseQA, BoolQ, GSM8K, etc. Une série d'expériences comparatives ont été menées en appliquant cinq schémas d'extraction de réponses à 10 LLM différents.

Pour résumer, les résultats expérimentaux révèlent principalement trois résultats clés :

(1) Les classements d'un même modèle dans différents cadres présentent souvent de grandes différences, ce qui est difficile de refléter avec précision les véritables capacités du modèle, montrant moins cohérent.

(2) Différents xFinders ont montré un haut degré de cohérence dans ces expériences et ont également surpassé les autres cadres d'évaluation en termes de précision d'extraction des réponses, indiquant que xFinder est une méthode d'évaluation plus fiable.

(3) Par rapport aux paramètres d'options de lettres traditionnels, l'utilisation directe du texte d'option peut améliorer considérablement la cohérence des classements, reflétant l'instabilité des paramètres d'options de lettres. Plus de détails et de résultats expérimentaux sont présentés en annexe, qui confirment davantage la validité des résultats ci-dessus.

Conclusion

En général, xFinder améliore la précision et la fiabilité de l'évaluation LLM en optimisant le module d'extraction des réponses clés. Les résultats expérimentaux montrent que xFinder fonctionne bien sur une variété de tâches et possède des capacités de robustesse et de généralisation élevées. À l'avenir, l'équipe de recherche continuera à optimiser xFinder et à étudier d'autres questions d'évaluation clés afin de fournir une base solide pour une évaluation fiable des performances du LLM.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Php8, je viens aussi

Apprenez la mise en page d'un site Web en 30 minutes

Tutoriel vidéo Shangguan Oracle débutant à compétent

Votre première ligne de code UNI-APP

Flutter de zéro au lancement de l'application

Brother Lian Nouveau didacticiel vidéo Linux

Tutoriel vidéo AXURE 9 (convient à l'interface utilisateur interactive de conception de produits du chef de produit)

Tutoriel vidéo PS Zero Basic Proficiency

Tutoriel vidéo de 16 jours sur l'interface utilisateur pour vous aider à démarrer

Tutoriel vidéo sur les techniques PS et les techniques de découpage

Tutoriel vidéo sur la construction et le lancement de projets d'Alibaba Cloud Environment

Présentation des réseaux informatiques - Connaissances de base que les programmeurs doivent maîtriser

Tutoriel essentiel pour les programmeurs - Explication du protocole HTTP

Tutoriel vidéo Websocket

Le taux de précision de l'extraction des réponses atteint 96,88 %, xFinder élimine la mentalité de « triche » des grands modèles