ACL 2024 | Dans l'évaluation mathématique de 25 modèles open source et fermés, GPT-3.5-Turbo a à peine réussi-IA-php.cn

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

L'auteur de cet article est de l'Université de Hong Kong et de Tencent. Liste des auteurs : Li Qintong, Leyang Cui, Zhao Xueliang, Kong Lingpeng, Wei Bi. Parmi eux, le premier auteur, Li Qintong, est doctorant au Laboratoire de traitement du langage naturel de l'Université de Hong Kong. Ses intérêts de recherche portent sur la génération de langage naturel et le raisonnement textuel. Lui et le doctorant Zhao Xueliang sont sous la tutelle du professeur Kong Lingpeng. . Leyang Cui et Wei Bi sont chercheurs principaux chez Tencent.

Avant-propos

L'extraordinaire capacité des grands modèles de langage (LLM) à résoudre des problèmes est de plus en plus évidente. Récemment, un phénomène digne d’attention est que ces modèles ont obtenu des résultats étonnants dans plusieurs tests de référence de raisonnement mathématique. En prenant GPT-4 comme exemple, il a obtenu de bons résultats dans l'ensemble de tests difficiles de questions d'application à l'école primaire GSM8K [1], avec un taux de précision de plus de 90 %. Dans le même temps, de nombreux modèles open source ont également montré des performances impressionnantes, avec des taux de précision dépassant 80 %.

Cependant, à l'usage, nous constatons souvent que lorsque les problèmes mathématiques sont légèrement modifiés, les LLM peuvent comporter des erreurs de bas niveau, comme le montre la figure suivante :

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

^{Figure 1 : GPT- 3.5-Turbo Un problème mathématique a été résolu correctement (à gauche), mais lorsqu'une contrainte a été ajoutée au problème d'origine (à droite), Turbo a abusé d'un opérateur et a fait une erreur car il ne différenciait pas correctement les directions "sortie" et "retour". .}

Nous ne pouvons nous empêcher de nous demander : les grands modèles de langage saisissent-ils vraiment l’essence de la connaissance mathématique ? Comment font-ils pour obtenir des résultats aussi élevés à ces tests ? S’agit-il simplement d’imiter des schémas de raisonnement superficiels dans de grandes quantités de données d’entraînement ? La question de savoir si les LLM comprennent réellement les concepts mathématiques reste une question qui mérite d'être explorée.

Pour explorer cette problématique, l'auteur de cet article a conçu un benchmark d'évaluation GSM-Plus. Ce test est conçu pour effectuer 8 transformations mathématiques fines différentes sur un problème afin d'évaluer systématiquement la capacité des LLM actuels à gérer des problèmes de mots mathématiques de base. Dans ce nouveau benchmark, l'article évalue rigoureusement 25 LLM différents, y compris les modèles open source et fermé du secteur.

Les résultats expérimentaux montrent que GSM-Plus est une référence difficile pour la plupart des LLM. Même sur GSM8K, GPT-3.5-Turbo a pu atteindre une précision de 73,62 %, mais il ne peut atteindre qu'une précision de 61,19 % sur GSM-Plus. Ce travail a été accepté par l'ACL2024 avec des notes de 4, 4 et 4,5.

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

Titre de l'article : GSM-Plus : Un benchmark complet pour évaluer la robustesse des LLM en tant que solutionneurs de problèmes mathématiques
Adresse de l'article : https://arxiv.org/pdf/2402.19255
Page d'accueil de l'article : https : //qtli.github.io/GSM-Plus/

Background

Le raisonnement mathématique est une preuve importante du développement de l'intelligence artificielle. Cela nécessite une compréhension rigoureuse des problèmes, un développement de stratégie et des compétences en exécution informatique. Au cours des dernières années, de nombreux ensembles de données accessibles au public ont été utilisés pour évaluer les capacités de raisonnement mathématique des systèmes d’intelligence artificielle. Les premiers ensembles de données mathématiques se concentraient sur des problèmes mathématiques basés sur des équations. Par la suite, des ensembles de données plus difficiles ont été introduits couvrant les problèmes de mathématiques aux niveaux primaire, secondaire et collégial.

Alors que la difficulté de l'évaluation des données continue d'augmenter, le développement des LLM est également devenu très rapide. Afin d'améliorer les performances des LLM dans le domaine des mathématiques, le réglage fin supervisé (SFT) peut être utilisé pour aider rapidement les LLM à s'adapter au domaine des mathématiques en s'entraînant sur diverses données de tâches. Au stade du raisonnement, les capacités mathématiques des LLM peuvent également être stimulées efficacement grâce à des invites de saisie intelligemment conçues (par exemple, chaîne de pensée et programme de pensée).

Pour la plupart des LLM, il reste encore beaucoup à faire en ce qui concerne les problèmes de mathématiques au lycée et au-delà. Cependant, dans le domaine des mathématiques à l’école primaire, les LLM ont montré un grand potentiel. Cela nous amène à nous demander : Les LLM peuvent-ils toujours maintenir des performances élevées dans des environnements réels ?

Ensemble de données d'évaluation contradictoire GSM-Plus

Cette étude vise à lancer un benchmark complet GSM-Plus pour examiner systématiquement la robustesse des LLM dans la résolution de problèmes mathématiques de base. Inspiré par la taxonomie de la capacité à résoudre des problèmes mathématiques dans les principes de Polya [2], cet article identifie cinq principes directeurs pour construire l'ensemble de données GSM-Plus :

Pour faciliter la compréhension, nous utilisons ici "Janet's The duck lays 16 œufs par jour. Elle mange trois œufs chaque matin et prépare des muffins avec quatre œufs pour ses amis. Elle vend les œufs restants au marché fermier tous les jours pour 2 $ chacun. Combien de dollars gagnez-vous au marché fermier ?

(1) Changement numérique : fait référence à la modification d'une donnée numérique ou de son type. Cet article définit trois sous-catégories :

Substitution numérique : remplacement de valeurs numériques par les mêmes chiffres et. types, tels que Remplacer « 16 » par « 20 » dans la question.
Extension de chiffres : augmentez le nombre de chiffres dans une valeur, par exemple, remplacez "16" par "1600".
Conversion Entier - Décimal - Fraction : remplacez les entiers par des décimales ou des fractions, par exemple convertissez "2" en "2,5".

(2) Modifications arithmétiques : fait référence à l'introduction d'opérations supplémentaires ou d'inversions dans des problèmes mathématiques, mais uniquement limitées aux opérations d'addition, de soustraction, de multiplication et de division :

Opération expansion : ajoutez des restrictions au problème d'origine. Par exemple, ajoutez une nouvelle condition « Elle utilise également deux œufs pour fabriquer des masques capillaires faits maison chaque jour. »
Inversion d'opération : convertissez une condition connue du problème d'origine en variables à résoudre pour le problème de la variante GSM-Plus. Par exemple, l'énoncé de la question originale de la figure 2 « 2 dollars américains par œuf de canard » est converti en la phrase interrogative de la nouvelle question « Quel est le prix de chaque œuf de canard ? », tandis que la phrase interrogative de la question originale "Combien de dollars gagnez-vous au marché fermier chaque jour ?" est converti en Conditions connues pour le nouveau problème "Elle gagne 18 $ par jour au marché fermier"

(3) Compréhension du problème : Fait référence à la reformulation du problème mathématique avec différents mots et phrases sans en changer le sens, comme " Janet élève un troupeau de canards qui pondent 16 œufs de cane chaque jour. Elle consomme trois œufs de cane au petit-déjeuner, puis consomme quatre œufs de cane pour cuire des muffins pour ses amis. Janet vend des œufs de canard frais au marché fermier pour 2 $ chacun. Vendez tous les œufs de canard restants au prix. Combien d'argent gagne-t-elle chaque jour en vendant des œufs de canard au marché fermier ?

(4) Insertion d'interférences
: fait référence à l'insertion de phrases liées au sujet et contenant des valeurs numériques mais inutiles pour la résolution. Allez à la question d'origine, telle que "Janet veut aussi utiliser deux œufs de canard pour la nourrir perroquet de compagnie. Heureusement, sa voisine lui donne chaque jour deux œufs de cane pour nourrir le perroquet.

(5) Pensée critique
: se concentre sur la capacité des LLM à poser des questions ou à douter lorsque les problèmes de mathématiques manquent des conditions nécessaires, telles que "Les canards de Janet pondent des œufs tous les jours. Elle mange trois œufs chaque matin en guise de Elle prépare quatre œufs pour le petit-déjeuner et prépare chaque jour des gaufres pour ses amis. Elle vend les œufs restants au marché fermier tous les jours pour 2 $ chacun.Combien de dollars gagne-t-elle chaque jour au marché de producteurs ? ”.

Basé sur 1 319 questions de test de GSM8K, cet article crée huit variantes pour chaque question, ce qui donne un ensemble de données GSM-Plus contenant 10 552 variantes de questions (cet article fournit également un ensemble de données GSM-Plus contenant 2 400 A sous-ensemble de test de variantes de problèmes pour une évaluation rapide). En testant les LLM en utilisant chaque problème et ses huit variantes, GSM-Plus peut aider les chercheurs à évaluer de manière globale la robustesse des LLM dans la résolution de problèmes mathématiques. de 8 perturbations pour générer des variantes de problèmes de différentes échelles, différentes méthodes de pré-formation, différents réglages de tâches et une combinaison de 4 technologies d'incitation couramment utilisées. Cet article révèle que les LLM peuvent résoudre avec précision le problème GSM8K dans son ensemble. mais rencontrera des problèmes évidents en répondant à des questions variables dans GSM-Plus Difficulté. Les principales conclusions sont les suivantes :

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

^{L'optimisation spécifique à une tâche, c'est-à-dire le réglage fin des ensembles de données mathématiquement pertinents, peut souvent s'améliorer en aval. précision des tâches ; tandis que le niveau de robustesse dépend davantage du modèle sous-jacent et Affiner la sélection des ensembles de données}

Les performances des LLM se dégradent rapidement lorsqu'une « pensée critique » est requise, des « changements arithmétiques » et « l'insertion de distractions ». " sont impliqués ; mais pour les "changements numériques" et la "compréhension du problème". Les performances de la perturbation, les LLM sont relativement stables.

Les techniques d'invite précédentes (par exemple, CoT, PoT, LtM et CoT basé sur la complexité) n'ont pas d'effet significatif sur l'amélioration de la robustesse, en particulier pour les « changements arithmétiques » et la « pensée critique ». Sur la base de travaux antérieurs, cet article explore plus en détail une méthode d'invite combinée qui peut améliorer simultanément les performances des LLM sur GSM8K et GSM-Plus en générant et en vérifiant de manière itérative chaque raisonnement. pensée.

Assurance qualité

: Utilisez deux étapes pour générer des questions d'évaluation GSM-Plus. Tout d'abord, utilisez les capacités de réécriture de questions de GPT-4 pour générer des questions. variantes, puis générer des questions pour ces variantes ; pour garantir la qualité des données, toutes les variantes de questions et réponses générées par GPT-4 sont rigoureusement vérifiées par l'équipe d'annotation manuelle. L'équipe d'annotation manuelle a corrigé 18,85 % du GPT-4. problèmes réécrits.
Évaluation fine

: Pour chaque question de test de l'ensemble de données d'évaluation grand public GSM8K, GSM-Plus fournit 8 variantes de questions dans les directions de perturbation, testant pleinement la capacité des grands modèles à résoudre de manière flexible des problèmes d'application mathématique dans différents contextes.

Challenging
: Par rapport au GSM8K, la variante problématique du GSM-Plus est plus difficile et les performances de tous les LLM participant à l'évaluation diminuent considérablement. Dans l'analyse suivante, cet article analysera spécifiquement la robustesse des LLM en matière de résolution de problèmes sous différents types de perturbations.

^{Tableau 1 : Différentes couleurs représentent différents types de perturbations :}^{substitution numérique, expansion des chiffres, conversion de fraction entière-décimale, expansion d'opération, inversion d'opération, Compréhension des problèmes, Insertion des distractions,}^{Pensée critique.}

Comme le montre le tableau ci-dessus, des études antérieures ont utilisé différentes perturbations pour tester la robustesse du raisonnement mathématique, mais les paramètres d'évaluation ne couvrent que certains types de perturbations, et la plupart d'entre elles introduisent des perturbations via la construction automatique de méthodes, qualité Difficile à garantir. En revanche, GSM-Plus utilise huit compétences de raisonnement mathématique différentes pour résoudre un seul problème, avec une couverture plus complète et un contrôle qualité strict.

Analyse expérimentale

Metriques d'évaluation
- Taux de réduction des performances (PDR) : problème par rapport au degré de chute du problème d'origine.
- Pourcentage de paires de problèmes résolus simultanément (ASP) : La proportion du problème d'origine et de sa variante de problème correspondante qui reçoivent tous deux une réponse correcte par les LLM.
Performance globale

Comme le montre le tableau ci-dessous, les performances de la plupart des LLM sur GSM-Plus diminuent considérablement par rapport à GSM8K.

GPT-4 présente la robustesse la plus élevée, avec le plus petit PDR de seulement 8,23 %. CodeLlama possède le plus grand PDR, parmi lequel les modèles 7B, 13B et 34B représentent respectivement 40,56 %, 39,71 % et 34,27 %, dépassant son modèle de base LLaMA-2-7B (39,49 %), ainsi que le modèle mathématique SFT affiné. dessus, comme SEGO-7B (34,91%). Cela montre que le raisonnement utilisant uniquement des langages procéduraux est vulnérable aux perturbations.

Face aux perturbations mathématiques, plus la taille du modèle est grande, plus les performances sont stables. Bien que le réglage fin supervisé puisse améliorer la précision des tâches en aval, il n'améliore pas de manière significative la robustesse du modèle aux perturbations (c'est-à-dire un PDR inférieur). Les données qui supervisent le réglage fin sont importantes pour la robustesse. Il est également affiné sur la base de LLaMA-2 et utilise des données différentes, ce qui entraînera de grandes différences dans la précision et la robustesse du modèle. Tableau 2 : Performance globale Performance des LLM sous perturbation

Cet article évalue en outre les LLM dans 8 types de stabilité des performances sous des variantes de problèmes. Par rapport à la ligne de base humaine pour la pensée critique (violet), l’expansion et l’inversion des opérations (bleu), l’insertion d’un distraction (rose) et la perturbation de la conversion entier-décimal-fraction (orange), les performances des LLM diminuent considérablement. Pour le « remplacement numérique » et la « compréhension des problèmes », les performances des LLM sont stables voire légèrement améliorées.
^{L basé sur l’ensemble des données. Ensuite, cet article divise les deux ensembles de données selon que les questions mathématiques reçoivent une réponse correcte et analyse si lorsque les LLM résolvent avec succès le problème GSM8K, cela signifie que la probabilité de répondre correctement à la question de la variante GSM-Plus devient plus élevée (c'est-à-dire un valeur ASP élevée). Si cette affirmation est vraie, les LLM peuvent être considérés comme fonctionnant de manière stable sur ce sous-ensemble spécifique de problèmes mathématiques, même si ce n'est pas le cas sur l'ensemble des données. Dans la configuration expérimentale, chaque problème GSM8K et sa variante dans GSM-Plus est transformé en 8 paires de problèmes, et les résultats sont présentés dans la figure 4.}

Figure 4 : Transférabilité d'inférence des LLM entre les paires de problèmes GSM8K et GSM-Plus. Les barres violettes (toutes deux correctes) et bleues (toutes deux incorrectes) indiquent un comportement cohérent du modèle, tandis que les barres rouges (GSM8K correct et GSM-Plus incorrect) et jaunes (GSM8K incorrect et GSM-Plus correct) indiquent un comportement incohérent du modèle. La somme des hauteurs des barres violettes et rouges représente le nombre de LLM qui ont correctement résolu le problème GSM8K.

La présence de barres rouges (LLM qui répondent correctement à la question d'origine, mais n'abordent pas la variante), indique que la plupart des modèles ont une transférabilité des performances limitée. Bien que les performances des LLM diffèrent sur le problème GSM8K (hauteur des barres violettes et rouges), la transférabilité des performances est similaire (hauteur des barres rouges). Cela signifie que les références existantes ne peuvent pas évaluer avec précision les véritables capacités d’un modèle en matière de raisonnement mathématique. Une grande précision n’est pas synonyme d’une forte robustesse d’inférence.

^{Les indices contribuent à la robustesse des performances des LLM}

Des travaux antérieurs ont montré que de bonnes instructions d'indices sont importantes pour stimuler les capacités mathématiques des modèles de langage. Cet article sélectionne 4 modèles représentatifs et teste leurs performances dans la résolution de problèmes sous différentes instructions rapides. Comme le montre la figure ci-dessous, face à des interférences, les LLM fonctionnent de manière plus stable lorsqu'ils utilisent des exemples complexes comme démonstrations contextuelles (CoT basé sur la complexité, en revanche, en utilisant uniquement le langage de programme pour représenter un raisonnement intermédiaire (Program-of-Thought), LLM ; sont plus sensibles aux interférences. Dans l’ensemble, ces trucs et astuces ne suffisent pas aux LLM pour conserver les mêmes performances que le GSM8K sur GSM-Plus. L Figure 5 : L'impact de l'invite sur la robustesse des performances du LLMS

L'invite combinée est-elle valide ?

Comment améliorer la robustesse des LLM basés sur les méthodes d'indices existantes ?
Cet article a révélé que les LLM ignorent souvent des conditions importantes ou commettent des erreurs de calcul pendant le processus de résolution de problèmes. À cette fin, cet article explore Comp, une méthode d'invite combinée. La méthode invite d'abord les LLM à extraire les conditions nécessaires numériquement pertinentes dans le problème (Prompt1). Ensuite, en fonction du problème et des conditions critiques, les LLM doivent générer de manière itérative des objectifs d'inférence (Prompt2) et des objectifs de calcul (Prompt3), et les laisser fournir des commentaires sur les étapes historiques de résolution de problèmes générées pour déterminer si la réponse finale est obtenue ( Invite4). La mise en œuvre spécifique est illustrée à la figure 6.

L'écart de performance entre les LLM sur Les ensembles de tests standard et les ensembles de tests contradictoires ne peuvent pas être ponté. Cette recherche attend avec impatience d’autres méthodes à l’avenir pour améliorer encore la robustesse du modèle et promouvoir le développement ultérieur des LLM dans le domaine du raisonnement mathématique.

Tabelle 3: Leistung von Competeration-Eingabeaufforderungen Plus zum Umschreiben von Fragen unter verschiedenen Eingabeaufforderungstechniken. Leistung von GPT-3.5-Turbo. Während alle Aufforderungen Turbo dazu motivierten, die GSM8K-Fragen genau zu beantworten, konnte nur Comp Turbo dabei helfen, korrekte Antworten auf die Fragen zur GSM-Plus-Variante zu generieren.
Experimentelle Analysen zeigen, dass die Leistung der meisten LLMs im Vergleich zu ihrer Leistung bei Standard-Benchmarks bei Störungen erheblich abnimmt und weit hinter dem menschlichen Leistungsniveau zurückbleibt. Die Forscher hoffen, dass die Arbeit dieses Artikels weitere zukünftige Forschung fördern kann, einschließlich, aber nicht beschränkt auf: (1) systematische Bewertung der mathematischen Fähigkeiten von LLMs; (2) Aufbau von Modellen, die mathematisches Denken flexibel durchführen können.

Referenzlink

[1] Cobbe, Karl, et al. „Schulung von Prüfern zur Lösung mathematischer Textaufgaben.“ com/sota/arithmetic-reasoning-on-gsm8k
[2] George Polya. Wie man es löst: Ein neuer Aspekt der mathematischen Methode, Band 85. Princeton University Press.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!