Des modèles plus utiles nécessitent une « réflexion étape par étape » plus approfondie plutôt qu'une simple « réflexion étape par étape », ce qui n'est pas suffisant.-IA-php.cn

L'émergence récente de grands modèles de langage (LLM) et de leurs stratégies avancées d'indication signifie que la recherche sur les modèles de langage a fait des progrès significatifs, en particulier dans les tâches classiques de traitement du langage naturel (NLP). Une innovation importante est la technologie d’incitation à la chaîne de pensée (CoT), saluée pour sa capacité à résoudre des problèmes en plusieurs étapes. La technologie CoT suit le raisonnement séquentiel humain et démontre d'excellentes performances dans une variété de défis, notamment les tâches interdomaines, de généralisation à long terme et multilingues. Grâce à son approche de raisonnement logique étape par étape, CoT offre une interprétabilité cruciale dans des scénarios complexes de résolution de problèmes.

Bien que CoT ait fait de grands progrès, la communauté des chercheurs n'est pas encore parvenue à un consensus sur son mécanisme spécifique et pourquoi il fonctionne. Ce manque de connaissances signifie que l’amélioration des performances du CoT reste un territoire inexploré. Actuellement, les essais et erreurs constituent le principal moyen d’explorer les améliorations du CoT, car les chercheurs ne disposent pas d’une méthodologie systématique et ne peuvent s’appuyer que sur des conjectures et des expérimentations. Cependant, cela signifie également qu’il existe d’importantes opportunités de recherche dans ce domaine : développer une compréhension approfondie et structurée du fonctionnement interne des CoT. Atteindre cet objectif permettrait non seulement de démystifier les processus CoT actuels, mais ouvrirait également la voie à une application plus fiable et plus efficace de cette technique dans une variété de tâches complexes de PNL.

Des recherches menées par des chercheurs tels que l'Université Northwestern, l'Université de Liverpool et l'Institut de technologie du New Jersey explorent plus en détail la relation entre la longueur des étapes de raisonnement et l'exactitude des conclusions pour aider les gens à mieux comprendre comment résoudre efficacement le traitement du langage naturel ( PNL). Cette étude explore si l'étape d'inférence est la partie la plus critique de l'invite qui permet au texte ouvert continu (CoT) de fonctionner. Dans l'expérience, les chercheurs ont strictement contrôlé les variables, en particulier lors de l'introduction de nouvelles étapes de raisonnement, afin de garantir qu'aucune connaissance supplémentaire n'était introduite. Dans l'expérience sur échantillon zéro, les chercheurs ont ajusté l'invite initiale de « Veuillez réfléchir étape par étape » à « Veuillez réfléchir étape par étape et essayez de penser à autant d'étapes que possible ». Pour le problème du petit échantillon, les chercheurs ont conçu une expérience qui a étendu les étapes de raisonnement de base tout en gardant constants tous les autres facteurs. Grâce à ces expériences, les chercheurs ont découvert une corrélation entre la durée des étapes de raisonnement et l’exactitude des conclusions. Plus précisément, les participants avaient tendance à fournir des conclusions plus précises lorsque le message leur demandait de réfléchir à plusieurs étapes. Cela montre que lors de la résolution de problèmes de PNL, la précision de la résolution de problèmes peut être améliorée en étendant les étapes de raisonnement. Cette recherche est d'une grande importance pour une compréhension approfondie de la façon dont les problèmes de PNL sont résolus et fournit des conseils utiles pour optimiser et améliorer davantage la technologie NLP.

「think step by step」还不够，让模型「think more steps」更有用

Titre de l'article : L'impact de la longueur des étapes de raisonnement sur les grands modèles de langage
Lien de l'article : https://arxiv.org/pdf/2401.04925.pdf

「think step by step」还不够，让模型「think more steps」更有用

La première série d'expériences de cet article vise à évaluer l'amélioration des performances d'inférence pour les tâches à tir nul et à petit tir utilisant la technologie Auto-CoT dans le cadre de la stratégie ci-dessus. Ensuite, la précision de différentes méthodes à différents nombres d'étapes d'inférence a été évaluée. Par la suite, les chercheurs ont élargi l’objet de recherche et comparé l’efficacité de la stratégie proposée dans cet article sur différents LLM (tels que GPT-3.5 et GPT-4). Les résultats de la recherche montrent que dans une certaine fourchette, il existe une corrélation claire entre la longueur de la chaîne de raisonnement et la capacité du LLM. Il convient de considérer que lorsque les chercheurs introduisent des informations trompeuses dans la chaîne d’inférence, les performances s’améliorent encore. Cela nous amène à une conclusion importante : le facteur clé affectant la performance semble être la longueur de la chaîne de pensée, et non sa précision.

Les principales conclusions de cet article sont les suivantes :

Pour les petits échantillons de CoT, il existe une relation linéaire directe entre le nombre d'étapes d'inférence et la précision. Cela fournit un moyen quantifiable d’optimiser les indices CoT dans une inférence complexe. Plus précisément, l'ajout de l'étape d'inférence dans l'invite améliore considérablement les capacités d'inférence de LLM sur plusieurs ensembles de données. À son tour, le raccourcissement des étapes d'inférence peut affaiblir considérablement les capacités d'inférence du modèle, même lorsque des informations critiques sont conservées.
Même un raisonnement incorrect peut produire des résultats favorables si la longueur de raisonnement nécessaire est maintenue. Par exemple, dans des tâches telles que des problèmes mathématiques, les erreurs dans les nombres intermédiaires générés au cours du processus sont moins susceptibles d'affecter le résultat final.
L'ampleur des avantages liés à l'augmentation des étapes d'inférence est limitée par la tâche elle-même : les tâches plus simples nécessitent moins d'étapes, tandis que les tâches plus complexes bénéficient considérablement de séquences d'inférence plus longues.
L'augmentation de l'étape d'inférence dans le CoT zéro tir peut également améliorer considérablement la précision du LLM.

Méthodes de recherche

Les chercheurs ont utilisé l'analyse pour examiner la relation entre les étapes de raisonnement et les performances des invites CoT. L'hypothèse fondamentale de leur approche est que l'étape de sérialisation est la composante la plus critique des signaux CoT lors de l'inférence. Ces étapes permettent au modèle de langage d'appliquer plus de logique de raisonnement lors de la génération du contenu de réponse. Pour tester cette idée, les chercheurs ont conçu une expérience visant à modifier le processus de raisonnement du CoT en élargissant et en comprimant successivement les étapes de raisonnement de base. Dans le même temps, ils ont maintenu constants tous les autres facteurs. Plus précisément, les chercheurs ont uniquement modifié systématiquement le nombre d’étapes de raisonnement sans introduire de nouveau contenu de raisonnement ni supprimer le contenu de raisonnement existant. Ci-dessous, ils évaluent les signaux CoT à zéro et à quelques tirs. L’ensemble du processus expérimental est illustré à la figure 2. Grâce à cette approche d'analyse à variables contrôlées, les chercheurs ont élucidé comment CoT affecte la capacité de LLM à générer des réponses logiquement solides.

「think step by step」还不够，让模型「think more steps」更有用

Analyse CoT à échantillon zéro

Dans le scénario à échantillon zéro, le chercheur a modifié l'invite initiale de "Veuillez réfléchir étape par étape" à "Veuillez réfléchir étape par étape et essayez de pensez à autant de solutions que possible" étape ". Ce changement a été apporté car contrairement à l'environnement CoT à quelques tirs, les utilisateurs ne peuvent pas introduire d'étapes d'inférence supplémentaires pendant l'utilisation. En modifiant l'invite initiale, les chercheurs ont guidé LLM vers une réflexion plus large. L'importance de cette approche réside dans sa capacité à améliorer la précision du modèle sans nécessiter de formation incrémentielle ou de méthodes d'optimisation supplémentaires basées sur des exemples, typiques des scénarios à quelques tirs. Cette stratégie de raffinement garantit un processus d'inférence plus complet et détaillé, améliorant considérablement les performances du modèle dans des conditions d'échantillon nul.

Analyse CoT sur petits échantillons

Cette section modifiera la chaîne d'inférence dans CoT en ajoutant ou en compressant des étapes d'inférence. L'objectif est d'étudier comment les changements dans la structure du raisonnement affectent les décisions du LLM. Au cours de l’expansion de l’étape d’inférence, les chercheurs doivent éviter d’introduire de nouvelles informations pertinentes pour la tâche. De cette manière, l’étape de raisonnement est devenue la seule variable étudiée.

À cette fin, les chercheurs ont conçu les stratégies de recherche suivantes pour étendre les étapes d'inférence de différentes applications LLM. Les gens ont souvent des schémas fixes dans leur façon de réfléchir aux problèmes, comme répéter le problème encore et encore pour mieux comprendre, créer des équations mathématiques pour réduire la charge de mémoire, analyser le sens des mots dans le problème pour aider à comprendre le sujet, résumer l'état actuel pour simplifier Une description du sujet. En s'inspirant du CoT à échantillon zéro et de l'Auto-CoT, les chercheurs s'attendent à ce que le processus CoT devienne un modèle standardisé et obtienne des résultats corrects en limitant la direction de la réflexion CoT dans la partie invite. Le cœur de cette méthode est de simuler le processus de pensée humaine et de remodeler la chaîne de pensée. Cinq stratégies d'invite courantes sont présentées dans le tableau 6.

「think step by step」还不够，让模型「think more steps」更有用

Word Thinking : Cette stratégie nécessite que le modèle interprète les mots et reconstruise la base de connaissances. Souvent, un mot a plusieurs significations différentes, ce qui a pour effet de permettre au modèle de sortir des sentiers battus et de réinterpréter le mot dans la question en fonction de l'explication générée. Ce processus n’introduit pas de nouvelles informations. Dans l'invite, les chercheurs donnent des exemples de mots auxquels le modèle réfléchit, et le modèle sélectionne automatiquement les mots en fonction de nouvelles questions pour effectuer ce processus.
Rechargement de la question : Lisez la question à plusieurs reprises pour réduire l'interférence d'autres textes sur la chaîne de réflexion. Bref, laissez le modèle se souvenir du problème.
Répéter l'état : Semblable à une lecture répétée, un résumé de l'état actuel est ajouté après une longue série de raisonnements. Le but est d'aider le modèle à simplifier la mémoire et à réduire l'interférence d'autres textes sur CoT.
Auto-vérification : les humains vérifient si leurs réponses sont correctes lorsqu'ils répondent aux questions. Par conséquent, avant que le modèle n’obtienne la réponse, les chercheurs ont ajouté un processus d’auto-vérification pour juger si la réponse est raisonnable sur la base de certaines informations de base.
Préparation d'équations : Pour les problèmes mathématiques, la création d'équations peut aider les humains à résumer et à simplifier la mémoire. Pour certains problèmes nécessitant l’hypothèse de quantités inconnues x, l’établissement d’équations est un processus essentiel. Les chercheurs ont simulé ce processus et ont demandé au modèle d'essayer d'établir des équations dans un problème mathématique.

En général, les stratégies en temps réel décrites dans cet article se reflètent dans le modèle. Ce qui est présenté dans le tableau 1 n'est qu'un exemple, et des exemples des quatre autres stratégies peuvent être consultés dans le document original.

「think step by step」还不够，让模型「think more steps」更有用

Expériences et résultats

La relation entre les étapes d'inférence et la précision

Le tableau 2 compare l'utilisation de GPT-3.5-turbo-1106 sur huit ensembles de données pour trois types de tâches d'inférence .

「think step by step」还不够，让模型「think more steps」更有用

Grâce aux chercheurs ayant pu standardiser le processus de la chaîne de pensée, il est alors possible de quantifier l'amélioration de la précision en ajoutant des étapes au processus de base du CoT. Les résultats de cette expérience peuvent répondre à la question posée précédemment : quelle est la relation entre les étapes d'inférence et les performances du CoT ? Cette expérience est basée sur le modèle GPT-3.5-turbo-1106. Les chercheurs ont découvert qu'un processus CoT efficace, tel que l'ajout de six étapes supplémentaires de processus de réflexion au processus CoT, améliorerait la capacité de raisonnement des grands modèles de langage, et cela se reflète dans tous les ensembles de données. En d’autres termes, les chercheurs ont découvert une certaine relation linéaire entre la précision et la complexité du CoT.

「think step by step」还不够，让模型「think more steps」更有用

Impact des mauvaises réponses

L'étape d'inférence est-elle le seul facteur affectant les performances du LLM ? Les chercheurs ont fait les tentatives suivantes. Remplacez une étape de l'invite par une description incorrecte et voyez si cela affecte la chaîne de pensée. Pour cette expérience, nous avons ajouté une erreur à toutes les invites. Voir le tableau 3 pour des exemples spécifiques.

「think step by step」还不够，让模型「think more steps」更有用

Pour les problèmes de type arithmétique, même si l'un des résultats rapides est biaisé, l'impact sur la chaîne de pensée dans le processus de raisonnement sera minime. Par conséquent, les chercheurs pensent que lors de la résolution de problèmes de type arithmétique, un langage volumineux est utilisé. les modèles sont très importants pour les invites. Il y a plus à apprendre dans la chaîne des modèles mentaux que dans un seul calcul. Pour les problèmes logiques tels que les données sur les pièces de monnaie, un écart dans le résultat rapide entraînera souvent la fragmentation de toute la chaîne de réflexion. Les chercheurs ont également utilisé GPT-3.5-turbo-1106 pour mener à bien cette expérience et ont garanti des performances basées sur le nombre optimal d'étapes pour chaque ensemble de données obtenu lors d'expériences précédentes. Les résultats sont présentés dans la figure 4.

「think step by step」还不够，让模型「think more steps」更有用

Étapes de raisonnement compressées

Des expériences précédentes ont démontré que l'ajout d'étapes d'inférence peut améliorer la précision de l'inférence LLM. Alors, la compression des étapes d'inférence sous-jacentes nuit-elle aux performances de LLM dans les problèmes de petits échantillons ? À cette fin, les chercheurs ont mené une expérience de compression des étapes d'inférence et ont utilisé les techniques décrites dans la configuration expérimentale pour condenser le processus d'inférence en Auto CoT et Few-Shot-CoT afin de réduire le nombre d'étapes d'inférence. Les résultats sont présentés dans la figure 5.

「think step by step」还不够，让模型「think more steps」更有用

Les résultats montrent que les performances du modèle chutent significativement et reviennent à un niveau fondamentalement équivalent à la méthode de l'échantillon zéro. Ce résultat démontre en outre que l’augmentation des étapes d’inférence CoT peut améliorer les performances du CoT et vice versa.

Comparaison des performances de modèles de spécifications différentes

Les chercheurs ont également demandé : pouvons-nous observer le phénomène de mise à l'échelle, c'est-à-dire que les étapes d'inférence requises sont liées à la taille du LLM ? Les chercheurs ont étudié le nombre moyen d'étapes d'inférence utilisées dans divers modèles, notamment text-davinci-002, GPT-3.5-turbo-1106 et GPT-4. Les étapes d'inférence moyennes requises pour que chaque modèle atteigne des performances maximales ont été calculées grâce à des expériences sur GSM8K. Parmi les 8 ensembles de données, cet ensemble de données présente la plus grande différence de performances avec text-davinci-002, GPT-3.5-turbo-1106 et GPT-4. On peut voir que dans le modèle text-davinci-002 avec les pires performances initiales, la stratégie proposée dans cet article a l'effet d'amélioration le plus élevé. Les résultats sont présentés dans la figure 6.

「think step by step」还不够，让模型「think more steps」更有用

Impact des problèmes dans les exemples de travail collaboratif

Quel est l'impact des problèmes sur les capacités de raisonnement LLM ? Les chercheurs voulaient déterminer si la modification du raisonnement du CoT affecterait les performances du CoT. Puisque cet article étudie principalement l’impact de l’étape d’inférence sur les performances, le chercheur doit confirmer que le problème lui-même n’a aucun impact sur les performances. Par conséquent, les chercheurs ont choisi les ensembles de données MultiArith et GSM8K et deux méthodes CoT (auto-CoT et quelques-coups-CoT) pour mener des expériences dans GPT-3.5-turbo-1106. L'approche expérimentale de cet article implique des modifications délibérées des exemples de problèmes dans ces ensembles de données mathématiques, telles que la modification du contenu des questions du tableau 4.

「think step by step」还不够，让模型「think more steps」更有用

Il convient de noter que les observations préliminaires montrent que ces modifications du problème lui-même ont le plus faible impact sur les performances parmi plusieurs facteurs, comme le montre le tableau 5.

「think step by step」还不够，让模型「think more steps」更有用

Cette découverte préliminaire montre que la longueur des étapes du processus de raisonnement est le facteur le plus important affectant la capacité de raisonnement des grands modèles, et que le problème lui-même n'est pas la plus grande influence.

Pour plus de détails, veuillez lire l'article original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!