Les chercheurs affirment que si la distillation du système 2 peut devenir une caractéristique importante des futurs systèmes d'IA à apprentissage continu, elle peut encore améliorer les performances des tâches d'inférence là où le système 2 fonctionne mal.
En ce qui concerne les stratégies de grands modèles de langage (LLM), il existe généralement deux types, l'un est le système immédiat 1 (réponse rapide) et l'autre est le système 2 (réflexion lente).
Là où le raisonnement du Système 2 favorise la pensée réfléchie, la pensée intermédiaire générative permet au modèle (ou à l'humain) de raisonner et de planifier afin de mener à bien une tâche ou de répondre à des instructions. Dans le raisonnement du Système 2, une activité mentale intense est requise, en particulier dans les situations où le Système 1 (pensée plus automatique) peut mal tourner.
Par conséquent, le système 1 est défini comme une application de Transformer qui peut générer directement des réponses basées sur les entrées sans générer de jetons intermédiaires. Le système 2 est défini comme toute méthode qui génère un jeton intermédiaire, y compris les méthodes qui effectuent une recherche ou plusieurs invites, puis génèrent finalement une réponse.
L'industrie a proposé une série de technologies associées au système 2, notamment la chaîne de pensée, l'arbre de pensée, la carte de pensée, la résolution et la fusion de branches, l'attention, la reformulation et la réponse du système 2 (RaR), etc. De nombreuses méthodes donnent des résultats plus précis grâce à cette inférence explicite, mais cela s'accompagne souvent de coûts d'inférence et d'une latence de réponse plus élevés. Par conséquent, bon nombre de ces méthodes ne sont pas utilisées dans les systèmes de production et sont principalement utilisées dans le système 1.
Pour les humains, le processus d'apprentissage du transfert de compétences de délibéré (Système 2) à automatique (Système 1) est connu en psychologie sous le nom d'automaticité et d'utilisation de la mémoire procédurale. Par exemple, lorsqu’ils se rendent au travail en voiture pour la première fois, les gens consacrent souvent des efforts conscients à planifier et à prendre des décisions pour arriver à destination. Une fois que le conducteur aura répété cet itinéraire, le processus de conduite sera « compilé » dans l'esprit subconscient. De même, des sports comme le tennis peuvent devenir une « seconde nature ».
Dans cet article, des chercheurs de Meta FAIR explorent une approche similaire de modèle d'IA. Cette méthode effectue une compilation de manière non supervisée à partir d'un ensemble d'exemples non étiquetés et est appelée distillation du système 2. Pour chaque exemple, ils appliquent une méthode donnée du Système 2 puis mesurent la qualité des prédictions de manière non supervisée.
Par exemple, pour les tâches avec des réponses uniques, les chercheurs appliquent l'auto-cohérence et échantillonnent plusieurs fois. Pour un exemple suffisamment cohérent du système 2, ils supposent que ce résultat doit être distillé et ajouté au pool de distillation. Le système 1 est ensuite affiné pour correspondre aux prédictions de la méthode du système 2 sur le pool d'exemples collectés, mais sans générer d'étapes intermédiaires. La figure 1 ci-dessous illustre le processus global de distillation du système 2 dans le système 1.
Les chercheurs ont mené des expériences sur 4 méthodes LLM Système 2 différentes et 5 tâches différentes. Il a été constaté que notre méthode peut distiller le raisonnement du Système 2 dans le Système 1 dans une variété de contextes, parfois même mieux que les résultats des enseignants du Système 2. De plus, ces prédictions peuvent désormais être produites pour une fraction du coût de calcul.
Par exemple, ils ont découvert qu'une distillation réussie est applicable aux tâches consistant à traiter des opinions biaisées ou des informations non pertinentes (Attention Système 2), à clarifier et à améliorer les réponses dans certaines tâches de raisonnement (RaR) et à évaluer finement les LLM (branche- Résoudre - fusionner).
Cependant, toutes les tâches ne peuvent pas être distillées dans le système 1, en particulier les tâches de raisonnement mathématique complexes qui nécessitent une chaîne de pensée. Cela se reflète également chez les humains, qui sont incapables d’effectuer certaines tâches sans un raisonnement réfléchi du Système 2.
Adresse papier : https://arxiv.org/pdf/2407.06023v2
Retournez le système 2 au système 1
Configuration : modèles système 1 et système 2
Étant donné une entrée x, les chercheurs ont envisagé de mettre en place un modèle unique, dans leur cas un grand modèle de langage (LLM), capable d'implémenter deux modes de réponse :
Système 1 : générer directement la sortie y. Ce type d'approche fonctionne en transmettant les couches d'un réseau neuronal autorégressif sous-jacent (Transformer) pour générer des jetons de sortie.
Système 2. De telles méthodes utilisent le Transformer sous-jacent pour générer tout type de jeton de sortie intermédiaire z avant de générer le jeton de réponse final, incluant éventuellement plusieurs appels (indices).
Formellement, les chercheurs traitent le modèle S_II du Système 2 comme une fonction qui accepte LLM p_θ et l'entrée x, et peuvent appeler à plusieurs reprises LLM pour générer des marqueurs intermédiaires z à l'aide d'un algorithme spécifique, puis renvoyer la sortie y :
Les méthodes du système 2 peuvent impliquer plusieurs astuces, branches, itérations et recherches, tout en utilisant LLM pour générer des résultats intermédiaires pour un traitement ultérieur. En revanche, le modèle Système 1 ne considère que l'entrée d'origine. L'entrée étiquetée Cependant, ils sont sensibles au bruit : certaines de ces réponses peuvent être de haute qualité, tandis que d’autres peuvent être de mauvaise qualité ou incorrectes. Pour les tâches courtes de réponse à des questions et de raisonnement impliquant des réponses courtes, souvent avec une réponse unique correcte (mais inconnue), les chercheurs ont envisagé une étape de gestion non supervisée pour tenter d'améliorer la qualité des données de formation. Ils ont considéré les deux variantes suivantes qui s'appuient sur le critère d'auto-cohérence :
Auto-cohérence de la sortie : échantillonnez S_II (x^i ; p_θ) un total de N fois et acceptez une réponse majoritaire s'il y en a ; pas de majorité. Si le vote l'emporte, l'exemple est écarté.Auto-cohérence en cas de perturbation d'entrée : perturber l'entrée x^i de manière à ce que la sortie reste inchangée, par exemple en changeant l'ordre des questions à choix multiples dans l'invite et en calculant S_II pour chaque perturbation si la sortie ; est incohérent, rejetez l’exemple.
Ensuite, le chercheur a obtenu l'ensemble de données synthétiques (X_S_II, Y_S_II), où X_S_II est un sous-ensemble filtré de X et la cible est Y_S_II. La dernière étape consiste à utiliser cet ensemble de formation distillé pour effectuer un réglage fin supervisé du LLM avec les paramètres p_θ. Les chercheurs initialisent généralement ce modèle à partir de l’état actuel p_θ, puis poursuivent leur formation avec de nouveaux ensembles de données. Après un réglage fin, ils ont obtenu un LLM
, qui est un modèle du système 1 censé fournir des améliorations de sortie et de performances similaires aux modèles du système 2 évalués.Pour le système 1, les chercheurs utilisent le modèle de base ajusté par les instructions comme référence standard pour l'inférence zéro-shot. Ils rapportent des métriques spécifiques à chaque tâche, ainsi que la métrique « #Tokens », qui mesure le nombre moyen de jetons générés par entrée sur l'ensemble d'évaluation. La méthode Système 2 comprend la génération de jetons intermédiaires et la génération de jetons de sortie finale.
Rephrase and Respond Distillation
RaR est une approche du système 2 qui incite d'abord le modèle de langage à reformuler la question originale de manière plus élaborée, puis génère une réponse basée sur la question reformulée, dans le but de fournir une meilleur rendement. Pour les données de distillation, les chercheurs ont utilisé l'autocohérence des résultats pour créer un ensemble de données de distillation Système 2 pour RaR. Pour chaque entrée, ils ont effectué huit itérations d'échantillonnage sur la tâche de la dernière lettre et huit itérations d'échantillonnage sur chaque étape de la tâche de tirage au sort, puis ont utilisé le vote majoritaire pour déterminer le résultat final.
Regardons d'abord la
Tâche de concaténation de la dernière lettre. Cette tâche se concentre sur le raisonnement symbolique, exigeant que le modèle relie les dernières lettres d'un mot donné. Les résultats globaux sont présentés dans le tableau 1 ci-dessous.
Le modèle de base du système 1 (Llama-2-70B-chat) atteint une précision de 30,0 %, ce qui est inférieur aux méthodes RaR en 1 étape et en 2 étapes du système 2 (39,5 % et 44,5 % respectivement). En distillant la méthode RaR en 2 étapes dans le modèle de discussion System 1 Llama-2-70B grâce à cette technique non supervisée, une précision étonnante de 98,0 % est obtenue.
Par rapport aux modèles de chat sans tir, le modèle peut apprendre efficacement comment résoudre la tâche à partir de ces données d'entraînement. La distillation de RaR hérite effectivement des avantages du système 2 et du système 1, conservant l'avantage de précision du système 2, tandis que son coût d'inférence est équivalent à celui du système 1.
Revenez à laTâche de raisonnement Coin Flip
. Cette tâche de raisonnement symbolique, souvent testée en recherche, consiste à déterminer la face finale d'une pièce (pile ou face), en partant d'une position initiale connue à travers une série de lancers décrits en langage naturel, tels que "La pièce atterrit sur face". .Les résultats globaux sont présentés dans le tableau 1 ci-dessus. Llama-2-70B-chat (échantillon zéro) a atteint un taux de réussite de 56,1 % sur cette tâche, tandis que 1-Step et 2-Step RaR ont atteint des taux de réussite de 58,5 % et 77,2 % respectivement. Par conséquent, d’énormes améliorations ont été obtenues grâce à l’approche en 2 étapes. La distillation du RaR en 2 étapes vers le système 1 Llama-2-70B-chat via notre technique non supervisée donne des résultats de 75,69 %.
Ainsi, le modèle distillé du Système 2 offre des performances comparables au Système 2 (2 Step RaR), mais sans qu'il soit nécessaire d'exécuter le programme LLM à l'aide de 2 astuces.
Distillation de l'attention du système 2
Weston et Sukhbaatar (2023) ont proposé le système d'attention 2 (S2A), qui aide à réduire les pièges d'inférence du modèle, tels que le recours à des informations biaisées dans l'entrée ou la concentration sur un contexte non pertinent.
Les chercheurs ont vérifié la faisabilité de distiller S2A dans le système 1, en particulier la tâche de réponse aux questions SycophancyEval, qui contient des informations biaisées dans l'entrée connues pour nuire aux performances du LLM.
Les résultats sont présentés dans le tableau 2 ci-dessous, rapportant la précision moyenne de 3 graines aléatoires. Comme prévu, le LLM de base (Système 1) a une précision moindre dans la partie biaisée et est sensible aux entrées biaisées. S2A améliore considérablement les performances sur les entrées biaisées. La distillation du système 2 présente des performances similaires à celles du système 2.
Veuillez vous référer à l'article original pour plus de résultats expérimentaux.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!