Vous pouvez deviner des films basés sur des émoticônes. D'où vient la capacité « d'émergence

Maintenant que les grands modèles de langage comme ChatGPT sont suffisamment puissants, ils ont commencé à présenter un comportement surprenant et imprévisible.

Avant de présenter officiellement cet article, posons une question : quel film l'émoticône dans l'image ci-dessous décrit-elle ?

Vous pouvez deviner des films basés sur des émoticônes. Doù vient la capacité « démergence » de ChatGPT ?

Vous ne pourrez peut-être même pas deviner que le film représenté par ces quatre symboles est "Le Monde de Nemo". Cette tâche rapide était l'une des 204 tâches utilisées pour évaluer les grands modèles de langage (LLM) l'année dernière. Pour le modèle LLM le plus simple, la réponse donnée est quelque peu aléatoire, et on pense que ce film raconte l'histoire d'un homme ; pour le modèle de taille moyenne relativement complexe, la réponse donnée est "Le film Emoji". . Mais le modèle le plus complexe l'a bien deviné, donnant la réponse « Le Monde de Nemo ».

Ethan Dyer, informaticien chez Google, a déclaré : « Ce comportement du modèle est surprenant. Ce qui est encore plus surprenant, c'est que ces modèles n'utilisent que des instructions : c'est-à-dire qu'ils acceptent une chaîne de texte en entrée, puis prédisent ce qui va se passer ensuite. et Répétez ce processus encore et encore, en vous basant entièrement sur des statistiques. » Certains universitaires ont commencé à s'attendre à ce que la mise à l'échelle du modèle améliore les performances sur les tâches connues, mais ils ne s'attendaient pas à ce que ces modèles soient soudainement capables de gérer autant de nouvelles, tâches imprévisibles.

Une enquête récente menée par Ethan Dyer montre que le LLM peut créer des centaines de capacités « émergentes », c'est-à-dire la capacité des grands modèles à accomplir certaines tâches que les petits modèles ne peuvent pas accomplir. De toute évidence, la capacité de faire évoluer le modèle augmente, de la simple multiplication à la génération de code informatique exécutable en passant par le décodage de films basés sur des emojis. Une nouvelle analyse montre que pour certaines tâches et certains modèles, il existe un seuil de complexité au-dessus duquel les capacités du modèle montent en flèche. Cependant, les chercheurs ont également souligné l’impact négatif de la mise à l’échelle du modèle : à mesure que la complexité augmente, certains modèles présentent de nouveaux biais et inexactitudes dans leurs réponses.

Rishi Bommasani, un informaticien de l'Université de Stanford qui a aidé à dresser une liste de dizaines de modèles de comportements émergents l'année dernière, a déclaré : « Dans toute la littérature que je connais, il n'y a jamais eu de discussion sur les modèles de langage faisant ces choses. ." , qui comprend plusieurs comportements identifiés dans le projet d'Ethan Dyer. Aujourd’hui, la liste ne cesse de s’allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement de déterminer les capacités d'émergence des grands modèles, mais également de comprendre pourquoi et comment ils se produisent, essentiellement en essayant de prédire l'imprévisibilité. Comprendre sa nature émergente peut révéler des réponses à des questions profondes liées à l'intelligence artificielle et à l'apprentissage automatique, par exemple si les modèles complexes font réellement quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. De plus, cela peut aider les chercheurs à tirer parti des avantages potentiels et à réduire les risques émergents.

Émergence

Les biologistes, physiciens, écologistes et autres scientifiques utilisent le terme émergence pour décrire le comportement collectif auto-organisé qui se produit lorsqu'un grand nombre de choses agissent comme un tout. La combinaison d'atomes inanimés crée des cellules vivantes ; les molécules d'eau créent des vagues ; le spectacle naturel spectaculaire de volées d'étourneaux volant dans le ciel dans des formations en constante évolution mais reconnaissables fait bouger les muscles et battre les cœurs. Il est crucial que les capacités émergentes apparaissent dans des systèmes impliquant de nombreuses parties indépendantes. Mais les chercheurs n’ont pu documenter ce pouvoir émergent dans les LLM que récemment, car les modèles viennent tout juste de se développer à des échelles suffisamment grandes.

Les modèles linguistiques existent depuis des décennies. Jusqu’il y a cinq ans environ, les modèles les plus puissants reposaient sur des réseaux de neurones récurrents. Ces modèles prennent essentiellement une chaîne de texte et prédisent quel sera le prochain mot. Ce qui fait qu'un modèle boucle, c'est qu'il apprend de ses propres résultats : ses prédictions sont réinjectées dans le réseau pour améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit une nouvelle architecture appelée Transformer. Pendant que le réseau récurrent analyse la phrase mot par mot, le Transformateur traite tous les mots simultanément. Cela signifie que Transformer peut traiter de grandes quantités de texte en parallèle.

"Il est probable que le modèle ait appris quelque chose de fondamentalement nouveau et différent qu'il n'a pas appris sur des modèles plus petits", explique Ellie Pavlick de l'Université Brown.

Les Transformers peuvent rapidement augmenter la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, entre autres facteurs. Ces paramètres peuvent être considérés comme des connexions entre les mots, et en mélangeant le texte pendant la formation, les transformateurs peuvent ajuster ces connexions pour améliorer le modèle. Plus un modèle comporte de paramètres, plus il peut établir des liens avec précision et plus il se rapproche de l’imitation de la parole humaine. Comme prévu, une analyse réalisée en 2020 par des chercheurs d’OpenAI a révélé que les modèles améliorent la précision et la puissance à mesure qu’ils évoluent.

Mais l’avènement des modèles linguistiques à grande échelle apporte également beaucoup de choses vraiment inattendues. Avec l’avènement de modèles comme GPT-3, qui compte 175 milliards de paramètres, ou Google PaLM, qui s’adapte à 540 milliards de paramètres, les utilisateurs commencent à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même déclaré avoir réussi à convaincre ChatGPT d'admettre qu'il s'agissait d'un terminal Linux et de lui faire exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Notamment, il accomplit la tâche beaucoup plus rapidement que l’exécution du même code sur un véritable appareil Linux.

Comme pour la tâche de décrire des films à l'aide d'émojis, les chercheurs n'ont aucune raison de penser que les modèles linguistiques conçus pour prédire le texte seraient persuadés d'être utilisés pour imiter les terminaux informatiques. Beaucoup de ces comportements émergents démontrent un apprentissage en un ou plusieurs coups, et décrivent la capacité des LLM à résoudre des problèmes qui n'ont jamais (ou rarement) été rencontrés auparavant. Cela constitue un objectif à long terme de la recherche sur l’intelligence artificielle, a déclaré Ganguli. Cela a également montré que GPT-3 pouvait résoudre des problèmes dans un environnement de tir nul sans aucune donnée d'entraînement explicite, a déclaré Ganguli. "Cela m'a poussé à abandonner ce que je faisais et à m'impliquer davantage dans cette recherche." ce domaine de recherche. Les premiers indices montrant que les LLM peuvent transcender les limites de leurs données de formation ont été découverts par une multitude de chercheurs, qui s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. Et la première étape consiste à le documenter de manière approfondie et exhaustive.

Ethan Dyer aide à explorer les capacités inattendues des grands modèles de langage et ce qu'ils apportent. -Gabrielle Lurie

Au-delà de l'imitation

En 2020, Dyer et d'autres chercheurs de Google Research ont prédit que les grands modèles de langage auraient des impacts transformateurs, mais quels seraient ces impacts reste une question ouverte. Par conséquent, ils ont demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et diverses afin de documenter les limites extérieures de ce que le suivi des LLM peut faire. L'effort, connu sous le nom de projet BIG-bench (Beyond the Imitation Game Benchmark), empruntant son nom au jeu d'imitation d'Alan Turing, a été conçu pour tester si les ordinateurs pouvaient répondre aux questions d'une manière humaine et convaincante. (Cela est devenu connu sous le nom de test de Turing.) Le groupe de recherche était particulièrement intéressé par des exemples de LLM acquérant soudainement des capacités nouvelles et sans précédent.

Comme on pouvait s'y attendre, dans certaines tâches, les performances du modèle s'améliorent de manière plus cohérente et prévisible à mesure que la complexité augmente. Sur d'autres tâches, l'augmentation du nombre de paramètres n'a produit aucune amélioration des performances du modèle. Et pour environ 5 % des tâches, les chercheurs ont constaté ce qu’ils ont appelé une avancée : une augmentation rapide et spectaculaire des performances au-dessus d’un certain seuil. Cependant, ce seuil variera en fonction de la tâche et du modèle.

Par exemple, un modèle avec relativement peu de paramètres (quelques millions seulement) peut ne pas être en mesure de réussir une addition à trois chiffres ou un problème de multiplication à deux chiffres, mais avec des dizaines de milliards de paramètres, la précision de certains modèles va s'envoler. Des améliorations de performances similaires ont été observées dans un certain nombre d'autres tâches, notamment le décodage de l'alphabet phonétique international, le déchiffrement des lettres d'un mot, l'identification du contenu offensant dans des passages en hinglish (une combinaison d'hindi et d'anglais) et la génération de texte similaire au swahili. Équivalents anglais des proverbes.

Cependant, les chercheurs se sont vite rendu compte que la complexité du modèle n’était pas le seul facteur de ses performances. Si la qualité des données est suffisamment élevée, certaines capacités inattendues peuvent être induites à partir de modèles plus petits avec moins de paramètres ou entraînées sur des ensembles de données plus petits. De plus, la manière dont une requête est formulée peut affecter la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont utilisé un format à choix multiples pour une tâche d'emoji de film, la précision ne s'est pas améliorée d'un coup, mais s'est progressivement améliorée à mesure que la complexité du modèle augmentait. L'année dernière, dans un article présenté à NeurIPS, la plus grande conférence universitaire dans le domaine, des chercheurs de Google Brain ont montré comment un modèle avec des invites pouvait s'expliquer (une capacité connue sous le nom de raisonnement en chaîne de pensée pour résoudre correctement un problème de mots mathématiques). que le même modèle sans l'invite ne serait pas en mesure de résoudre.

Tant que vous n’aurez pas étudié l’impact de la taille du modèle, vous ne saurez pas quelles capacités il peut avoir et quels peuvent être ses défauts.

Yi Tay, chercheur systématique chez Google Brain, a souligné que des recherches récentes montrent que l'invite de la chaîne de pensée modifie la courbe d'expansion, modifiant ainsi le nœud d'où émerge le modèle. Dans leur article NeurIPS, les chercheurs de Google montrent que l'utilisation d'invites de chaîne de pensée peut susciter des comportements émergents non identifiés dans l'étude BIG-bench. De telles invites, qui nécessitent que les modèles expliquent leur raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l’émergence se produit.

Ces découvertes récentes suggèrent au moins deux possibilités quant aux raisons pour lesquelles l'émergence se produit, explique Ellie Pavlick, informaticienne à l'Université Brown qui étudie les modèles informatiques du langage. La première possibilité est que les modèles plus grands acquièrent spontanément de nouvelles capacités, comme le suggèrent les comparaisons avec les systèmes biologiques. Il se pourrait très bien que le modèle ait appris quelque chose de complètement nouveau et différent qu'il n'avait pas appris sur le modèle à plus petite échelle, ce que nous espérons tous, que quelque chose de fondamental se produise lorsque le modèle change à plus grande échelle.

Ellie Pavlick souligne également qu'une autre possibilité relativement normale et objective est que ce qui semble émerger pourrait plutôt être le point culminant d'un processus interne statistiquement piloté qui fonctionne par un raisonnement en chaîne mentale. Les grands LLM peuvent simplement apprendre des heuristiques qui sont incompréhensibles pour les modèles plus petits avec moins de paramètres ou des données de moindre qualité.

Mais Pavlick pense que parce que nous ne savons pas quel est le mécanisme de fonctionnement sous-jacent du modèle, nous ne pouvons pas dire ce qui se passe.

Capacités et défauts imprévisibles

Mais les grands modèles ont aussi des défauts. Par exemple, Bard, le robot de chat à intelligence artificielle lancé par Google il y a quelque temps, a commis des erreurs factuelles en répondant à des questions liées au télescope spatial James Webb.

L’émergence conduit à l’imprévisibilité, et l’imprévisibilité – qui semble augmenter à mesure que la taille du modèle augmente – est difficile à contrôler pour les chercheurs.

« Il est difficile de savoir à l’avance comment ces modèles seront utilisés ou déployés », a déclaré Ganguli. "Pour étudier des phénomènes émergents, vous devez considérer une situation. Avant d'étudier l'impact de la taille du modèle, vous ne saurez pas quelles capacités il peut avoir et quels sont ses défauts.

Un LLM publié en juin de l'année dernière Dans l'analyse, Les chercheurs anthropiques ont examiné si ces modèles pouvaient présenter certains types de préjugés raciaux ou sociaux, différents de ceux rapportés précédemment par les algorithmes non basés sur LLM utilisés pour prédire quels ex-délinquants sont susceptibles de récidiver. La recherche a été inspirée par un paradoxe apparent directement lié à l’émergence : à mesure que les modèles améliorent les performances à mesure qu’ils évoluent, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui peuvent conduire à des biais ou causer des dommages.

«Certains comportements nuisibles apparaîtront chez certains modèles», a déclaré Ganguli. Il souligne une analyse récente du LLM – également connu sous le nom de référence BBQ – qui a montré que les préjugés sociaux émergent à travers un large éventail de paramètres. "Les modèles plus grands deviennent soudainement plus biaisés", a-t-il déclaré, un risque qui pourrait mettre en péril l'utilisation de ces modèles s'il n'est pas pris en compte.

Mais il a également fait un contrepoint : lorsque les chercheurs disent simplement aux modèles de ne pas s'appuyer sur des stéréotypes ou des préjugés sociaux - littéralement, en leur donnant ces instructions - les modèles sont moins biaisés dans leurs prédictions et leurs réponses. Cela suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a signalé un nouveau mode d'autocorrection morale dans lequel les utilisateurs incitent les programmes à être utiles, honnêtes et inoffensifs.

Ganguli a déclaré que l'émergence révèle à la fois le potentiel incroyable des grands modèles linguistiques et leurs risques imprévisibles. Les applications de ces LLM ont proliféré, donc une meilleure compréhension de cette dualité aidera à exploiter la diversité des capacités des modèles linguistiques.

Ganguli a déclaré : « Nous étudions comment les utilisateurs utilisent réellement ces systèmes, mais ils sont également en train de bricoler et d'améliorer constamment ces systèmes. Nous passons beaucoup de temps à discuter avec nos modèles pour qu'ils fonctionnent mieux. Et c'est en fait à ce moment-là que nous avons commencé. faire confiance à ces modèles. »

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!