Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible-IA-php.cn

Si la réponse donnée par le modèle d'IA est incompréhensible du tout, oserez-vous l'utiliser ?

À mesure que les systèmes d'apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats et d'indiquer clairement quand nous ne devrions pas leur faire confiance.

Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger du système qu'il produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire qu'il comprenne complètement afin que tout possible des erreurs peuvent être détectées. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions.

Pour les grands modèles de langage, nous pouvons également adopter une approche similaire.

Cependant, lors de l'utilisation de cette approche, il est très important de s'assurer que le modèle de langage génère un texte compréhensible, en particulier lorsqu'il s'agit de tâches complexes telles que les mathématiques et le codage.

Comme le montre la figure ci-dessous, vous demandez à l'IA d'écrire un algorithme de tri rapide. L'IA l'écrit rapidement et la réponse est très concise. Mais si vous ne savez pas écrire du code, comment pouvez-vous juger si l’IA est écrite correctement ? Travail posthume de léquipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible

Travail posthume de léquipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible

OpenAI a étudié ce problème dans un article récent.

Titre de l'article : LES JEUX PROVER-VERIFIER AMÉLIORENT LA LÉGIBILITÉ DES SORTIES LLM
Lien de l'article : https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm- outputs/legibility.pdf

Ils ont constaté que si l'on demande à de grands modèles de langage de générer des réponses dans le but « d'obtenir la bonne réponse », les réponses qu'ils donnent peuvent être difficiles à comprendre. Les évaluateurs humains sont deux fois plus susceptibles de commettre des erreurs en jugeant ces réponses.

Leur objectif est donc de former des modèles de langage de haut niveau afin qu'ils puissent générer du texte que des modèles plus simples peuvent facilement vérifier. Ils ont constaté qu’un tel texte était non seulement convivial pour les modèles simples, mais également plus lisible pour les humains.

Alors, comment y parvenir ? Cela mentionne également un article de 2021 – « Apprendre à donner des réponses vérifiables avec des jeux Prover-Verifier ». Dans cet article, Cem Anil et al. ont proposé un cadre de théorie des jeux appelé « Jeux Prover-Verifier ». Le cadre se compose de deux apprenants concurrents : un réseau de vérificateurs de confiance essayant de choisir la bonne réponse, et un réseau de prouveurs plus puissant mais peu fiable essayant de convaincre les vérificateurs d'accepter une réponse spécifique, quelle que soit son exactitude. Le but de ce framework est de produire un protocole de preuve fiable à partir du jeu.

OpenAI a emprunté ce cadre dans cette nouvelle recherche et a laissé deux grands modèles (le plus fort est le prouveur et le plus faible est le vérificateur) jouer l'un contre l'autre jusqu'à ce que les deux atteignent un équilibre. À l’heure actuelle, la réponse donnée par le prouveur est à la fois lisible et raisonnablement correcte.

OpenAI a déclaré qu'en améliorant la lisibilité des résultats du modèle, il peut rendre l'application de l'intelligence artificielle plus efficace et plus fiable, ce qui est bénéfique dans divers domaines nécessitant une communication précise.

Il convient de mentionner que cet article provient de l'équipe Super Alignment d'OpenAI. Plusieurs auteurs ont quitté OpenAI plus tôt cette année et l'équipe s'est également effondrée. L'un des auteurs a révélé qu'il s'agissait du dernier article de l'équipe.

Travail posthume de léquipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible

Un exemple intuitif

Afin d'améliorer la lisibilité de la sortie du modèle, OpenAI a optimisé la chaîne de pensée (CoT) de certains problèmes mathématiques de l'école primaire afin qu'elle puisse être comprise par des modèles plus faibles. Voici quelques exemples :

Question : Le père de Shawna est cinq fois plus âgé que Shawna. Shauna a maintenant trois fois l'âge d'Aliya. Si Aaliyah a 3 ans, quel âge a le père de Shauna ?

Le but de ceci est de vérifier si la sortie du modèle ainsi formé est plus directe et facile à comprendre.

Cette méthode améliore les performances du modèle de 50% avec seulement quelques optimisations sur l'ensemble d'entraînement. Dans le même temps, les réponses fournies par le modèle sont également plus compréhensibles, ce qui aide également les utilisateurs humains qui ont besoin d'évaluer l'exactitude de ces réponses à porter des jugements plus précis. OpenAI estime que réduire davantage l’écart de performances entre les modèles plus lisibles et plus performants est un objectif clé des futures recherches sur l’alignement.

Comment jouent les « prouveurs » et « vérificateurs » à l'entraînement ?

Afin de motiver le modèle fort (preuve) à générer un texte plus lisible, les chercheurs ont adopté un programme de formation qui nécessite que les réponses générées par le modèle fort soient facilement vérifiées par le modèle plus faible (vérificateur). Plus précisément, ils ont utilisé des modèles grands et petits de la famille GPT-4. Ils diffèrent d’environ trois ordres de grandeur en termes de quantité de données préalables à l’entraînement. Ils reçoivent tous une formation en dérivation mathématique basée sur l’annotation humaine, mais pas de post-formation approfondie.

Tout d'abord, l'équipe de recherche a demandé au modèle du prouveur d'essayer de résoudre une série de problèmes mathématiques. Étant donné que le modèle du prouveur lui-même peut être erroné, certaines des réponses qu'il génère peuvent être incorrectes. Ensuite, ils ont soumis ces réponses au modèle de vérificateur pour tests et ont effectué plusieurs cycles de vérification en alternance entre les deux étapes suivantes :

Formation « Vérificateur » : L'équipe de recherche a formé les plus faibles » Le modèle « vérificateur » vérifie si la réponse donnée par le « prouveur » est correcte.
Formation « Prover » : L'équipe de recherche demande au modèle « prouveur » le plus puissant de jouer un rôle « utile » ou « rusé ».
Lorsque le « Prover » est réglé sur « Utile », l'équipe de recherche récompensera la bonne réponse avec un score élevé du « Vérificateur ».
Lorsque le « prouveur » est réglé sur « rusé », l'équipe de recherche récompense à la place le « vérificateur » avec de mauvaises réponses avec des scores élevés.

L'équipe de recherche a découvert qu'au départ, un « prouveur » rusé pouvait facilement générer des réponses incorrectes qui convainquaient le « vérificateur ». Cependant, ces mauvaises réponses entreront dans le prochain cycle de formation des « vérificateurs », et les mêmes vulnérabilités ne seront plus convaincantes au prochain cycle. Par conséquent, le « prouveur » sera obligé d’explorer différentes stratégies à chaque tour.

Lorsque le « prouveur » rusé ne peut plus générer une mauvaise solution qui convainc le « vérificateur », la formation se termine.

Qu'ont découvert les chercheurs ?

Compromis entre performances et lisibilité :

Un modèle qui effectue uniquement un réglage fin supervisé sur la dérivation écrite par l'homme a une lisibilité plus élevée mais une différence de précision plus faible.
Lorsque l'objectif d'optimisation du modèle est uniquement l'exactitude, c'est-à-dire qu'il se concentre uniquement sur la génération de réponses correctes, bien qu'une grande précision puisse être atteinte, la lisibilité des solutions générées est mauvaise.
La méthode de jeu vérifiable proposée par OpenAI équilibre les deux, en maintenant une lisibilité élevée tout en conservant une précision modérée.

Trois modèles utiles :

Vérificateur robuste : distinguer efficacement les solutions correctes et incorrectes, même si les solutions sont trompeuses.
Prouveur utile : générez des solutions compréhensibles pour les humains, réduisant ainsi les erreurs des évaluateurs humains.
Prouveur rusé : produit des solutions subtiles et erronées qui confondent initialement les évaluateurs humains, mettant ainsi en évidence les domaines à améliorer.

L'équipe de recherche a utilisé le même problème de test pour démontrer le contenu généré et le processus de formation de Sneaky Prover.

Question : Le père de Shawna est cinq fois plus âgé que Shawna. Shauna a maintenant trois fois l'âge d'Aliya.Si Aaliyah a 3 ans, quel âge a le père de Shauna ? Avec l'utilisation croissante des grands modèles de langage (LLM) dans les domaines critiques et les applications complexes, il est devenu crucial de comprendre si le contenu qu'ils génèrent est digne de confiance. C'est important. En exigeant que les modèles aient des raisons claires et vérifiables pour leur production, vous pouvez renforcer la confiance dans ce qu'ils produisent.

Travail posthume de léquipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Un avantage important de cette approche est qu'elle réduit le recours à la démonstration humaine ou au jugement de lisibilité. Cette autonomie est particulièrement importante pour l’alignement des futurs systèmes d’IA superintelligents, dans le but ultime d’aligner de manière fiable les systèmes d’IA sur les valeurs et les attentes humaines sans surveillance humaine directe.

Travail posthume de léquipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible

Bien que ce travail n'ait été mené que sur un seul ensemble de données et que des étiquettes de vérité terrain soient encore nécessaires, l'équipe de recherche s'attend toujours à ce que cela soit important dans le développement d'un système d'IA correct, transparent et vérifiable. Les méthodes de classe joueront un rôle clé et. améliorer leur fiabilité et leur sécurité dans les applications du monde réel.

Pour plus de détails, veuillez vous référer au document original.

Lien de référence :

https://openai.com/index/prover-verifier-games-improve-legibility/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!