Reformulé : Qu'est-ce que l'intelligence artificielle générative et comment évolue-t-elle ?-IA-php.cn

L'IA générative est le terme général désignant tout processus automatisé qui utilise des algorithmes pour générer, manipuler ou synthétiser des données, généralement sous la forme d'images ou de texte lisible par l'homme. On dit que c’est génératif parce que l’IA crée quelque chose qui n’existait pas auparavant. C’est en cela qu’elle diffère de l’IA discriminante, qui différencie les différents types d’entrées. En d’autres termes, l’IA discriminante essaie de répondre à des questions telles que : « Cette image est-elle un lapin ou un lion ? » tandis que l’IA générative répond à l’invite « Imaginez-moi une image d’un lion et d’un lapin assis ensemble ».

Reformulé :

Quest-ce que lintelligence artificielle générative et comment évolue-t-elle ?

Présent principalement l'IA générative et son utilisation avec des modèles populaires tels que ChatGPT et DALL-E. Nous examinerons également les limites de la technologie, notamment pourquoi « trop de doigts » est devenu le symbole de l'art génératif.

L'émergence de l'IA générative

L'IA générative existe depuis de nombreuses années, depuis qu'ELIZA, un chatbot qui simulait une conversation avec un thérapeute, a été développé au Massachusetts Institute of Technology (MIT) en 1966. Mais des années de travail dans le domaine de l’intelligence artificielle et de l’apprentissage automatique ont récemment porté leurs fruits avec la sortie de nouveaux systèmes d’IA générative. Les gens ont certainement entendu parler de ChatGPT, un chatbot IA basé sur du texte qui produit une prose très humaine. DALL-E et StableDiffusion ont également attiré l'attention pour leur capacité à créer des images vibrantes et réalistes basées sur des indices textuels. Nous appelons souvent ces systèmes et d’autres systèmes similaires des modèles car ils représentent des tentatives de simuler ou de modéliser certains aspects du monde réel sur la base d’un sous-ensemble (parfois un très grand sous-ensemble) d’informations.

Les résultats de ces systèmes sont si incroyables que beaucoup soulèvent des questions philosophiques sur la nature de la conscience et s'inquiètent de l'impact économique de l'IA générative sur le travail humain. Mais même si toutes ces créations en matière d’IA constituent indéniablement une grande nouvelle, il se peut qu’il se passe moins de choses sous la surface que certains le pensent. Nous discuterons de ces grandes questions plus tard. Tout d'abord, regardons ce qui se passe dans des modèles comme ChatGPT et DALL-E.

Comment fonctionne l'IA générative ?

L'IA générative utilise l'apprentissage automatique pour traiter de grandes quantités de données visuelles ou textuelles, dont une grande partie est extraite d'Internet, puis déterminer quels éléments sont les plus susceptibles d'apparaître dans d'autres choses à proximité. Une grande partie des efforts de programmation dans l’IA générative consiste à créer des algorithmes capables de différencier les « choses » qui intéressent les créateurs de l’IA : les mots et les phrases pour un chatbot comme ChatGPT ou les éléments visuels de DALL-E. Mais fondamentalement, l’IA générative crée ses résultats en évaluant un vaste corpus de données, puis répond aux invites avec quelque chose dans une plage de probabilités déterminée par le corpus.

La saisie semi-automatique – lorsque votre téléphone ou Gmail vous demande quel pourrait être le reste du mot ou de la phrase que vous tapez – est une forme d'intelligence artificielle générative de bas niveau. Des modèles comme ChatGPT et DALL-E poussent cette idée à des sommets plus avancés

Formation de modèles d'IA génératifs

Le processus de développement d'un modèle adapté à toutes ces données est appelé formation. Pour différents types de modèles, quelques techniques de base sont utilisées ici. ChatGPT utilise ce qu'on appelle des convertisseurs (c'est ce que signifie le T). Le convertisseur dérive le sens de longues séquences de texte pour comprendre la relation entre différents mots ou composants sémantiques, puis détermine la probabilité qu'ils apparaissent proches les uns des autres. Ces déformateurs sont exécutés sans supervision sur un vaste corpus de texte en langage naturel dans le cadre d'un processus appelé pré-entraînement (PinChatGPT), puis affinés par des humains interagissant avec le modèle.

Une autre technique utilisée pour former des modèles est appelée Generative Adversarial Networks (GAN). Dans cette technique, deux algorithmes entrent en compétition. L’une consiste à générer du texte ou des images sur la base de probabilités obtenues à partir de grands ensembles de données ; l’autre est l’IA discriminante, qui est entraînée par des humains pour évaluer si le résultat est réel ou généré par l’IA. L'IA générative tentera à plusieurs reprises de « tromper » l'IA discriminante, en s'adaptant automatiquement aux résultats positifs. Une fois que l’IA générative « gagne » systématiquement cette compétition, l’IA discriminante est affinée par les humains, et le processus recommence.

L'une des choses les plus importantes à retenir ici est que malgré la présence d'une intervention humaine pendant la formation, la plupart de l'apprentissage et de l'adaptation se font automatiquement. Pour que le modèle produise des résultats intéressants, de nombreuses itérations sont nécessaires, l’automatisation est donc essentielle. Ce processus nécessite beaucoup de calculs.

L'IA générative est-elle sensible ?

Les mathématiques et le codage utilisés pour créer et entraîner des modèles d'IA générative sont assez complexes et dépassent largement la portée de cet article. Mais si vous interagissez avec le modèle de résultat final de ce processus, l’expérience est certainement incroyable. Vous pouvez demander au Dell-e de produire quelque chose qui ressemble à une véritable œuvre d'art. Vous pouvez avoir une conversation avec ChatGPT comme vous le feriez avec un autre être humain. Les chercheurs ont-ils vraiment créé une machine à penser ?

Chris Phipps est l'ancien directeur du traitement du langage naturel chez IBM et a participé au développement des produits d'intelligence artificielle Watson. Il a décrit ChatGPT comme une « très bonne machine de prédiction ».

C’est très efficace pour prédire ce que les humains trouveront cohérent. Ce n’est pas toujours cohérent (la plupart du temps, c’est le cas), mais ce n’est pas parce que ChatGPT le « comprend ». Le contraire est vrai : les personnes qui consomment le résultat sont vraiment douées pour formuler toutes les hypothèses implicites dont nous avons besoin pour donner un sens au résultat.

Phipps, qui est également comédien, l'a comparé à un jeu d'improvisation courant appelé MindMeld.

Deux personnes pensent chacune à un mot, puis le disent à voix haute en même temps - vous pouvez dire "botte", je dis "arbre". Nous avons trouvé les mots de manière totalement indépendante et, au départ, ils n'avaient aucun rapport les uns avec les autres. Les deux participants suivants prennent les deux mots et tentent de trouver ce qu'ils ont en commun tout en les prononçant à voix haute. Le jeu continue jusqu'à ce que les deux participants prononcent le même mot.

Peut-être que les deux ont dit "bûcheron". Cela peut sembler magique, mais c'est en réalité nous qui utilisons le cerveau humain pour raisonner sur les entrées (« démarrage » et « arbre ») et trouver des connexions. Nous sommes dans le domaine de la compréhension, pas des machines. Il se passe bien plus de choses dans ChatGPT et DALL-E que ce que les gens admettent. ChatGPT peut écrire une histoire, mais il nous faut beaucoup de travail pour lui donner un sens.

Tester les limites de l'intelligence informatique

Les gens pourraient donner à ces modèles d'IA quelques indices qui rendraient le point de vue de Phipps assez évident. Par exemple, considérons cette énigme : « Qu'est-ce qui est le plus lourd, une livre de plomb ou une livre de plumes ? » La réponse est, bien sûr, qu'ils pèsent le même poids (une livre), même si notre instinct ou notre bon sens nous le disent. que les plumes sont plus légères.

ChatGPT répondra correctement à cette énigme, et vous pourriez penser que c'est le cas parce qu'il s'agit d'un ordinateur logique et froid sans qu'aucun « bon sens » ne le fasse trébucher. Mais ce n’est pas ce qui se passe en coulisses. ChatGPT ne raisonne pas logiquement une réponse ; il produit simplement un résultat basé sur les prédictions d'une question concernant une livre de plumes et une livre de plomb. Étant donné que son ensemble de formation contient de nombreux textes expliquant le puzzle, il assemble une version de la bonne réponse. Cependant, si vous demandez à ChatGPT si deux livres de plumes pèsent plus d'une livre de plomb, il vous dira avec confiance qu'elles pèsent le même poids car, sur la base de son ensemble d'entraînement, il s'agit toujours du résultat le plus susceptible d'être renvoyé vers une invite concernant plumes et plomb.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!