Cinq modèles majeurs d'IA générative : VAE, GAN, Diffusion, Transformers, NeRF-IA-php.cn

Choisir le bon modèle GenAI pour la tâche nécessite de comprendre la technologie utilisée par chaque modèle et ses capacités spécifiques. Veuillez en savoir plus sur les cinq modèles GenAI de VAE, GAN, diffusion, transformateurs et NerF ci-dessous.

Cinq modèles majeurs dIA générative : VAE, GAN, Diffusion, Transformers, NeRF

Auparavant, la plupart des modèles d'IA se concentraient sur un meilleur traitement, analyse et interprétation des données. Jusqu'à récemment, les avancées dans les modèles de réseaux neuronaux dits génératifs ont conduit à une gamme de nouveaux outils permettant de créer toutes sortes de contenus, depuis les photos et peintures jusqu'à la poésie, le code, les scénarios et les films.

Aperçu des meilleurs modèles génératifs d'IA

Au milieu des années 2010, les chercheurs ont découvert de nouvelles perspectives pour les modèles d'IA génératifs. À cette époque, ils ont développé des auto-encodeurs variationnels (VAE), des réseaux contradictoires génératifs (GAN) et des modèles de diffusion (Diffusion). Les transformateurs, introduits en 2017, sont des réseaux de neurones révolutionnaires capables d'analyser de grands ensembles de données à grande échelle pour créer automatiquement de grands modèles de langage (LLM). En 2020, les chercheurs ont introduit la technologie Neural Radiation Field (NeRF), capable de générer du contenu 2D à partir d'images 3D.

Le développement rapide de ces modèles génératifs est un travail en cours à mesure que les chercheurs s'adaptent. les progrès ne ralentissent pas. Le professeur White a déclaré à l'Université de Californie à Berkeley : « L'architecture des modèles change constamment et de nouvelles architectures de modèles continueront à être développées.

Chaque modèle a ses capacités particulières. Actuellement, le modèle de diffusion (Diffusion) est. utilisé dans les images et les vidéos Le champ de synthèse fonctionne exceptionnellement bien, les transformateurs fonctionnent bien dans le champ de texte et les GAN sont efficaces pour augmenter les petits ensembles de données avec des échantillons synthétiques raisonnables. Mais le choix du meilleur modèle dépend toujours du cas d’utilisation spécifique.

Tous les modèles sont différents et les chercheurs en IA et les ingénieurs en ML (apprentissage automatique) doivent choisir celui qui convient au cas d'utilisation approprié et aux performances requises, en tenant compte des limitations possibles du modèle en termes de calcul, de mémoire et de limite de capital. .

Les modèles de conversion en particulier ont contribué aux derniers progrès et à l'enthousiasme des modèles génératifs. Adnan Masood, architecte en chef de l'IA chez UST Digital Transformation Consulting, a déclaré : « Les dernières avancées en matière de modèles d'IA proviennent de la pré-formation sur de grandes quantités de données et de l'utilisation de l'apprentissage auto-supervisé pour former des modèles sans étiquettes explicites

Pour. Par exemple, la famille de modèles de convertisseurs génératifs pré-entraînés d'OpenAI est parmi les plus vastes et les plus puissantes de la catégorie. Parmi eux, le modèle GPT-3 contient 17,5 milliards de paramètres

Principales applications des meilleurs modèles d'IA générative

Masood a expliqué que les meilleurs modèles d'IA générative utilisent une variété de technologies et de méthodes différentes pour générer de toutes nouvelles données. Les principales caractéristiques et utilisations de ces modèles incluent :

VAE utilise une architecture d'encodeur-décodeur pour générer de nouvelles données, couramment utilisées pour la génération d'images et de vidéos, telles que la génération de visages synthétiques pour la protection de la vie privée.
GAN utilise des générateurs et des discriminateurs pour générer de nouvelles données, souvent utilisées dans le développement de jeux vidéo pour créer des personnages de jeu réalistes.
La diffusion ajoute puis supprime le bruit pour produire des images de haute qualité avec un niveau de détail élevé, créant des images presque réalistes de scènes naturelles.
Transformer traite efficacement les données séquentielles en parallèle pour la traduction automatique, le résumé de texte et la création d'images.
NeRF propose une nouvelle approche de la reconstruction de scènes 3D à l'aide de représentations neuronales.

Examinons chaque méthode plus en détail ci-dessous.

VAE

VAE a été développé en 2014 pour utiliser les réseaux de neurones pour encoder les données plus efficacement

Yael Lev, responsable de l'IA chez Sisense, a déclaré que la plateforme d'analyse d'intelligence artificielle VAE a appris plus efficacement les informations express. VAE se compose de deux parties : un encodeur qui compresse les données et un décodeur qui restaure les données dans leur forme originale. Ils sont parfaits pour générer de nouvelles instances à partir d'informations plus petites, réparer des images ou des données bruitées, détecter le contenu anormal dans les données et remplir les informations manquantes

Cependant, les auto-encodeurs variationnels (VAE) ont également tendance à produire des images floues ou de mauvaise qualité, selon Masood de l'UST. Un autre problème est que l’espace latent de faible dimension utilisé pour capturer la structure des données est complexe et difficile. Ces lacunes peuvent limiter l’efficacité de la VAE dans les applications nécessitant des images de haute qualité ou une compréhension claire de l’espace latent. La prochaine itération de VAE se concentrera probablement sur l'amélioration de la qualité des données générées, l'accélération de la formation et l'exploration de son applicabilité aux données de séquence. chiffres. Les GAN opposent les réseaux de neurones qui génèrent du contenu réel aux réseaux de neurones qui détectent le faux contenu. Anand Rao, leader mondial de l'IA chez PwC, a déclaré : « Peu à peu, les deux réseaux fusionnent pour produire des images générées qui ne se distinguent pas des données d'origine.

Cinq modèles majeurs dIA générative : VAE, GAN, Diffusion, Transformers, NeRF GAN est couramment utilisé pour la génération d'images, l'édition d'images et la super-résolution. » , augmentation des données, transfert de style, génération de musique et création de deepfake. L’un des problèmes des GAN est qu’ils peuvent souffrir d’un effondrement de mode, où le générateur produit des sorties limitées et répétitives, ce qui les rend difficiles à entraîner. Masood a déclaré que la prochaine génération de GAN se concentrera sur l'amélioration de la stabilité et de la convergence du processus de formation, en étendant son applicabilité à d'autres domaines et en développant des mesures d'évaluation plus efficaces. Les GAN sont également difficiles à optimiser et à stabiliser, et il n’existe aucun contrôle clair sur les échantillons générés.

Diffusion

Le modèle de diffusion a été développé en 2015 par une équipe de chercheurs de l'Université de Stanford pour simuler et inverser l'entropie et le bruit. Les techniques de diffusion permettent de modéliser des phénomènes tels que la manière dont une substance telle que le sel se diffuse dans un liquide puis l'inverse. Ce même modèle permet également de générer un nouveau contenu à partir d'images vierges.

Cinq modèles majeurs dIA générative : VAE, GAN, Diffusion, Transformers, NeRF Les modèles de diffusion sont actuellement le premier choix pour la génération d'images, ce sont les modèles de base pour les services de génération d'images populaires, tels que Dall-E 2, Stable Diffusion, Midjourney et Imagen. Ils sont également utilisés dans des pipelines pour générer du contenu vocal, vidéo et 3D. De plus, les techniques de diffusion peuvent être utilisées pour l'imputation des données, où les données manquantes sont prédites et générées.

De nombreuses applications associent des modèles de diffusion avec LLM pour la génération texte-image ou texte-vidéo. Par exemple, Stable Diffusion 2 utilise un modèle pré-entraîné contrasté langage-image comme encodeur de texte, et ajoute également des modèles pour la profondeur et la mise à l'échelle.

Masood prédit que d'autres améliorations des modèles tels que la diffusion stable pourraient se concentrer sur l'amélioration des signaux négatifs, l'amélioration de la capacité à générer des images dans le style d'un artiste spécifique et l'amélioration des images de célébrités.

Transformers

Le modèle Transformer a été développé en 2017 par une équipe de Google Brain pour améliorer la traduction linguistique. Ces modèles sont parfaits pour traiter les informations dans différents ordres et peuvent traiter les données en parallèle, tout en exploitant également des données non étiquetées pour les adapter à de grands modèles

Contenu réécrit : ces techniques peuvent être appliquées à la synthèse de texte, aux chatbots, aux moteurs de recommandation et à la traduction linguistique. , bases de connaissances, recommandations personnalisées (via des modèles de préférences), analyse des sentiments et reconnaissance d'entités nommées pour identifier des personnes, des lieux et des objets. De plus, ils peuvent être utilisés dans la reconnaissance vocale, comme la technologie Whisper d'OpenAI, ainsi que dans des domaines tels que la détection d'objets dans des vidéos et des images, le sous-titrage d'images, la classification de texte et la génération de dialogues.

Malgré leur polyvalence,

Transformers

Des limites existent. Leur formation peut être coûteuse et nécessiter de grands ensembles de données. Les modèles qui en résultent sont également assez volumineux, ce qui rend difficile l’identification des sources de biais ou des résultats inexacts. "Leur complexité rend également difficile l'explication de leur fonctionnement interne, ce qui entrave leur interprétabilité et leur transparence", a déclaré Massoud. représentation d'un champ lumineux dans un réseau de neurones, la première implémentation a été très lente, prenant plusieurs jours pour capturer la première image 3D

Cependant, en 2022, des chercheurs de NVIDIA ont découvert un moyen de générer un nouveau modèle en 30 secondes environ. Ces modèles peuvent représenter des objets 3D en unités de quelques mégaoctets avec une qualité comparable alors que d'autres technologies peuvent nécessiter des gigaoctets. Ces modèles promettent de conduire à des techniques plus efficaces pour capturer et générer des objets 3D dans le métaverse. Le directeur de recherche de Nvidia, Alexander Keller, a déclaré que les NeRF pourraient éventuellement être aussi importants pour les graphiques 3D que les appareils photo numériques le sont pour la photographie moderne. Masood a déclaré que le NeRF avait d'importantes applications dans la robotique, la cartographie urbaine, la navigation autonome et les applications de réalité virtuelle. potentiel. Cependant, NERF reste coûteux en termes de calcul et combiner plusieurs NERF dans des scènes plus grandes est un défi. Le seul cas d'utilisation viable de NeRF aujourd'hui est de convertir des images en objets ou scènes 3D. Malgré ces limitations, Masood prédit que NeRF trouvera de nouveaux rôles dans les tâches de base de traitement d'images telles que le débruitage, le flou, le suréchantillonnage, la compression et l'édition d'images. que ces modèles sont un travail en cours et que les chercheurs recherchent des moyens d'améliorer les modèles individuels et de les combiner avec d'autres modèles et techniques de traitement. Lev prédit que les modèles génératifs deviendront plus polyvalents, que les applications s'étendront au-delà des domaines traditionnels et que les utilisateurs seront en mesure de guider plus efficacement les modèles d'IA et de mieux comprendre comment ils fonctionnent.

Des travaux sont également en cours sur des modèles multimodaux qui utilisent des méthodes de récupération pour appeler des bibliothèques de modèles optimisées pour des tâches spécifiques. Il espère également que le modèle génératif pourra développer d'autres capacités, telles que la réalisation d'appels API et l'utilisation d'outils externes. Par exemple, un LLM affiné basé sur les connaissances du centre d'appels de l'entreprise fournira des réponses aux questions et effectuera des dépannages, tels que. comme la réinitialisation du modem du client ou lorsque le problème est résolu. Envoyez un e-mail.

En fait, il y aura peut-être quelque chose de plus efficace pour remplacer l'architecture de modèle populaire d'aujourd'hui à l'avenir. "Lorsque de nouvelles architectures émergent, les modèles Diffusion et Transformer risquent de ne plus être utiles", a déclaré White. Nous l'avons constaté avec l'introduction de Diffusion, car leur approche des applications en langage naturel n'était pas propice aux algorithmes de mémoire à long terme et aux neurones récurrents. (RNN)

Certaines personnes prédisent que l'écosystème de l'IA générative évoluera vers un modèle à trois niveaux. La couche de base est une série de modèles de base basés sur du texte, des images, de la parole et du code. Ces modèles ingèrent de grandes quantités de données et sont construits sur de vastes modèles d'apprentissage en profondeur, combinés au jugement humain. Ensuite, des modèles de domaine spécifiques à l'industrie et à la fonction amélioreront le traitement des données de santé, juridiques ou autres. Au plus haut niveau, les entreprises construiront des modèles propriétaires en utilisant des données exclusives et une expertise en la matière. Ces trois couches vont perturber la façon dont les équipes développent des modèles et inaugurer une nouvelle ère de modèles en tant que service

Comment choisir un modèle d'IA générative : principales considérations

Entre les modèles, selon Lev de Sisense Les principales considérations lors du choix incluent le suivant :

Le problème que vous souhaitez résoudre.

Choisissez un modèle connu pour être adapté à votre tâche spécifique. Par exemple, utilisez des transformateurs pour les tâches de langage et NeRF pour les scènes 3D.

Quantité et qualité des données. La diffusion nécessite beaucoup de bonnes données pour fonctionner correctement, alors que la VAE fonctionne mieux avec moins de données.

Qualité des résultats. GAN est meilleur pour des images claires et détaillées, tandis que VAE est meilleur pour des résultats plus fluides.

Comme il est facile de former le modèle. Le GAN peut être difficile à entraîner, tandis que la VAE et la Diffusion sont plus faciles.

Besoins en ressources informatiques. NeRF et Diffusion nécessitent tous deux beaucoup de puissance informatique pour fonctionner correctement.

nécessite du contrôle et de la compréhension. Si vous souhaitez plus de contrôle sur les résultats ou une meilleure compréhension du fonctionnement du modèle, les VAE peuvent être meilleurs que les GAN.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!