Génération d'images basée sur le modèle de diffusion-IA-php.cn

Génération d'images basée sur le modèle de diffusion

王林

Libérer： 2023-04-14 14:58:20

avant

2127 Les gens l'ont consulté

Partie 01 Cet article proposait que les modèles génératifs de l'époque tels que VAE présentaient une grande difficulté, c'est-à-dire que ce type de modèle définit d'abord la distribution conditionnelle, puis définit le postérieur variationnel à adapter. conduisent à la nécessité d'optimiser à la fois la distribution conditionnelle et la distribution variationnelle a posteriori. Cependant, cela est très difficile. Si nous pouvons définir un processus simple qui mappe la distribution des données à une gaussienne standard, la tâche du « générateur » devient simplement d'adapter chaque petite étape du processus inverse de ce processus. C'est l'idée centrale du modèle de diffusion. . Cependant, cet article n’a pas fait de vagues à l’époque.

1.2 DéveloppementEn 2020, sur la base d'idées précédentes, le modèle DDPM (Denoising Diffusion Probabilistic Models) a été proposé. Par rapport au modèle de diffusion de base, l'auteur a combiné le modèle de diffusion et le débruitage Les guides de partition. le processus de formation et d'échantillonnage, qui entraîne une amélioration appropriée des échantillons d'images générés, de sorte que dans des conditions de formation plus simples et plus stables, le résultat final puisse être comparable au modèle GAN.

Figure 2-Résultats de génération de DDPM

Cependant, le modèle DDPM n'est pas parfait Puisque le processus de diffusion est une chaîne de Markov, son inconvénient est qu'il nécessite un nombre relativement grand. d'étapes de diffusion. Ce n'est qu'ainsi que l'on peut obtenir des résultats relativement bons, ce qui entraîne une génération d'échantillons très lente.

Ainsi, après le DDPM, en 2021, Song et al. ont proposé le DDIM (Denoising Diffusioin Implicit Model), qui a transformé la méthode d'échantillonnage du processus de diffusion du DDPM et a promu le processus de diffusion markovien traditionnel pour les processus non markoviens. , des étapes d'échantillonnage plus petites peuvent être utilisées pour accélérer la génération d'échantillons, améliorant ainsi considérablement l'efficacité.

Génération dimages basée sur le modèle de diffusion

Il y a également quelques améliorations dans les travaux de suivi pour intégrer le modèle de diffusion au réseau de génération traditionnel, comme la combinaison des modèles VAE et DM, la combinaison GAN+DM, etc. n'entre pas dans les détails ici.

1.3 Outbreak

En 2022, Google a lancé un nouveau système d'IA basé sur le modèle de diffusion, qui peut convertir des descriptions textuelles en images réalistes.

Photo 3

Photo 4 Génération dimages basée sur le modèle de diffusion

Comme le montre le schéma schématique fourni par Google, le champ saisi texte Tout d'abord, il est codé, puis converti en une petite image 64*64 par un modèle de diffusion texte-image. De plus, un modèle de diffusion super-résolution est utilisé pour traiter la petite image, et la résolution de l'image est. amélioré dans un processus itératif supplémentaire, résultant en Le résultat final généré est une image finale de 1024*1024. Ce processus magique est exactement comme ce que tout le monde ressent lorsqu'il l'utilise. Vous entrez un morceau de texte - un chien golden retriever portant un col roulé à pois rouges et un chapeau à carreaux bleus, puis le programme génère automatiquement le texte ci-dessus pour vous. vu.

Une autre application populaire au niveau des phénomènes - novalAI, il s'agissait à l'origine d'un site Web dédié à l'écriture d'IA. Basé sur la génération d'images à chaud actuelle, il s'est combiné avec des ressources d'images sur Internet pour former un site Web axé sur la génération d'images bidimensionnelles. Le modèle a commencé à atteindre le niveau des peintres humains en termes d'effet. En plus de la saisie traditionnelle de texte pour produire des images, il prend également en charge la saisie d'images comme référence, ce qui permet à l'IA être basé sur des images connues La génération de nouvelles images basées sur des images existantes résout dans une certaine mesure le problème des résultats incontrôlables générés par l'IA.

Partie 02 Génération dimages basée sur le modèle de diffusion gird

Explication du principe gi

Alors, quel est le processus de fonctionnement d'une technologie d'IA aussi puissante ? Ici, nous prenons comme exemple le modèle DDPM plus classique pour donner un bref processus :

2.1 Processus Forward

Le processus forward est un processus d'ajout de bruit à l'image, dans le but de construire un échantillon d'entraînement GT.

Pour une distribution de données initiale donnée x0~q(x), nous ajoutons progressivement du bruit gaussien à la distribution de données. Ce processus a T fois, et le résultat de chaque étape est x1, x2,..., xt , l'écart type du bruit est exprimé par

, alors le processus d'ajout de bruit peut être exprimé par :

Comme mentionné ci-dessus, il s'agit d'un Markov processus en chaîne. Finalement, les données auront tendance à être une distribution gaussienne isotrope.

2.2 Processus de diffusion inverse Le processus inverse est un processus de débruitage Si

est connu, x0 peut être restauré à partir de la distribution gaussienne standard complète. Génération dimages basée sur le modèle de diffusion satisfait la distribution gaussienne et

est suffisamment petit, alors est toujours une distribution gaussienne, et alors

ne peut pas être simplement déduit, nous utilisons donc un modèle d'apprentissage profond avec des paramètres

Prévoyez-le, nous avons donc : Génération dimages basée sur le modèle de diffusion

Génération dimages basée sur le modèle de diffusion

Si x0 est connu, alors par la formule bayésienne :

Génération dimages basée sur le modèle de diffusion

2.3 Processus de formation

Si pour l'apprentissage automatique Les lecteurs qui savent il faut savoir que toute formation de modèle consiste à optimiser les paramètres du modèle pour obtenir une moyenne et une variance fiables. Nous maximisons le log de vraisemblance de la distribution de prédiction du modèle, c'est-à-dire :

Génération dimages basée sur le modèle de diffusion

Après. une série de dérivation, le modèle DDPM a obtenu l'expression finale de la fonction de perte :

Génération dimages basée sur le modèle de diffusion

Pour résumer le processus de formation :

1. Obtenez l'entrée x0, échantillonnez aléatoirement un t à partir de 1...T
2. Échantillonnez un bruit de la distribution gaussienne standard
3. Calculez la perte et minimisez de manière itérative la fonction de perte

Génération dimages basée sur le modèle de diffusion

Figure 6

Partie 03

Résumé

● Les modèles de diffusion ont montré grand potentiel. Par rapport aux modèles VAE, ils n'ont pas besoin d'aligner la distribution postérieure, ni de former des discriminateurs supplémentaires comme le GAN, y compris la vision par ordinateur, la bioinformatique, il a des applications dans le traitement de la voix et d'autres aspects. Cela contribuera à améliorer l'efficacité de la création d'images. Cela pourrait permettre à l'IA de générer plusieurs images en fonction des conditions, et les humains pourraient filtrer et modifier les résultats. Ce sera l'avenir de la peinture 2D, ce qui pourrait grandement améliorer l'efficacité de la production. d’actifs numériques 2D.

Cependant, avec le développement de la technologie de l'IA, il y aura toujours des différends, et le domaine de la génération d'images ne fait pas exception. En plus des problèmes de la technologie de l'IA elle-même, tels que la structure de l'image générée est erronée et déraisonnable, il existe également certains aspects juridiques, tels que les questions de droits d'auteur sur les œuvres d'IA elles-mêmes. Les problèmes techniques peuvent être résolus grâce au développement de la technologie elle-même. Nous avons des raisons de croire qu’avec le développement de la technologie de l’IA, la génération d’images atteindra à terme un niveau très élevé, ce qui éliminera la plupart des tâches bas de gamme liées à la peinture, ce qui éliminera la plupart des tâches liées à la peinture. Libère grandement la productivité humaine. Les problèmes de droit d'auteur peuvent encore obliger les ministères à accorder suffisamment d'attention au développement des industries connexes et à améliorer les politiques et les systèmes concernés. Cela nous oblige à réfléchir davantage aux domaines émergents afin que la technologie de l'IA puisse mieux nous servir.