Le GAN traditionnel peut être interprété après modification, et l'interprétabilité du noyau de convolution et l'authenticité des images générées sont garanties.-IA-php.cn

Le GAN traditionnel peut être interprété après modification, et l'interprétabilité du noyau de convolution et l'authenticité des images générées sont garanties.

王林

Libérer： 2023-04-08 14:21:10

avant

1185 Les gens l'ont consulté

Le GAN traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties.

Adresse de l'article : https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
Affiliations des auteurs : Institute of Computing Technology, Chinese Academy of Sciences, Shanghai Jiao Tong University, Laboratoire Zhijiang

Contexte de recherche et tâches de recherche

Les réseaux adverses génératifs (GAN) ont obtenu un grand succès dans la génération d'images haute résolution, et la recherche sur leur interprétabilité a également attiré une large attention ces dernières années.

Dans ce domaine, comment faire apprendre au GAN une représentation découplée reste un défi majeur. La représentation dite découplée du GAN signifie que chaque partie de la représentation n'affecte que des aspects spécifiques de l'image générée. Des recherches antérieures sur la représentation découplée des GAN se sont concentrées sur différentes perspectives.

Par exemple, dans la figure 1 ci-dessous, la méthode 1 dissocie la structure et le style de l'image. La méthode 2 apprend les caractéristiques des objets locaux dans l'image. La méthode 3 apprend les caractéristiques découplées des attributs dans les images, telles que les attributs d'âge et les attributs de genre des images de visage. Cependant, ces études n’ont pas réussi à fournir une représentation claire et symbolique dans les GAN pour différents concepts visuels (tels que les parties du visage telles que les yeux, le nez et la bouche).

Le GAN traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties.

Figure 1 : Comparaison visuelle avec d'autres méthodes de caractérisation découplée du GAN

À cette fin, les chercheurs ont proposé une modifier le GAN traditionnel en une méthode générale GAN interprétable , qui garantit que les noyaux de convolution dans la couche intermédiaire du générateur peuvent apprendre des concepts visuels locaux découplés. Plus précisément, comme le montre la figure 2 ci-dessous, par rapport au GAN traditionnel, chaque noyau de convolution dans la couche intermédiaire du GAN interprétable représente toujours un concept visuel spécifique lors de la génération de différentes images, et différents noyaux de convolution représentent des visions différentes.

Le GAN traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties.

Figure 2 : Comparaison visuelle du GAN interprétable et de la représentation d'encodage du GAN traditionnelle

Méthode de modélisation

L'apprentissage du GAN interprétable doit répondre aux deux objectifs suivants : Convolution Le l'interprétabilité du noyau et l'authenticité de l'image générée .

Interprétabilité du noyau de convolution : les chercheurs espèrent que le noyau de convolution dans la couche intermédiaire pourra automatiquement apprendre des concepts visuels significatifs sans annotation manuelle d'aucun concept visuel. Plus précisément, chaque noyau de convolution doit générer de manière stable des régions d'image correspondant au même concept visuel lors de la génération d'images différentes. Différents noyaux de convolution doivent générer des zones d'image correspondant à différents concepts visuels ;

Authenticité des images générées : le générateur GAN interprétable peut toujours générer des images réalistes.

Par conséquent, ils utilisent un ensemble de noyaux de convolution pour représenter conjointement un concept visuel spécifique, et utilisent différents ensembles de noyaux de convolution pour représenter respectivement différents concepts visuels.

Afin de garantir en même temps l'authenticité des images générées, les chercheurs ont conçu la fonction de perte suivante pour modifier le GAN traditionnel en un GAN interprétable.

Perte du GAN traditionnel : Cette perte est utilisée pour garantir l'authenticité de l'image générée
Perte de partition du noyau de convolution : Étant donné un générateur, cette perte est utilisée pour trouver le volume Les noyaux sont divisés de telle manière que les noyaux de convolution du même groupe génèrent des zones d'image similaires. Plus précisément, ils utilisent un modèle de mélange gaussien (GMM) pour apprendre comment les noyaux de convolution sont divisés afin de garantir que les cartes caractéristiques des noyaux de convolution dans chaque groupe ont des activations neuronales similaires
Perte de réalité du modèle énergétique : Étant donné la façon dont les noyaux de la couche cible sont divisés, forcer chaque noyau du même groupe à générer le même concept visuel peut réduire la qualité de l'image résultante. Afin de garantir davantage l'authenticité des images générées, ils utilisent le modèle énergétique pour générer la probabilité d'authenticité de la carte de caractéristiques dans la couche cible, et utilisent l'estimation du maximum de vraisemblance pour apprendre les paramètres du modèle énergétique
; Perte d'interprétabilité du noyau de convolution : étant donné la méthode de division du noyau de convolution de la couche cible, cette perte est utilisée pour améliorer encore l'interprétabilité du noyau de convolution. Plus précisément, cette perte amène chaque noyau de convolution du même groupe à générer de manière unique la même zone d'image, tandis que les noyaux de convolution de différents groupes sont responsables de la génération de différentes zones d'image.

Résultats expérimentaux

Dans l'expérience, les chercheurs ont évalué qualitativement et quantitativement leur GAN interprétable.

Pour l'analyse qualitative, ils ont visualisé la carte des caractéristiques de chaque noyau de convolution pour évaluer la cohérence des concepts visuels représentés par le noyau de convolution sur différentes images. Comme le montre la figure 3 ci-dessous, dans le GAN interprétable, chaque noyau de convolution génère toujours des zones d'image correspondant au même concept visuel lors de la génération d'images différentes, tandis que différents noyaux de convolution génèrent des zones d'image correspondant à différents concepts visuels. Figure 3 : Visualisation des cartes de fonctionnalités dans un GAN interprétable La différence est illustrée dans la figure 4(a) ci-dessous. La figure 4 (b) montre la proportion du nombre de noyaux de convolution correspondant à différents concepts visuels dans le GAN interprétable. La figure 4 (c) montre que lorsque le nombre de groupes de noyaux de convolution sélectionnés pour la division est différent, plus il y a de groupes, plus les concepts visuels appris par le GAN interprétable sont détaillés. Figure 4 : Évaluation qualitative du GAN explicable Par exemple, l'interaction de concepts visuels spécifiques entre des images peut être obtenue en échangeant les cartes de caractéristiques correspondantes dans la couche interprétable, c'est-à-dire que l'échange de visages local/global est terminé.

La figure 5 ci-dessous donne Le GAN traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties. les résultats

de l'échange de la bouche, des cheveux et du nez entre des paires d'images. La dernière colonne donne la différence entre l'image modifiée et l'image originale. Ce résultat montre que la méthode des chercheurs a uniquement modifié le concept visuel local sans changer d'autres domaines non pertinents.

Le GAN traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties. Figure 5 : Concepts visuels spécifiques d'échange d'images générées

De plus, la figure 6 ci-dessous montre également les performances de leur

méthode lors de l'échange de l'ensemble du visage Effet

Figure 6 : Échange de tout le visage de l'image générée

Pour l'analyse quantitative, les chercheurs ont utilisé des expériences de vérification du visage pour évaluer l'exactitude des résultats de l'échange de visage. Plus précisément, étant donné une paire d'images de visage, le visage de l'image originale est remplacé par le visage de l'image source pour générer une image modifiée. Ensuite, testez si le visage dans l'image modifiée et le visage dans l'image source ont la même identité.

Le tableau 1 ci-dessous montre l'exactitude des résultats de vérification du visage de différentes méthodes Leur méthode est meilleure que les autres méthodes d'échange de visage en termes de préservation de l'identité.

Le GAN traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties.

Tableau 1 : Évaluation de la précision de l'identité par échange de visage

De plus, la localité de la méthode de modification de concepts visuels spécifiques a également été évaluée dans l'expérience. Plus précisément, les chercheurs ont calculé l'erreur quadratique moyenne (MSE) entre l'image originale et l'image modifiée dans l'espace RVB, et ont utilisé le rapport entre le MSE hors région et le MSE dans la région d'un concept visuel spécifique comme test expérimental. indice pour l'évaluation de la localité.

Les résultats sont présentés dans le tableau 2 ci-dessous. La méthode de modification du chercheur a une meilleure localité, c'est-à-dire qu'il y a moins de changements dans la zone de l'image en dehors du concept visuel modifié.

Le GAN traditionnel peut être interprété après modification, et linterprétabilité du noyau de convolution et lauthenticité des images générées sont garanties.

Tableau 2 : Évaluation de la localité des concepts visuels modifiés

Pour plus de résultats expérimentaux, voir l'article.

Résumé

Ce travail propose une méthode générale qui peut modifier les GAN traditionnels en GAN interprétables sans aucune annotation manuelle des concepts visuels. Dans un GAN interprétable, chaque noyau de convolution de la couche intermédiaire du générateur peut générer de manière stable le même concept visuel lors de la génération d'images différentes.

Les expériences montrent que le GAN interprétable permet également aux utilisateurs de modifier des concepts visuels spécifiques sur les images générées, offrant ainsi une nouvelle perspective sur la méthode d'édition contrôlable des images générées par le GAN.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Php8, je viens aussi

Apprenez la mise en page d'un site Web en 30 minutes

Tutoriel vidéo Shangguan Oracle débutant à compétent

Votre première ligne de code UNI-APP

Flutter de zéro au lancement de l'application

Brother Lian Nouveau didacticiel vidéo Linux

Tutoriel vidéo AXURE 9 (convient à l'interface utilisateur interactive de conception de produits du chef de produit)

Tutoriel vidéo PS Zero Basic Proficiency

Tutoriel vidéo de 16 jours sur l'interface utilisateur pour vous aider à démarrer

Tutoriel vidéo sur les techniques PS et les techniques de découpage

Tutoriel vidéo sur la construction et le lancement de projets d'Alibaba Cloud Environment

Présentation des réseaux informatiques - Connaissances de base que les programmeurs doivent maîtriser

Tutoriel essentiel pour les programmeurs - Explication du protocole HTTP

Tutoriel vidéo Websocket