Sans formation, cette nouvelle méthode permet d'obtenir la liberté de générer des tailles et des résolutions d'images.-IA-php.cn

Récemment, les modèles de diffusion ont dépassé les modèles GAN et autorégressifs et sont devenus le choix courant pour les modèles génératifs en raison de leurs excellentes performances. Les modèles de génération de texte en image basés sur des modèles de diffusion tels que SD, SDXL, Midjourney et Imagen ont démontré une incroyable capacité à générer des images de haute qualité. En règle générale, ces modèles sont formés à une résolution spécifique pour garantir un traitement efficace et une formation précise des modèles sur le matériel existant.

Sans formation, cette nouvelle méthode permet dobtenir la liberté de générer des tailles et des résolutions dimages.

Figure 1 : Comparaison de l'utilisation de différentes méthodes pour générer des images 2048×2048 sous SDXL 1.0. [1]

Dans ces modèles de diffusion, une duplication de motifs et de graves artefacts se produisent souvent. Par exemple, il est illustré à l’extrême gauche de la figure 1. Ces problèmes sont particulièrement aigus au-delà de la résolution de la formation.

Des chercheurs d'institutions telles que le laboratoire commun technologique SenseTime de l'Université chinoise de Hong Kong ont mené une étude approfondie de la couche convolutive de la structure UNet couramment utilisée dans les modèles de diffusion dans un article et ont proposé FouriScale du point de vue de la fréquence. analyse de domaine comme le montre l’image 2.

Sans formation, cette nouvelle méthode permet dobtenir la liberté de générer des tailles et des résolutions dimages.

Figure 2 Diagramme schématique du processus de FouriScale (ligne orange), qui vise à assurer la cohérence entre les résolutions.

En introduisant des opérations de convolution dilatée et des opérations de filtrage passe-bas pour remplacer les couches convolutives d'origine dans le modèle de diffusion pré-entraîné, la cohérence de la structure et de l'échelle à différentes résolutions peut être obtenue. Combinée à la stratégie « remplir puis recadrer », cette méthode peut générer de manière flexible des images qui répondent à différentes tailles et rapports d'aspect. De plus, avec FouriScale comme guide, cette méthode est capable de garantir une structure d'image complète et une excellente qualité d'image lors de la génération d'images haute résolution de toute taille. FouriScale ne nécessite aucun calcul de prédiction hors ligne et offre une bonne compatibilité et évolutivité.

Les résultats expérimentaux quantitatifs et qualitatifs montrent que FouriScale réalise des améliorations significatives dans la génération d'images haute résolution à l'aide de modèles de diffusion pré-entraînés.

Sans formation, cette nouvelle méthode permet dobtenir la liberté de générer des tailles et des résolutions dimages.

Adresse papier : https://arxiv.org/abs/2403.12963
Code source ouvert : https://github.com/LeonHLJ/FouriScale
Titre de l'article : FouriScale : Une perspective de fréquence sur la synthèse d'images haute résolution sans formation

Introduction à la méthode

1. Le Le réseau de débruitage du modèle de diffusion est généralement formé sur des images ou des espaces latents d'une résolution spécifique. Ce réseau adopte généralement la structure U-Net. Les auteurs visent à utiliser les paramètres du réseau de débruitage pendant la phase d'inférence pour générer des images à plus haute résolution sans avoir besoin de recyclage. Pour éviter la distorsion structurelle à la résolution d'inférence, les auteurs tentent d'établir une cohérence structurelle entre les résolutions par défaut et les hautes résolutions. Pour la couche convolutive dans U-Net, la cohérence structurelle peut être exprimée comme suit :

où k est le noyau de convolution d'origine et k' est un nouveau noyau de convolution personnalisé pour une plus grande résolution. Selon la représentation du domaine fréquentiel du sous-échantillonnage spatial, elle est la suivante :

Sans formation, cette nouvelle méthode permet dobtenir la liberté de générer des tailles et des résolutions dimages.

La formule (3) peut s'écrire :

Sans formation, cette nouvelle méthode permet dobtenir la liberté de générer des tailles et des résolutions dimages.

Cette formule montre que le spectre de Fourier du noyau de convolution idéal k' devrait Il est épissé par le spectre de Fourier des noyaux de convolution s×s k. En d’autres termes, le spectre de Fourier de k' devrait avoir une répétition périodique, et ce motif répétitif est le spectre de Fourier de k.

Sans formation, cette nouvelle méthode permet dobtenir la liberté de générer des tailles et des résolutions dimages.

La circonvolution atreuse largement utilisée répond tout juste à cette exigence. La périodicité dans le domaine fréquentiel de la convolution atreuse peut être exprimée par la formule suivante :

Sans formation, cette nouvelle méthode permet dobtenir la liberté de générer des tailles et des résolutions dimages.

Lors de l'utilisation du modèle de diffusion pré-entraîné (la résolution d'entraînement est (h,w)) pour générer une image haute résolution de (H,W), les paramètres de la convolution atreuse utilisent le noyau de convolution d'origine, et le facteur d'expansion est ( H/h, W/w), est le noyau de convolution idéal k'.

2. Le filtrage passe-bas garantit la cohérence de l'échelle dans toutes les résolutions

Cependant, l'utilisation seule de la convolution atreuse ne peut pas résoudre parfaitement le problème, comme le montre le coin supérieur gauche de la figure 3, en utilisant uniquement la convolution atreuse. encore des schémas de répétition dans les détails. L'auteur pense que cela est dû au fait que le phénomène de repliement de fréquence du sous-échantillonnage spatial modifie les composantes du domaine fréquentiel, entraînant des différences dans la distribution du domaine fréquentiel à différentes résolutions. Afin de garantir la cohérence de l'échelle entre les résolutions, ils ont introduit un filtrage passe-bas pour filtrer les composants haute fréquence afin de supprimer le problème de repliement de fréquence après le sous-échantillonnage spatial. Comme le montre la courbe de comparaison sur le côté droit de la figure 3, après avoir utilisé le filtrage passe-bas, la distribution des fréquences aux résolutions haute et basse est plus proche, garantissant ainsi une échelle cohérente. Comme le montre le coin inférieur gauche de la figure 3, après avoir utilisé le filtrage passe-bas, le phénomène de répétition des détails des motifs a été considérablement amélioré.

Sans formation, cette nouvelle méthode permet dobtenir la liberté de générer des tailles et des résolutions dimages.

Figure 3 (a) Comparaison visuelle indiquant si le filtrage passe-bas est utilisé. (b) Courbe d'amplitude logarithmique relative de Fourier sans filtrage passe-bas. (c) Courbe d'amplitude logarithmique relative de Fourier avec filtrage passe-bas.

3. Adaptable à la génération d'images de n'importe quelle taille

La méthode ci-dessus ne peut être adaptée que lorsque le rapport hauteur/largeur de la résolution générée est cohérent avec la résolution d'inférence par défaut afin de créer FouriScale. adaptable à n'importe quelle taille Pour la génération d'images, l'auteur adopte une méthode "remplir puis recadrer" La méthode 1 montre le pseudo-code de FouriScale qui combine cette stratégie. Le fonctionnement dans le domaine fréquentiel dans FouriScale provoque inévitablement une perte de détails et des artefacts indésirables dans le généré. images. Afin de résoudre ce problème, comme le montre la figure 4, l'auteur a proposé FouriScale comme méthode de guidage. Plus précisément, sur la base de l’estimation de génération conditionnelle originale et de l’estimation de génération inconditionnelle, ils ont introduit une estimation de génération conditionnelle supplémentaire. Le processus de génération de cette estimation de génération conditionnelle supplémentaire utilise également une convolution atreuse, mais utilise un filtrage passe-bas plus doux pour garantir que les détails ne sont pas perdus. Dans le même temps, ils utiliseront le score d'attention dans l'estimation de génération conditionnelle produite par FouriScale pour remplacer le score d'attention dans cette estimation de génération conditionnelle supplémentaire. Puisque le score d'attention contient les informations structurelles dans l'image générée, cette opération correctement L'image. les informations de structure sont introduites tout en garantissant la qualité de l'image.

Sans formation, cette nouvelle méthode permet dobtenir la liberté de générer des tailles et des résolutions dimages.

Figure 4 (a) Schéma de démarrage FouriScale. (b) L'image générée sans utiliser FouriScale comme guide présente des artefacts évidents et des erreurs de détail. (c) Image générée en utilisant FouriScale comme guide.

Expérience

1. Résultats des tests quantitatifs Sans formation, cette nouvelle méthode permet dobtenir la liberté de générer des tailles et des résolutions dimages.

L'auteur a suivi la méthode de [1] et a testé trois modèles de diagramme de Vincent (dont SD 1.5, SD 2.1 et SDXL 1.0), et généré quatre images de plus haute résolution. Les résolutions testées étaient 4x, 6,25x, 8x et 16x le nombre de pixels de leurs résolutions d'entraînement respectives. Les résultats de l'échantillonnage aléatoire de 30 000/10 000 paires image-texte sur Laion-5B sont présentés dans le tableau 1 :

Tableau 1 Comparaison des résultats quantitatifs de différentes méthodes sans formation

Leurs méthodes sont meilleures dans chacun Le modèle pré-entraîné obtient des résultats optimaux à différentes résolutions.

2. Résultats des tests qualitatifs Sans formation, cette nouvelle méthode permet dobtenir la liberté de générer des tailles et des résolutions dimages.

Comme le montre la figure 5, leur méthode peut garantir une qualité de génération d'images et une structure cohérente dans chaque modèle pré-entraîné et à différentes résolutions.

Sans formation, cette nouvelle méthode permet dobtenir la liberté de générer des tailles et des résolutions dimages.

Figure 5 Comparaison des images générées par différentes méthodes sans formation

Conclusion

Cet article propose FouriScale pour améliorer la capacité des modèles de diffusion pré-entraînés à générer des images haute résolution. FouriScale est analysé à partir du domaine fréquentiel et améliore la cohérence de la structure et de l'échelle à différentes résolutions grâce à des opérations de convolution atreuse et de filtrage passe-bas, résolvant ainsi des défis clés tels que les motifs répétés et la distorsion structurelle. L'adoption d'une stratégie « remplir puis recadrer » et l'utilisation de FouriScale comme guide améliorent la flexibilité et la qualité de la génération de texte en image tout en s'adaptant à la génération de différents formats d'image. Des comparaisons expérimentales quantitatives et qualitatives montrent que FouriScale peut garantir une qualité de génération d'images supérieure sous différents modèles pré-entraînés et différentes résolutions.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!