communauté Apprendre Bibliothèque d'outils Loisirs

Français

Maison > Périphériques technologiques > IA > La synthèse et l'édition d'images multimodales sont si populaires que l'Institut Max Planck, l'Institut technologique de Nanyang et d'autres ont publié une étude détaillée.

La synthèse et l'édition d'images multimodales sont si populaires que l'Institut Max Planck, l'Institut technologique de Nanyang et d'autres ont publié une étude détaillée.

PHPz

Libérer： 2023-04-09 22:31:01

avant

1127 Les gens l'ont consulté

Les récents DALLE-2 publiés par OpenAI et Imagen publiés par Google ont obtenu des effets étonnants de génération de texte en image, qui ont attiré une large attention et ont donné naissance à de nombreuses applications intéressantes. La génération de texte en image est une tâche typique dans le domaine de la synthèse et de l'édition d'images multimodales. Récemment, des chercheurs de l'Institut Max Planck, de l'Institut technologique de Nanyang et d'autres institutions ont mené une enquête et une analyse détaillées sur l'état de la recherche et le développement futur du vaste domaine de la synthèse et de l'édition d'images multimodales.

La synthèse et lédition dimages multimodales sont si populaires que lInstitut Max Planck, lInstitut technologique de Nanyang et dautres ont publié une étude détaillée.

Adresse papier : https://arxiv.org/pdf/2112.13592.pdf
Adresse du projet : https://github.com/fnzhan/MISE

La synthèse et lédition dimages multimodales sont si populaires que lInstitut Max Planck, lInstitut technologique de Nanyang et dautres ont publié une étude détaillée.

Dans le premier chapitre, cette revue décrit l'importance et le développement global des tâches de synthèse et d'édition d'images multimodales, ainsi que la contribution et la structure globale de cet article.

Dans le deuxième chapitre, basé sur les modalités de données qui guident la synthèse et l'édition d'images, cet article de synthèse présente le guidage visuel les plus couramment utilisés (tels que les cartes sémantiques, les cartes de points clés, les cartes de contours), le guidage textuel et le guidage vocal. Le graphe de scène guide et traite les données modales correspondantes ainsi qu'un cadre de représentation unifié.

Dans le troisième chapitre, selon le cadre modèle de synthèse et d'édition d'images, l'article classe diverses méthodes actuelles, notamment les méthodes basées sur le GAN, les méthodes autorégressives, les méthodes de modèle de diffusion et la méthode des champs de rayonnement neuronal (NeRF).

La synthèse et lédition dimages multimodales sont si populaires que lInstitut Max Planck, lInstitut technologique de Nanyang et dautres ont publié une étude détaillée.

La synthèse et lédition dimages multimodales sont si populaires que lInstitut Max Planck, lInstitut technologique de Nanyang et dautres ont publié une étude détaillée.

Étant donné que les méthodes basées sur GAN utilisent généralement le GAN conditionnel et l'inversion inconditionnelle du GAN, cet article divise en outre cette catégorie en conditions intra-modales (telles que les cartes sémantiques, les cartes de bord), les -conditions modales Les conditions modales (telles que le texte et la parole) et l'inversion GAN (modalités unifiées) sont décrites en détail.

La synthèse et lédition dimages multimodales sont si populaires que lInstitut Max Planck, lInstitut technologique de Nanyang et dautres ont publié une étude détaillée.

Par rapport aux méthodes basées sur GAN, la méthode du modèle autorégressif peut traiter les données multimodales plus naturellement et utiliser le modèle Transformer actuellement populaire. Les méthodes autorégressives apprennent généralement d'abord un codeur de quantification vectorielle à représenter discrètement les images sous forme de séquences de jetons, puis modélisent de manière autorégressive la distribution des jetons. Étant donné que des données telles que le texte et la parole peuvent être représentées sous forme de jetons et utilisées comme conditions pour la modélisation autorégressive, diverses tâches de synthèse et d'édition d'images multimodales peuvent être unifiées dans un cadre unique.

La synthèse et lédition dimages multimodales sont si populaires que lInstitut Max Planck, lInstitut technologique de Nanyang et dautres ont publié une étude détaillée.

La synthèse et lédition dimages multimodales sont si populaires que lInstitut Max Planck, lInstitut technologique de Nanyang et dautres ont publié une étude détaillée.

Récemment, le modèle de diffusion populaire a également été largement utilisé dans les tâches de synthèse et d'édition multimodales. Par exemple, les étonnants DALLE-2 et Imagen sont tous deux implémentés sur la base du modèle de diffusion. Comparé au GAN, le modèle de génération de diffusion présente de bonnes propriétés, telles que des objectifs de formation statiques et une évolutivité facile. Cet article classe et analyse en détail les méthodes existantes sur la base de modèles de diffusion conditionnelle et de modèles de diffusion pré-entraînés.

La synthèse et lédition dimages multimodales sont si populaires que lInstitut Max Planck, lInstitut technologique de Nanyang et dautres ont publié une étude détaillée.

La synthèse et lédition dimages multimodales sont si populaires que lInstitut Max Planck, lInstitut technologique de Nanyang et dautres ont publié une étude détaillée.

Les méthodes ci-dessus se concentrent principalement sur la synthèse multimodale et l'édition d'images 2D. Avec le récent développement rapide des champs de rayonnement neuronal (NeRF), la synthèse et l'édition multimodales pour la perception 3D ont attiré de plus en plus d'attention. La synthèse et l'édition multimodales pour la perception 3D sont une tâche plus difficile en raison de la nécessité de prendre en compte la cohérence multi-vues. Cet article classe et résume les travaux existants sur trois méthodes d'optimisation de scène unique NeRF, NeRF générative et d'inversion NeRF.

Par la suite, cette revue compare et discute les quatre méthodes modèles ci-dessus. Dans l’ensemble, les modèles de pointe actuels privilégient les modèles autorégressifs et de diffusion par rapport aux GAN. L'application de NeRF aux tâches de synthèse et d'édition multimodales ouvre une nouvelle fenêtre pour la recherche dans ce domaine.

La synthèse et lédition dimages multimodales sont si populaires que lInstitut Max Planck, lInstitut technologique de Nanyang et dautres ont publié une étude détaillée.

Dans le chapitre 4, cette revue rassemble des ensembles de données populaires et les annotations modales correspondantes dans le domaine de la synthèse et de l'édition multimodales, et cible les tâches typiques de chaque modalité (synthèse d'images sémantiques, texte- synthèse d'images, édition d'images guidée par la voix) présentent une comparaison quantitative des méthodes actuelles.

Dans le chapitre 5, cette revue discute et analyse les défis actuels et les orientations futures dans ce domaine, y compris les ensembles de données multimodales à grande échelle, les mesures d'évaluation précises et fiables, l'architecture de réseau efficace et l'orientation de développement perçue en 3D.

Dans les chapitres 6 et 7, la revue développe l'impact social potentiel de ce domaine et résume respectivement le contenu et la contribution de l'article.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées：

图像模型

source：51cto.com

Article précédent：Nouvelles règles du Département américain du Commerce : le partage de vulnérabilités de sécurité avec la Chine sans approbation est interdit et les objections de Microsoft sont invalides Article suivant：eBay utilise l'apprentissage automatique pour améliorer les annonces de vente

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Les clés du codage : libérer la puissance du C pour les débutants

2024-10-13 11:44:01
Connectez votre site Web aux bases de données avec PHP et MySQL

2024-10-13 09:56:31
Résolution de problèmes avec Python : débloquez des solutions puissantes en tant que codeur débutant

2024-10-11 20:58:41
Python Power, simplifié : une approche de la programmation adaptée aux débutants

2024-10-11 16:53:11
PHP et médias sociaux : intégrez votre site Web au monde

2024-10-11 11:54:51
Galeries d'images dynamiques avec PHP : présentez votre travail en ligne

2024-10-10 16:21:01
Créez des API et des services Web avec PHP

2024-10-10 15:18:02
Démystifier Java : un chemin clair et simple pour les nouveaux programmeurs

2024-10-10 13:34:01
Créer des jeux et des graphiques avec C : une introduction amusante et pratique

2024-10-10 13:26:26
Comment jouer Cheng Yaojin dans Glory of Kings ?

2024-10-10 11:38:42

Derniers numéros

Un pool de travail déclaré sur plusieurs routes peut-il toujours maintenir son utilisation du processeur sans se soucier du seuil J'espère trouver un système node.js avec un pool de travailleurs pour gérer les tâches gou...

Depuis 2024-04-06 19:54:23

0

1

444

Calculer la somme des champs dans une autre table à l'aide d'une requête MySQL SQL J'ai un schéma comme celui-ci : Table utilisateur avec les attributs "user_id" e...

Depuis 2024-04-06 19:39:29

0

1

441

Impossible d'obtenir l'élément d'entrée du site Web J'essaie donc d'obtenir un élément d'entrée de Twitter mais lorsque je l'exécute, cela con...

Depuis 2024-04-06 18:59:57

0

1

442

Utiliser des variables définies dans des méthodes dans des modèles C'est la première fois que j'utilise Vue (v2 et non v3) et j'ai essayé d'utiliser des vari...

Depuis 2024-04-06 18:10:25

0

2

513

Générez des valeurs par défaut et des variables CSS à l'aide de SCSS J'implémente le style du site Web. Pour des raisons de support hérité, je dois prendre en ...

Depuis 2024-04-06 17:46:54

0

1

355

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal