Table des matières
Le début (2012-2015)
Cinq années de GAN (2015-2020)
Maison Périphériques technologiques IA Hinton est sur la liste ! Bilan des 10 ans d'histoire de la synthèse d'images par l'IA, articles et noms à retenir

Hinton est sur la liste ! Bilan des 10 ans d'histoire de la synthèse d'images par l'IA, articles et noms à retenir

May 15, 2023 pm 07:04 PM
ai 图像

Maintenant, nous sommes fin 2022.

Les performances des modèles d'apprentissage profond dans la génération d'images sont déjà très bonnes. Évidemment, cela nous réservera d’autres surprises à l’avenir.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Comment en sommes-nous arrivés là où nous en sommes aujourd'hui en dix ans ?

Dans la chronologie ci-dessous, nous retracerons quelques moments marquants, c'est-à-dire le lancement des articles, des architectures, des modèles, des ensembles de données et des expériences qui ont influencé la synthèse d'images de l'IA.

Tout commence à partir de cet été il y a dix ans.

Le début (2012-2015)

Après l'avènement des réseaux de neurones profonds, les gens ont réalisé que cela révolutionnerait la classification des images.

Dans le même temps, les chercheurs ont commencé à explorer la direction opposée : que se passerait-il si les images étaient produites à l'aide de techniques très efficaces pour la classification, comme les couches convolutives ?

C'est le début de « l'été de l'intelligence artificielle ».

Décembre 2012

C'est là que tout a commencé.

Cette année, l'article "Classification ImageNet des réseaux de neurones à convolution profonde" a été publié.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

L'un des auteurs de l'article est Hinton, l'un des « trois grands » de l'IA.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Il combine pour la première fois des réseaux de neurones convolutifs profonds (CNN), un GPU et un énorme ensemble de données provenant d'Internet (ImageNet).

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

En décembre 2014

Ian Goodfellow et d'autres géants de l'IA ont publié l'article épique "Generative Adversarial Networks".

GAN est la première architecture de réseau neuronal moderne dédiée à la synthèse d'images plutôt qu'à l'analyse (la définition de « moderne » est postérieure à 2012).

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Il introduit une méthode d'apprentissage unique basée sur la théorie des jeux, avec deux sous-réseaux « Générateur » et « Discriminateur » en compétition.

Au final, seul le "générateur" est conservé en dehors du système et sert à la synthèse d'images.

Bonjour tout le monde ! GAN a généré des échantillons de visage à partir de l'article de Goodfellow et al. de 2014. Le modèle a été formé sur l'ensemble de données Toronto Faces, qui a été supprimé du Web

Novembre 2015

L'article fondateur "Using Deep Convolutional Generative Adversarial Networks" Unsupervised Representative Learning" a été publié.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Dans cet article, les auteurs décrivent la première architecture GAN pratiquement utilisable (DCGAN).

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Cet article soulève également pour la première fois la question de la manipulation de l'espace latent : les concepts correspondent-ils aux directions de l'espace latent ?

Cinq années de GAN (2015-2020)

Au cours de ces cinq années, GAN a été appliqué à diverses tâches de traitement d'image, telles que le transfert de style, la restauration, le débruitage et la super-résolution. Durant

, les articles sur l'architecture GAN ont commencé à exploser.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Adresse du projet : https://github.com/nightrome/really-awesome-gan

Dans le même temps, les expérimentations artistiques de GAN ont commencé à prendre de l'ampleur, Mike Tyka, Mario Klingenmann, Anna Ridler, Helena Sarin et d'autres sont apparus.

Le premier scandale de « l’art de l’IA » a eu lieu en 2018. Trois étudiants français ont utilisé du code « emprunté » pour générer un portrait IA, qui est devenu le premier portrait IA vendu aux enchères chez Christie's.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Dans le même temps, l'architecture des transformateurs a révolutionné la PNL.

Cette chose aura un grand impact sur la synthèse d'images dans un avenir proche.

Juin 2017

Publication du document "L'attention est tout ce dont vous avez besoin".

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Il y a également une explication détaillée dans « Transformers, expliqués : comprendre le modèle derrière GPT-3, BERT et T5 ».

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Depuis, l'architecture Transformer (sous forme de modèles pré-entraînés comme BERT) a révolutionné le domaine du traitement du langage naturel (NLP).

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Juillet 2018

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

L'article "Annotation conceptuelle : nettoyage, superposition et ensemble de données de texte alternatif d'image pour le sous-titrage automatique d'images" a été publié.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Cet ensemble de données multimodales et d'autres deviendront extrêmement importants pour des modèles comme CLIP et DALL-E.

En 2018-20

Les chercheurs de NVIDIA ont apporté une série d'améliorations approfondies à l'architecture GAN.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Dans l'article "Training Generative Adversarial Networks Using Limited Data", le dernier StyleGAN2-ada est présenté.

Pour la première fois, les images générées par

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

GAN deviennent impossibles à distinguer des images naturelles, du moins pour les ensembles de données hautement optimisés comme Flickr-Faces-HQ (FFHQ).

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Mario Klingenmann, Memories of Passerby I, 2018. Les visages baconesques sont typiques de l'art de l'IA dans la région, où le non-réalisme des modèles génératifs est au centre de l'exploration artistique

2020 5 mois

L'article "Language Model is a Small Sample Learner" a été publié.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Le transformateur pré-entraîné génératif LLM 3 (GPT-3) d'OpenAI démontre la puissance de l'architecture du transformateur.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Décembre 2020

L'article "Apprivoiser les transformateurs pour la synthèse d'images à haute résolution" a été publié.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

ViT montre que l'architecture Transformer peut être utilisée pour les images.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

La méthode VQGAN présentée dans cet article a produit des résultats SOTA dans des tests de référence.

La qualité des architectures GAN de la fin des années 2010 a été principalement évaluée sur la base d'images faciales alignées, avec des résultats limités pour des ensembles de données plus hétérogènes.

Le visage humain reste donc une référence importante dans les expérimentations académiques/industrielles et artistiques.

L'ère Transformer (2020-2022)

L'émergence de l'architecture Transformer a complètement réécrit l'histoire de la synthèse d'images.

Depuis lors, le domaine de la synthèse d'images a commencé à laisser derrière lui le GAN.

L'apprentissage profond « multimodal » intègre les technologies de PNL et de vision par ordinateur. L'« ingénierie juste-à-temps » remplace la formation et l'ajustement des modèles et devient une méthode artistique de synthèse d'images.

Dans l'article "Apprendre des modèles visuels transférables à partir de la supervision du langage naturel", l'architecture CLIP est proposée.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

On peut dire que l'engouement actuel pour la synthèse d'images est motivé par la fonction multimodale introduite pour la première fois par CLIP.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

CLIP Architecture en Papier

Janvier 2021

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

L'article "Zero-Sample Text to Image Generation" a été publié (voir aussi le billet de blog d'OpenAI), qui présente la première version de DALL-E qui est sur le point de sortir dans le monde.

Cette version fonctionne en combinant du texte et des images (compressées par VAE en "TOKEN") dans un seul flux de données.

Ce modèle "continue" simplement la "phrase".

Les données (250 millions d'images) comprennent des paires texte-image de Wikipédia, des descriptions de concepts et un sous-ensemble filtré de YFCM100M.

CLIP pose les bases de l'approche « multimodale » de la synthèse d'images.

Janvier 2021

L'article « Apprendre des modèles de vision transférables à partir de la supervision du langage naturel » a été publié.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

L'article présente CLIP, un modèle multimodal qui combine ViT et Transformer ordinaire.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

CLIP apprendra "l'espace latent partagé" des images et des légendes, afin de pouvoir étiqueter les images.

Le modèle est formé sur un grand ensemble de données répertorié à l'annexe A.1 de l'article.

Juin 2021

L'article "Le modèle de diffusion bat le GAN en synthèse d'images" a été publié.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Le modèle de diffusion introduit une méthode de synthèse d'images différente de la méthode GAN.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Les chercheurs apprennent en reconstruisant des images à partir de bruit ajouté artificiellement.

Ils sont liés aux auto-encodeurs variationnels (VAE).

Juillet 2021

Sortie du mini DALL-E.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

C'est une copie de DALL-E (plus petite, avec peu d'ajustements sur l'architecture et les données).

Les données incluent Conceptual 12M, Conceptual Captions et le même sous-ensemble filtré de YFCM100M utilisé par OpenAI pour le modèle DALL-E d'origine.

Sans filtres de contenu ni restrictions d'API, DALL-E mini offre un énorme potentiel d'exploration créative et a conduit à une explosion d'images « bizarres DALL-E » sur Twitter.

2021-2022

Katherine Crowson a publié une série de notes CoLab explorant les méthodes de création de modèles génératifs guidés par CLIP.

Par exemple, diffusion guidée 512x512CLIP et VQGAN-CLIP (génération et édition d'images en domaine ouvert avec guidage en langage naturel, publiée uniquement en préimpression en 2022 mais des expériences publiques sont apparues dès la sortie de VQGAN).

Tout comme au début de l'ère GAN, artistes et développeurs ont apporté des améliorations significatives aux architectures existantes avec des moyens très limités, qui ont ensuite été simplifiées par des entreprises et finalement commercialisées par des « startups » comme wombo.ai.

Avril 2022

L'article "Génération d'images conditionnelles de texte hiérarchique avec potentiel CLIP" a été publié.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Cet article présente DALL-E 2.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir


Il s'appuie sur l'article GLIDE ("GLIDE : Realistic Image Generation and Editing Using Text-Guided Diffusion Models") publié il y a quelques semaines à peine

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

. Pendant ce temps, il y a un regain d'intérêt pour le DALL-E mini en raison de l'accès limité et des limitations intentionnelles du DALL-E 2

Selon la fiche modèle, les données comprennent "une combinaison de ressources accessibles au public et de nos ressources sous licence ." Et les ensembles de données CLIP et DALL-E complets selon le journal.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

"Photo portrait de blonde, prise avec un appareil photo reflex numérique, fond neutre, haute résolution", générée à l'aide de DALL-E 2 . Les modèles génératifs basés sur des transformateurs correspondent au réalisme des architectures GAN ultérieures telles que StyleGAN 2, mais permettent la création d'une grande variété de thèmes et de modèles

Mai-juin 2022

En mai, le L'article "Realistic Text-to-Image Diffusion Model with Deep Language Understanding" a été publié

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

En juin, l'article "Scaling Autoregressive Model for Rich Text-to-Image Generation" a été publié.

Dans ces deux articles, Imagegen et Parti sont présentés

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

et la réponse de Google à DALL-E 2.


「Vous savez pourquoi je vous ai arrêté aujourd'hui ?" Généré par DALL- E 2, « l'ingénierie rapide » est depuis devenue la principale méthode de synthèse d'images artistiques

AI Photoshop (2022-présent)

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Bien que DALL-E 2 soit conçu pour les modèles d'images, il a établi une nouvelle norme, mais sa rapidité la commercialisation signifiait également que son utilisation était limitée dès le début.

Les utilisateurs ont continué à essayer des modèles plus petits tels que le DALL-E mini

Par la suite, tout a changé avec la sortie révolutionnaire de Stable Diffusion

.

On peut dire que Stable Diffusion marque le début de « l'ère Photoshop » de la synthèse d'images.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

"Nature morte avec quatre grappes de raisin, essayant de créer des raisins aussi réalistes que ceux du peintre antique Zeuxis Juan El Labrador Fernandez, 1636, Prado, Madrid" Six variations réalisées par Stable Diffusion

Août 2022

Stability.ai publie le modèle Stable Diffusion.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Dans l'article "Synthèse d'images haute résolution avec modèle de diffusion latente", Stability.ai présente fièrement la diffusion stable.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Ce modèle peut atteindre le même photoréalisme que DALL-E 2.

En plus du DALL-E 2, les modèles sont disponibles au public presque immédiatement et peuvent être exécutés sur les plateformes CoLab et Huggingface.

En août 2022

Google a publié l'article "DreamBooth : Fine-tuning text-to-image diffusion model for topic-driven Generation".

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

DreamBooth permet un contrôle de plus en plus fin du modèle de diffusion.

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Cependant, même sans une telle intervention technique supplémentaire, il devient possible d'utiliser des modèles génératifs comme Photoshop, à partir d'un croquis et en ajoutant des modifications génératives couche par couche.

Octobre 2022

Hinton est sur la liste ! Bilan des 10 ans dhistoire de la synthèse dimages par lIA, articles et noms à retenir

Shutterstock, l'une des plus grandes sociétés de photos, a annoncé un partenariat avec OpenAI pour fournir/licencer des images générées. sérieusement affecté par les modèles génératifs tels que Stable Diffusion.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

Repo: Comment relancer ses coéquipiers
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment utiliser Char Array dans la langue C Comment utiliser Char Array dans la langue C Apr 03, 2025 pm 03:24 PM

Le Array Char stocke des séquences de caractères en C et est déclaré Char Array_name [Taille]. L'élément d'accès est passé par l'opérateur d'indice, et l'élément se termine par le terminateur nul «\ 0», qui représente le point final de la chaîne. Le langage C fournit une variété de fonctions de manipulation de cordes, telles que strlen (), strcpy (), strcat () et strcmp ().

Quelle est la fonction de la somme du langage C? Quelle est la fonction de la somme du langage C? Apr 03, 2025 pm 02:21 PM

Il n'y a pas de fonction de somme intégrée dans le langage C, il doit donc être écrit par vous-même. La somme peut être obtenue en traversant le tableau et en accumulant des éléments: Version de boucle: la somme est calculée à l'aide de la longueur de boucle et du tableau. Version du pointeur: Utilisez des pointeurs pour pointer des éléments de tableau, et un résumé efficace est réalisé grâce à des pointeurs d'auto-incitation. Allouer dynamiquement la version du tableau: allouer dynamiquement les tableaux et gérer la mémoire vous-même, en veillant à ce que la mémoire allouée soit libérée pour empêcher les fuites de mémoire.

Évitez les erreurs causées par défaut dans les instructions du commutateur C Évitez les erreurs causées par défaut dans les instructions du commutateur C Apr 03, 2025 pm 03:45 PM

Une stratégie pour éviter les erreurs causées par défaut dans les instructions de commutateur C: utilisez des énumérations au lieu des constantes, limitant la valeur de l'instruction de cas à un membre valide de l'énumération. Utilisez Fallthrough dans la dernière instruction de cas pour permettre au programme de continuer à exécuter le code suivant. Pour les instructions de commutation sans tomber, ajoutez toujours une instruction par défaut pour la gestion des erreurs ou fournissez un comportement par défaut.

L'importance de la valeur par défaut dans l'instruction de cas de commutation (langue C) L'importance de la valeur par défaut dans l'instruction de cas de commutation (langue C) Apr 03, 2025 pm 03:57 PM

L'instruction par défaut est cruciale dans l'instruction de cas de commutateur car elle fournit un chemin de traitement par défaut qui garantit qu'un bloc de code est exécuté lorsque la valeur de variable ne correspond à aucune instruction de cas. Cela empêche un comportement ou des erreurs inattendu et améliore la robustesse du code.

Comment inverser le résultat de! X en C? Comment inverser le résultat de! X en C? Apr 03, 2025 pm 01:57 PM

Dans le langage C, vous pouvez utiliser !! X, mais il n'utilise que deux conversions booléennes, et il est plus concis et efficace pour utiliser x directement.

Quelle est la priorité de la langue C! X? Quelle est la priorité de la langue C! X? Apr 03, 2025 pm 02:06 PM

Le non-opérateur logique (!) A la priorité à côté des parenthèses, ce qui signifie que dans les expressions, il précédera la plupart des autres opérateurs. Comprendre la priorité nécessite non seulement une mémorisation par cœur, mais plus important encore, la compréhension de la logique et des pièges potentiels derrière lui pour éviter les erreurs indétectables dans les expressions complexes. L'ajout de supports peut clarifier l'intention d'expression, améliorer la clarté du code et la maintenabilité et empêcher un comportement inattendu.

Quel est l'impact du mot-clé externe sur les identifiants utilisateur dans le langage C? Quel est l'impact du mot-clé externe sur les identifiants utilisateur dans le langage C? Apr 03, 2025 pm 01:00 PM

Le mot-clé externe est utilisé dans le langage C pour déclarer des variables et des fonctions externes. Il indique au compilateur que la variable ou la fonction est définie ailleurs, demandant au compilateur de rechercher sa définition pendant l'étape de liaison. Lorsque Extern déclare les variables externes, l'espace mémoire n'est pas alloué et sa définition est effectuée dans d'autres fichiers; Lorsque Extern déclare les fonctions externes, elle n'inclut pas les implémentations de fonctions et son implémentation est également effectuée dans d'autres fichiers. L'utilisation de mots clés externes est généralement combinée avec des fichiers d'en-tête, ce qui est propice à la gestion du code et évite les déclarations répétées. Il est très important de comprendre la gestion par Extern des conflits de compilation et de dénomination multi-fichiers, et il joue un rôle clé dans le processus de liaison.

La somme est-elle un mot-clé dans le langage C? La somme est-elle un mot-clé dans le langage C? Apr 03, 2025 pm 02:18 PM

Le mot-clé SUM n'existe pas dans le langage C, il s'agit d'un identifiant normal et peut être utilisé comme un nom de variable ou de fonction. Mais pour éviter les malentendus, il est recommandé d'éviter de l'utiliser pour les identifiants des codes mathématiques. Des noms plus descriptifs tels que Array_sum ou Calcul_sum peuvent être utilisés pour améliorer la lisibilité du code.

See all articles