Actuellement, l'intelligence artificielle et la technologie d'apprentissage profond deviennent une base importante pour la génération de texte-image, la super-résolution et d'autres applications.
Maintenant, on peut saisir une description très détaillée d'une image pour obtenir une image réaliste correspondant au texte donné.
Vous pouvez également convertir une image de basse résolution en haute résolution pour générer une série de détails éclatants pour l'image.
Les réseaux de neurones semblent avoir des capacités infinies. Alors, ces méthodes peuvent-elles être utilisées pour voyager dans le temps ?
Par exemple, vous êtes-vous déjà demandé à quoi ressemblerait une photo de vous si elle avait été prise il y a cinquante ou cent ans ? À quoi ressemblerait votre acteur ou actrice préféré s’il était né à une époque complètement différente de la leur ?
Première étape du voyage dans le temps : résoudre le défi des ensembles de données
Compte tenu du récent succès de StyleGAN dans la synthèse et l'édition de visages de haute qualité, de nombreux travaux se sont concentrés sur l'utilisation de modèles StyleGAN pré-entraînés pour l'édition de portraits.
Cependant, les techniques existantes traitent généralement de propriétés sémantiques bien définies. Par exemple, ajoutez ou supprimez un sourire ou modifiez l'âge d'une personne sur une photo.
La logique derrière ce travail est de garder inchangés ces attributs qui composent l’identité d’une personne, tout en utilisant ce chariot d’intelligence artificielle pour la renvoyer vers le passé ou vers le futur.
Dans ce cas, le principal problème auquel sont confrontés les gens est le manque d'ensembles de données adaptés. Comme nous le savons tous, même avec un modèle de réseau neuronal parfait, les ensembles de données restent un cauchemar pour tout chercheur en intelligence artificielle.
Des données déséquilibrées, insuffisantes ou indisponibles sont des problèmes courants dans le domaine du deep learning, qui peuvent conduire à des biais dans les données ou à des résultats inexacts.
Afin de surmonter ce problème, une équipe de recherche dirigée par Eric Ming Chen (2e à partir de la gauche), un scientifique chinois de l'Université Cornell, a créé l'ensemble de données FTT (Face Through Time).
Chen a publié conjointement une publication avec le scientifique chinois Jin Sun de l'Université de Géorgie et d'autres, expliquant en détail le principe de fonctionnement de l'ensemble de données « Face Through Time ».
Les images de cet ensemble de données proviennent de Wikimedia Commons. La plate-forme propose cinquante millions d’images issues du crowdsourcing et sous licence ouverte. FTT a analysé 26 247 portraits du XIXe au XXIe siècle, soit en moyenne environ 1 900 images par décennie.
Comment ces changements sont-ils réalisés ?
L'équipe de recherche s'est appuyée sur la hiérarchie parent-enfant StyleGAN (Generative Adversarial Network). La particularité est qu'ils n'ont pas choisi de former un seul modèle couvrant toutes les décennies, mais ont plutôt ajouté un sous-modèle pour chaque décennie d'ensembles d'images, entraînant ainsi l'ensemble de modèles pour mieux synthétiser la distribution des données de chaque période.
Dans le même temps, afin de préserver l'identité et la posture de la personne décrite, l'équipe de recherche utilise un modèle parental pour cartographier ces informations en vecteurs spatiaux latents.
Tout d'abord, formez un ensemble de modèles StyleGAN, un pour chaque époque, et utilisez la perte contradictoire et la perte d'identité pour former une image de visage mixte. Cette carte de visage est la sortie du modèle enfant et a été modifiée afin que la carte mélangée ait des couleurs similaires à celles du modèle parent.
L'équipe de recherche suggère qu'au cours de ce processus, il est nécessaire d'éviter les incohérences dans la perte d'identité dues au calcul des caractéristiques dans ArcFace, un modèle de reconnaissance faciale populaire. Étant donné que le modèle ArcFace n’a été formé que sur des images modernes, les chercheurs ont constaté qu’il fonctionnait mal sur des images historiques.
Ensuite, chaque image réelle est projetée sur un vecteur w sur la variété décennale (1960 dans l'image ci-dessous). Sur ce vecteur, le générateur G′t est entraîné pour transférer les détails raffinés à tous les sous-modèles. Enfin, un masque est appliqué à l'image d'entrée pour encourager le modèle à préserver les détails du visage du portrait.
Après avoir affiné tous les sous-modèles, l'équipe de recherche a découvert que les sous-modèles FTT de différentes époques (orange dans l'image ci-dessous) étaient capturés avec succès dans le modèle parent (bleu dans l'image ci-dessous) lors du changement de coiffure. et le maquillage. Caractéristiques du portrait de chaque image.
Ce nouveau cadre d'image synthétique présente deux points forts : premièrement, il réalise le souhait de portraits voyageant dans le temps ; deuxièmement, cette technologie peut également conserver la plupart des détails du portrait lors de la transformation temporelle du visage ;
Bien qu'il présente encore des écarts mineurs dans l'ensemble de données (par exemple, plusieurs femmes aux cheveux courts apparaissent dans des images du début du 20e siècle), entraînant des incohérences dans les images de sortie, ce modèle est plus réaliste que les travaux précédents. Beaucoup amélioré.
"The Face Travelling Through Time" commence la première étape du voyage dans le temps. Un tel degré de précision amène les gens à se demander : cette fois, ce sont des portraits qui transcendent le temps, mais qu'en sera-t-il la prochaine fois ?
Référence :
https://www.marktechpost.com/2022/11/09/latest-artificial-intelligence-ai-research-proposes-a-method-to-transform-faces-through-time/
https://facesthroughtime.github.io/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!