Décomposer l'innovation d'intégration de la PNL et du CV : faire le point sur l'apprentissage profond multimodal de ces dernières années-IA-php.cn

Ces dernières années, les domaines de la PNL et du CV ont fait des percées continues dans les méthodes. Non seulement les modèles monomodaux ont progressé, mais les méthodes multimodales à grande échelle sont également devenues un domaine de recherche très populaire.

Décomposer linnovation dintégration de la PNL et du CV : faire le point sur lapprentissage profond multimodal de ces dernières années

Adresse papier : https://arxiv.org/pdf/2301.04856v1.pdf
Adresse du projet : https://github.com/slds-lmu/seminar_multimodal_ dl

Dans un article récent, le chercheur Matthias Aßenmacher a passé en revue les méthodes de recherche les plus avancées dans les deux sous-domaines de l'apprentissage profond et a tenté de donner un aperçu complet. En outre, les cadres de modélisation permettant de convertir une modalité en une autre sont discutés (chapitres 3.1 et 3.2), ainsi que les modèles d'apprentissage des représentations qui exploitent une modalité pour en améliorer une autre (chapitre 3.3 et chapitre 3.4). Les chercheurs concluent la deuxième partie en introduisant une architecture axée sur le traitement simultané des deux modalités (chapitre 3.5). Enfin, l'article couvre également d'autres modalités (chapitres 4.1 et 4.2) ainsi que des modèles multimodaux généraux (chapitre 4.3) capables de gérer différentes tâches sur différentes modalités dans une architecture unifiée. Une application intéressante (« Generative Art », chapitre 4.4) finit par être la cerise sur le gâteau de cette revue.

La table des matières des chapitres de la thèse est la suivante :

Décomposer linnovation dintégration de la PNL et du CV : faire le point sur lapprentissage profond multimodal de ces dernières années

Introduction à l'apprentissage profond multimodal

Les humains ont cinq sens fondamentaux : l'ouïe, le toucher, l'odorat, le goût et vision. Grâce à ces cinq modes, nous percevons et comprenons le monde qui nous entoure. La « multimodalité » signifie utiliser une combinaison de plusieurs canaux d'information en même temps pour comprendre l'environnement. Par exemple, lorsque les tout-petits apprennent le mot « chat », ils le prononcent à voix haute de différentes manières, en pointant le chat et en émettant des sons comme « miaou ». Les chercheurs en IA utilisent le processus d’apprentissage humain comme paradigme et combinent différentes modalités pour former des modèles d’apprentissage profond.

En surface, les algorithmes d'apprentissage profond optimisent une fonction objectif définie en entraînant un réseau neuronal pour optimiser une fonction de perte. L'optimisation, c'est-à-dire la minimisation de la perte, est réalisée grâce à une procédure d'optimisation numérique appelée descente de gradient. Par conséquent, les modèles d’apprentissage profond ne peuvent traiter que des entrées numériques et ne peuvent produire que des sorties numériques. Cependant, dans les tâches multimodales, nous rencontrons souvent des données non structurées telles que des images ou du texte. Par conséquent, la première question concernant les tâches multimodales est de savoir comment représenter numériquement l’entrée ; la seconde est de savoir comment combiner de manière appropriée différentes modalités.

Par exemple, entraîner un modèle d'apprentissage profond pour générer une image d'un chat peut être une tâche typique. Tout d’abord, l’ordinateur doit comprendre le texte saisi « chat », puis convertir d’une manière ou d’une autre cette information en une image spécifique. Par conséquent, il est nécessaire de déterminer la relation contextuelle entre les mots dans le texte d’entrée et la relation spatiale entre les pixels dans l’image de sortie. Ce qui pourrait être facile pour un jeune enfant peut être un défi de taille pour un ordinateur. Tous deux doivent avoir une certaine compréhension du mot « chat », notamment de la connotation et de l’apparence de l’animal.

Une méthode courante dans le domaine actuel de l'apprentissage profond consiste à générer des intégrations qui représentent numériquement les chats en tant que vecteurs dans un espace latent. Pour y parvenir, diverses méthodes et architectures d’algorithmes ont été développées ces dernières années. Cet article donne un aperçu des diverses méthodes utilisées dans l'apprentissage profond multimodal de pointe (SOTA) pour surmonter les défis posés par les données non structurées et les combinaisons de différentes entrées modales.

Introduction au chapitre

Étant donné que les modèles multimodaux prennent généralement du texte et des images en entrée ou en sortie, le chapitre 2 se concentre sur les méthodes de traitement du langage naturel (NLP) et de vision par ordinateur (CV). Les méthodes dans le domaine de la PNL se concentrent principalement sur le traitement des données textuelles, tandis que CV traite principalement du traitement des images.

Un concept très important à propos de la PNL (section 2.1) est appelé intégration de mots, qui constitue désormais une partie importante de presque toutes les architectures d'apprentissage profond multimodal. Ce concept a également jeté les bases de modèles basés sur Transformer tels que BERT, qui ont réalisé des progrès significatifs dans plusieurs tâches NLP. En particulier, le mécanisme d'auto-attention de Transformer a complètement modifié le modèle PNL, c'est pourquoi la plupart des modèles PNL utilisent Transformer comme noyau.

En vision par ordinateur (section 2.2), l'auteur présente différentes architectures de réseau, à savoir ResNet, EfficientNet, SimCLR et BYOL. Dans les deux domaines, il est très intéressant de comparer les différentes approches et leurs performances sur des critères difficiles. Par conséquent, la sous-section 2.3 à la fin du chapitre 2 fournit un aperçu complet des différents ensembles de données, des tâches de pré-formation et des références pour le CV et la PNL.

Le chapitre 3 se concentre sur différentes architectures multimodales, couvrant diverses combinaisons de texte et d'images. Le modèle proposé combine et fait progresser la recherche de différentes méthodes de PNL et de CV. Nous introduisons d'abord la tâche Img2Text (section 3.1), l'ensemble de données Microsoft COCO pour la reconnaissance d'objets et le Meshed-Memory Transformer pour la capture d'images.

De plus, les chercheurs ont développé une méthode pour générer des images basées sur de courtes invites textuelles (Section 3.2). Les premiers modèles à accomplir cette tâche ont été les réseaux contradictoires génératifs (GAN) et les auto-encodeurs variationnels (VAE). Ces dernières années, ces méthodes ont été continuellement améliorées, et l'architecture actuelle du transformateur SOTA et les modèles de diffusion guidés par texte tels que DALL-E et GLIDE ont obtenu des résultats remarquables. Une autre question intéressante est de savoir comment exploiter les images pour prendre en charge les modèles de langage (Section 3.3). Ceci peut être réalisé via une intégration séquentielle, une intégration réelle plus avancée ou directement à l'intérieur du transformateur.

Jetez également un œil aux modèles de CV compatibles texte tels que CLIP, ALIGN et Florence (section 3.4). L'utilisation de modèles de base implique une réutilisation de modèles (par exemple CLIP dans DALL-E 2), ainsi qu'une perte contrastive des connexions texte-image. De plus, le tir zéro facilite la classification des données nouvelles et invisibles grâce à un réglage précis. En particulier, CLIP, une architecture open source pour la classification et la génération d'images, a attiré beaucoup d'attention l'année dernière. D'autres architectures pour traiter simultanément du texte et des images sont introduites à la fin du chapitre 3 (section 3.5).

Par exemple, Data2Sec utilise la même méthode d'apprentissage pour traiter la parole, la vision et le langage, et essaie de trouver une méthode générale pour gérer différentes modalités dans une seule architecture. De plus, VilBert étend l'architecture BERT populaire pour gérer les entrées d'images et de texte en implémentant une attention conjointe. Cette approche est également utilisée dans Deepmind Flamingo de Google. De plus, Flamingo vise à gérer plusieurs tâches avec un seul modèle de langage visuel grâce à un apprentissage en quelques étapes et au gel de modèles de vision et de langage pré-entraînés.

Le dernier chapitre (Chapitre 4) présente des méthodes capables de gérer des modalités autres que le texte et les images, telles que la vidéo, la parole ou les données tabulaires. L’objectif global est d’explorer des architectures multimodales universelles qui ne sont pas modales pour le plaisir de la modalité, mais qui permettent de relever facilement les défis. Par conséquent, nous devons également traiter le problème de la fusion et de l’alignement multimodaux, et décider s’il convient d’utiliser des représentations conjointes ou coordonnées (section 4.1). De plus, la combinaison précise de données structurées et non structurées sera décrite plus en détail (section 4.2).

L'auteur propose également différentes stratégies d'intégration qui ont été développées ces dernières années, que cet article illustre à travers deux cas d'usage en analyse de survie et en économie. Au-delà de cela, une autre question de recherche intéressante est de savoir comment gérer différentes tâches dans un modèle dit polyvalent (section 4.3), comme celui créé par les chercheurs de Google dans leur modèle « Pathway ». Enfin, l'article montrera une application typique de l'apprentissage profond multimodal dans la scène artistique, utilisant des modèles de génération d'images tels que DALL-E pour créer des œuvres d'art dans le domaine de l'art génératif (section 4.4).

Pour plus d'informations, veuillez vous référer au document original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!