Ces dernières années, la technologie de l'intelligence artificielle a obtenu des résultats de renommée mondiale, parmi lesquels la recherche dans les domaines du traitement du langage naturel (NLP) et de la vision par ordinateur occupe une place particulièrement importante. Dans ces domaines, un modèle appelé Transformer est progressivement devenu un point chaud de la recherche, et des résultats innovants autour de ce modèle émergent les uns après les autres. Cet article explorera comment Transformer mène l'épanouissement de la technologie de l'IA sous des aspects tels que ses principes, ses applications et ses pratiques industrielles.
Avant d'introduire Transformer, vous devez comprendre ses connaissances de base - Réseau neuronal récurrent (RNN) et Réseau de mémoire à long terme (LSTM). RNN présente des problèmes de disparition de gradient et d'explosion de gradient lors du traitement des données de séquence, ce qui le rend peu performant dans les tâches de longue séquence. Afin de résoudre ce problème, le LSTM a vu le jour et a efficacement atténué les problèmes de disparition et d'explosion des gradients en introduisant un mécanisme de déclenchement. Afin de résoudre ce problème, le LSTM a vu le jour et a efficacement atténué les problèmes de disparition et d'explosion des gradients en introduisant un mécanisme de déclenchement.
En 2017, l'équipe de Google a lancé un tout nouveau modèle - Transformer. Son idée principale est d'utiliser le mécanisme d'auto-attention (Self-Attention) pour remplacer le réseau neuronal récurrent traditionnel. Transformer a obtenu des résultats remarquables dans le domaine du NLP, notamment dans les tâches de traduction automatique, et ses performances dépassent de loin le LSTM. Ce modèle a été largement utilisé dans les tâches de traitement du langage naturel telles que la traduction automatique et les systèmes de questions-réponses.
Le transformateur se compose de deux parties : l'encodeur (Encoder) et le décodeur (Decoder). L'encodeur est responsable du mappage de la séquence d'entrée en une série de vecteurs, et le décodeur est basé sur la sortie de l'encodeur et du pièces connues. Sortie, prédisez la prochaine sortie. Dans les tâches séquence à séquence, telles que la traduction automatique, l'encodeur mappe la phrase en langue source en une série de vecteurs, et le décodeur génère la phrase en langue cible sur la base de la sortie de l'encodeur et de la sortie partielle connue.
« (1) Encodeur : l'encodeur se compose de plusieurs couches identiques, et chaque couche comprend deux sous-couches : un mécanisme d'auto-attention multi-têtes et un réseau de rétroaction positionnel entièrement connecté. » Remarque : le paragraphe de cet article concerne la structure de l'encodeur dans le réseau neuronal. La signification originale doit être conservée après modification et le nombre de mots ne doit pas dépasser 114.
Le décodeur est composé de plusieurs couches identiques, chaque couche comprenant trois sous-couches : un mécanisme d'attention multi-têtes, un mécanisme d'attention codeur-décodeur et un réseau de transmission directe. Le mécanisme d'auto-attention multi-têtes, le mécanisme d'attention du codeur-décodeur et l'encodeur de position sont ses composants clés, qui peuvent mettre en œuvre le mécanisme d'attention du décodeur tout en couvrant la position et les réseaux de rétroaction entièrement connectés. De plus, le mécanisme d'attention et l'encodeur de position du décodeur peuvent également améliorer ses performances grâce à des connexions réseau, qui peuvent être utilisées sur tout le réseau.
Le mécanisme d'auto-attention est au cœur de Transformer, et son calcul Le processus est le suivant :
(1) Calculer trois matrices de Requête, Clé et Valeur Ces trois matrices sont obtenues par transformation linéaire du vecteur d'entrée.
(2) Calculez le score d'attention, qui est le produit scalaire de Query et Key.
(3) Divisez le score d'attention par une constante pour obtenir le poids d'attention.
(4) Multipliez le poids d'attention et la valeur pour obtenir le résultat pondéré.
(5) Effectuez une transformation linéaire sur la sortie pondérée pour obtenir la sortie finale.
Transformer a obtenu des résultats remarquables dans le domaine de la PNL, comprenant principalement les aspects suivants :
(1) Traduction automatique : Transformer a obtenu des résultats remarquables dans le cadre du WMT2014 anglais-allemand tâche de traduction Meilleur résultat du moment.
(2) Classification de texte : Transformer fonctionne bien dans les tâches de classification de texte, en particulier dans les tâches de classification de texte long, ses performances dépassent de loin le LSTM.
(3) Analyse des sentiments : Transformer est capable de capturer les dépendances à longue distance et a donc une grande précision dans les tâches d'analyse des sentiments.
Avec le succès de Transformer dans le domaine de la PNL, les chercheurs ont commencé à l'appliquer au domaine de la vision par ordinateur et ont obtenu les résultats suivants :
(1) Classification d'image : modèle basé sur un transformateur dans l'image ImageNet tâche de classification A obtenu de bons résultats.
(2) Détection de cible : le transformateur fonctionne bien dans les tâches de détection de cible, telles que le modèle DETR (Detection Transformer).
(3) Génération d'images : les modèles basés sur des transformateurs tels que GPT-3 ont obtenu des résultats impressionnants dans les tâches de génération d'images.
Des universitaires chinois ont obtenu des résultats fructueux dans le domaine du Transformer, tels que :
(1) Le modèle ERNIE proposé par l'Université Tsinghua, grâce à l'amélioration des connaissances. , Amélioration des performances des modèles de langage pré-entraînés.
(2) Le modèle BERT-wwm proposé par l'Université Jiao Tong de Shanghai améliore les performances du modèle sur les tâches chinoises en améliorant les objectifs de pré-formation.
Les entreprises chinoises ont également obtenu des résultats remarquables dans le domaine des transformateurs, tels que :
(1) Le modèle ERNIE proposé par Baidu est utilisé dans les moteurs de recherche, la reconnaissance vocale et d'autres domaines.
(2) Le modèle M6 proposé par Alibaba est utilisé dans la recommandation e-commerce, la prédiction publicitaire et d'autres activités.
Transformer est de plus en plus largement utilisé dans l'industrie, incluant principalement les aspects suivants :
(1) Moteur de recherche : utiliser Transformer pour la compréhension sémantique , améliorez la qualité de la recherche.
(2) Reconnaissance vocale : Grâce au modèle Transformer, une reconnaissance vocale plus précise est obtenue.
(3) Système de recommandation : modèle de recommandation basé sur un transformateur pour améliorer la précision des recommandations et l'expérience utilisateur.
(1) Compression et optimisation du modèle : à mesure que l'échelle du modèle continue de s'étendre, la manière de compresser et d'optimiser le modèle Transformer est devenue un point chaud de la recherche.
(2) Apprentissage multimodal : Transformer présente des avantages dans le traitement des données multimodales et devrait faire des percées dans le domaine de l'apprentissage multimodal à l'avenir.
(3) Développement de modèles de pré-formation : à mesure que la puissance de calcul augmente, les modèles de pré-formation continueront à se développer.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!