Examen des transformateurs : de BERT à GPT4-IA-php.cn

L'intelligence artificielle est devenue l'un des sujets les plus évoqués ces dernières années, et des services autrefois considérés comme de la pure science-fiction deviennent désormais une réalité grâce au développement des réseaux de neurones. Des agents conversationnels à la génération de contenu multimédia, l’intelligence artificielle change la façon dont nous interagissons avec la technologie. En particulier, les modèles d’apprentissage automatique (ML) ont fait des progrès significatifs dans le domaine du traitement du langage naturel (NLP). Une avancée majeure est l'introduction de « l'auto-attention » et de l'architecture Transformers pour le traitement des séquences, qui permet de résoudre plusieurs problèmes clés qui dominaient auparavant le domaine.

Transformers回顾：从BERT到GPT4

Dans cet article, nous examinerons l'architecture révolutionnaire des Transformers et comment elle change la PNL. Nous fournirons également un examen complet des modèles Transformers de BERT à Alpaca, en nous concentrant sur les principales caractéristiques de chaque modèle et. ses applications potentielles.

Modèle de texte de type Bert

La première partie est un modèle basé sur l'encodeur Transformer, qui est utilisé pour la vectorisation, la classification, l'étiquetage de séquence, l'assurance qualité (question et réponse), le NER (reconnaissance d'entité nommée), etc.

1. BERT Google / 2018

Encodeur de transformateur, tokenisation de mots (vocabulaire 30K). L'intégration d'entrée se compose de trois vecteurs : un vecteur d'étiquette, un vecteur de position pouvant être entraîné et un vecteur de fragment (soit le premier texte, soit le deuxième texte). Les entrées du modèle sont l'intégration du jeton CLS, l'intégration du premier texte et l'intégration du deuxième texte.

BERT a deux tâches de formation : la modélisation du langage masqué (MLM) et la prédiction de la phrase suivante (NSP). En MLM, 15 % des tokens sont masqués, 80 % sont remplacés par des tokens MASK, 10 % sont remplacés par des tokens aléatoires et 10 % restent inchangés. Le modèle prédit les bons tokens, et la perte est calculée uniquement sur ces 15 % de tokens bloqués. Dans NSP, le modèle prédit si le deuxième texte suit le premier texte. Les prédictions sont faites sur le vecteur de sortie des jetons CLS.

Pour accélérer la formation, d'abord 90 % de la formation est effectuée sur une longueur de séquence de 128 jetons, puis les 10 % restants du temps sont consacrés à entraîner le modèle sur 512 jetons pour obtenir des intégrations de position plus efficaces.

2, RoBERTa Facebook / 2019

Une version améliorée de BERT, il est uniquement formé sur MLM (car NSP est considéré comme moins utile), et la séquence de formation est plus longue (512 tokens). Grâce au masquage dynamique (différents jetons sont masqués lorsque les mêmes données sont à nouveau traitées), les hyperparamètres d'entraînement sont soigneusement choisis.

3. Dans le XLM original, toutes les langues avaient un vocabulaire BPE commun.

XLM a deux tâches de formation : MLM et traduction. La traduction est essentiellement la même que le MLM sur une paire de textes, mais les textes sont des traductions parallèles les uns des autres, avec des masques aléatoires et des langages de codage intégrant des segments.

4. Transformer-XL Carnegie Mellon University / 2019

Ce modèle est conçu pour traiter de longues séquences et a deux idées principales : le traitement en boucle des fragments et l'encodage de position relative.

Les textes longs sont divisés en segments et traités un segment à la fois. La sortie du segment précédent est mise en cache et lors du calcul de l'auto-attention dans le segment actuel, les clés et les valeurs sont calculées en fonction de la sortie du segment actuel et du segment précédent (juste concaténés ensemble). Le dégradé est également calculé uniquement dans le segment actuel.

Cette méthode ne fonctionne pas avec des positions absolues. Par conséquent, la formule de pondération d’attention est reparamétrée dans le modèle. Le vecteur de codage de position absolue est remplacé par une matrice fixe basée sur le sinus de la distance entre les positions des marqueurs et un vecteur entraînable commun à toutes les positions.

5. Université ERNIE Tsinghua, Huawei / 2019

Intégrez des informations sur les entités nommées dans le graphe de connaissances dans BERT. L'entrée se compose d'un ensemble de jetons de texte et d'un ensemble de jetons d'entité (chaque jeton représente une entité entière). Les jetons de texte sont codés par BERT. Au-dessus de BERT, il existe un ensemble de blocs d'encodeurs K (représentant environ 3 % des paramètres du réseau). Dans ces blocs :

Le vecteur de mise à jour du jeton de texte et le vecteur d'origine du jeton d'entité sont d'abord calculés indépendamment

Les vecteurs d'entité sont adaptés au premier jeton qu'ils apparaissent dans le texte ; et utilisé pour obtenir de nouvelles représentations cachées de jetons de texte ;
De nouveaux vecteurs de jetons de texte et d'entité sont obtenus à partir des représentations cachées et transmis en entrée au bloc d'encodeur suivant.
Lors de la pré-formation, trois pertes sont calculées : MLM, NSP et prédiction d'entité à partir de tokens (comme l'autoencodeur), l'autoencodeur utilise les règles suivantes :

Dans 5% des cas, l'entité remplacée n'est pas la bonne entité , mais la correspondance est conservée et le modèle doit prédire la bonne entité ;

Dans 15 % des cas, la correspondance est supprimée et le modèle doit prédire l'entité en se basant uniquement sur le texte ;

Dans les autres cas, c'est normal ;
Les modèles pré-entraînés peuvent être affinés comme les modèles BERT classiques (avec des jetons CLS). Des procédures supplémentaires peuvent également être utilisées pour affiner la détermination des relations entre les entités et leurs types.
6. XLNet Carnegie Mellon University / 2019

Parce qu'il y a des problèmes dans le processus de formation BERT :

Pendant l'entraînement, le calcul des pertes ne calcule que les marques du masque.
Seuls les marqueurs individuels sont bloqués, et la prédiction d'un marqueur bloqué n'affectera pas la prédiction des autres marqueurs.
Il n'y a pas de jetons MASK dans les applications réelles que le modèle voit activement pendant l'entraînement.

XLNet est basé sur Transformer-XL, à l'exception des tâches de modélisation de langage de remplacement (PLM), où il apprend à prédire les jetons dans des contextes courts au lieu d'utiliser directement MASK. Cela garantit que les dégradés sont calculés pour tous les marqueurs et élimine le besoin de marqueurs de masque spéciaux.

Les jetons dans le contexte sont brouillés (par exemple : le i-ème jeton peut être prédit en fonction des i-2 et i+1-ème jetons), mais leurs positions sont toujours connues. Cela n'est pas possible avec les codages de position actuels (y compris Transformer-XL). Lorsqu'il essaie de prédire la probabilité qu'un jeton fasse partie d'un contexte, le modèle ne doit pas connaître le jeton lui-même, mais doit connaître la position du jeton dans le contexte. Pour résoudre ce problème, ils ont divisé l'attention personnelle en deux flux :

À chaque position de marqueur, il y a deux vecteurs au lieu d'un : le vecteur de contenu et le vecteur de requête.
Le vecteur de contenu contient des informations complètes sur le jeton, tandis que le vecteur de requête ne contient que des informations de localisation.
Les deux vecteurs de jeton sont calculés en fonction du vecteur de contexte, mais le vecteur de requête en auto-attention est calculé en utilisant le vecteur de contenu passé, et le vecteur de contenu est calculé en utilisant le vecteur de requête passée.
le vecteur de requête ne reçoit pas d'informations sur le contenu du jeton correspondant, mais connaît toutes les informations sur le contexte, tandis que le vecteur de contenu contient des informations complètes.

Pendant le réglage fin, si vous ignorez le vecteur de requête, le modèle fonctionnera comme un Transformer-XL classique.

En pratique le modèle nécessite que le contexte soit suffisamment long pour que le modèle apprenne correctement. Il a appris sur la même quantité de données que RoBERTa avec des résultats similaires, mais en raison de la complexité de la mise en œuvre, le modèle n'est pas devenu aussi populaire que RoBERTa.

7、ALBERT Google / 2019

Simplifier BERT sans sacrifier la qualité:

Dans différents blocs d'encodeur Les paramètres communs sont utilisés dans , et il a été démontré que les poids de l’attention personnelle peuvent être partagés, mais que séparer les poids de couches entièrement connectées entraînera une diminution de la qualité.
Par rapport à BERT, des intégrations d'entrée plus petites et des vecteurs de couches cachées plus grands sont utilisés. Ceci peut être réalisé en utilisant une matrice de projection supplémentaire à l'entrée du réseau, qui dissocie également la taille de l'intégration de la taille de la représentation cachée.
Les paramètres du modèle sont réduits de 18 fois et la vitesse de course est augmentée de 1,7 fois.

Le modèle est formé au MLM et à la prédiction d'ordre de peine (SOP).

8、DistilBERT Google / 2019

Une autre façon d'optimiser BERT est la distillation :

Le nombre de blocs d'encodeurs est réduit de moitié
Trois composantes de perte : MLM, entropie croisée avec la sortie du modèle d'enseignant et la distance cosinusoïdale entre les sorties de couche correspondantes.
Le modèle est 40 % plus petit et 60 % plus rapide que le modèle enseignant, et maintient une qualité de 97 % dans une variété de tâches.

9, LaBSE Google / 2020

Modèle de vectorisation multilingue basé sur BERT. Il est entraîné sur MLM et TLM (20% des marqueurs sont masqués) puis affiné. Il prend en charge plus de 100 langues et contient 500 000 vocabulaires balisés.

10, ELECTRA Google, Stanford University / 2020

Utiliser la méthode contradictoire générative pour accélérer la formation BERT :

Formation de deux classes modèle bert : un petit générateur et un discriminateur principal
Le générateur est formé sur le MLM puis peuplé de tokens masqués
Le discriminateur est formé pour prédire généré par l'originalité du texte généré par le générateur (tâche de détection de remplacement)
Une fois la formation terminée, retirez le générateur et utilisez le discriminateur pour affiner

Le nombre de les données de formation sont cohérentes avec RoBERTa ou XLNet sont les mêmes, et le modèle apprend plus rapidement que BERT, RoBERTa et ALBERT à un niveau de qualité similaire. Plus il est entraîné longtemps, plus il est performant.

11、DeBERTa Microsoft / 2020

Un autre modèle qui sépare le contenu et la position du vecteur marqueur en deux vecteurs distincts :

Ajout de deux nouvelles matrices de poids K_pos et Q_pos pour eux.
Modifiez le calcul du poids d'attention et simplifiez-le à la somme de trois produits : Q_cont * K_cont + Q_cont * K_pos + K_cont * Q_pos
Comme dans ALBERT, utilisez la projection La matrice découple la taille d'intégration de la taille du vecteur de représentation du jeton caché.

Un modèle similaire aux GPT et T5

Un modèle basé sur des Transformers complets. Sa gamme d'applications est très large : en plus des tâches de la section précédente, elle inclut les agents conversationnels, la traduction automatique, le raisonnement logique et mathématique, l'analyse et la génération de code et, essentiellement, la génération de texte. Les modèles les plus grands et les plus « intelligents » sont généralement basés sur des architectures de décodeur. De tels modèles fonctionnent souvent bien dans les modes peu de tirs et zéro tir sans réglage fin.

1, GPT-2 OpenAI/2018

Le décodeur est formé à la tâche de LM causal (prédire le prochain jeton en fonction du contexte de gauche). D'un point de vue architectural, il y a quelques changements mineurs : la couche d'attention croisée est supprimée de chaque bloc décodeur et LayerNorm

est utilisé

Le tokenizer utilisé est un BPE au niveau de l'octet (vocabulaire 50K) et n'utilise pas de sous-chaînes similaires telles que ("chien", "chien !", "chien".). La longueur maximale de la séquence est de 1 024. La sortie de la couche met en cache toutes les balises générées précédemment.

2, T5 Google/2019

Pré-formation complète sur MLM (15% de tokens masqués), spans masqués par code (, ,…) bouclier. Séquence de prédiction de sortie < Utilisez l'encodage de position relative : Les positions sont codées par des intégrations apprenables, où chaque « intégration » est juste un scalaire qui ajoute le logit correspondant lors du calcul des poids d'attention.

La matrice B est partagée entre les couches, mais elle est différente selon les différentes têtes d'attention personnelle.

Chaque couche prend en compte 128 distances entre les jetons et met à zéro le reste, permettant une inférence sur des séquences plus longues par rapport à celles observées lors de l'entraînement.

La tokenisation se fait à l'aide de sentencepece (vocabulaire 32K), avec une longueur de séquence maximale de 512 pendant la pré-formation.

3. BART Facebook / 2019

Un autre transformateur complet, mais utilisant GeLU au lieu de ReLU. Entraînez-le à prédire le texte original à partir d'un texte bruyant (débruitage AE) avec les types de bruit suivants :

Masquage des jetons

Suppression des jetons

Utilisez BPE au niveau de l'octet (taille du vocabulaire 50 Ko)
4, CTRL Salesforce / 2019

Utilisez des jetons de code de préfixe (par exemple,

texte d'entrée…) pour contrôler le périphérique de décodage résultant. Les codes sont attribués au texte approprié pendant la formation, puis utilisés lors de l'inférence pour générer un texte au style correspondant. Le modèle est formé sur le LM causal et aucune perte supplémentaire n'est utilisée. La tokenisation utilisée est BPE et la taille du vocabulaire est de 250 Ko.

5. GPT-3 OpenAI / 2020

Il s'agit d'un modèle GPT-2 avec une architecture Sparse Transformer et une longueur de séquence accrue de 2048 jetons. Vous souvenez-vous encore de cette phrase : Ne demandez pas, demandez, c'est GPT3

6, mT5 Google / 2020

basé sur le modèle T5, avec une formation similaire, mais utilisant des données multilingues. Les activations ReLU ont été remplacées par GeGLU et le vocabulaire a été étendu à 250 000 jetons.

7, GLAM Google / 2021

Ce modèle est conceptuellement similaire à Switch Transformer, mais se concentre davantage sur le travail en mode quelques prises plutôt que sur le réglage fin. Les modèles de différentes tailles utilisent 32 à 256 couches expertes, K=2. Utilisez le codage de position relative de Transformer-XL. Lors du traitement des jetons, moins de 10 % des paramètres réseau sont activés.

8, LaMDA Google / 2021

Un modèle de type gpt. Le modèle est un modèle conversationnel pré-entraîné sur le LM causal et affiné sur les tâches de génération et discriminantes. Le modèle peut également faire des appels à des systèmes externes (recherche, traduction).

9. GPT-NeoX-20B EleutherAI / 2022

Ce modèle est similaire au GPT-J et utilise également l'encodage de position de rotation. Les poids des modèles sont représentés par float16. La longueur maximale de la séquence est de 2 048.

10, BLOOM BigScience / 2022

Il s'agit du plus grand modèle open source en 46 langages et 13 langages de programmation. Pour entraîner le modèle, un grand ensemble de données agrégées appelé ROOTS est utilisé, qui comprend environ 500 ensembles de données ouverts.

11, PaLM Google / 2022

Il s'agit d'un grand modèle de décodeur multilingue, formé à l'aide d'Adafactor, désactivant l'abandon pendant la pré-formation et utilisant 0,1 lors du réglage fin.

12, LLaMA Meta/2023

Un LM open source à grande échelle de type gpt pour la recherche scientifique, qui a été utilisé pour former plusieurs modèles d'instruction. Le modèle utilise le pré-LayerNorm, l'activation SwiGLU et l'intégration de la position RoPE. Parce qu'il est open source, c'est l'un des principaux modèles pour dépasser dans les virages.

Modèles de guidage pour le texte

Ces captures de modèle sont utilisées pour corriger les sorties du modèle (par exemple RLHF) afin d'améliorer la qualité des réponses pendant le dialogue et la résolution de tâches.

1. InstructGPT OpenAI/2022

Ce travail adapte GPT-3 pour suivre efficacement les instructions. Le modèle est affiné sur un ensemble de données composé d'indices et de réponses que les humains considèrent comme bonnes sur la base d'un ensemble de critères. Basé sur InstructGPT, OpenAI a créé un modèle que nous connaissons désormais sous le nom de ChatGPT.

2, Flan-T5 Google / 2022

Modèle de guidage adapté au T5. Dans certaines tâches, le Flan-T5 11B a surpassé le PaLM 62B sans ce réglage fin. Ces modèles ont été publiés en open source.

3. Sparrow DeepMind / 2022

Le modèle de base est obtenu en affinant Chinchilla sur des conversations sélectionnées de haute qualité, avec les premiers 80 % des couches gelées. Le modèle a ensuite été formé à l’aide d’une grande invite pour le guider tout au long de la conversation. Plusieurs modèles de récompense sont également formés sur Chinchilla. Le modèle peut accéder à un moteur de recherche et récupérer des extraits de 500 caractères maximum qui peuvent devenir des réponses.

Lors de l'inférence, le modèle de récompense est utilisé pour classer les candidats. Les candidats sont soit générés par le modèle, soit obtenus à partir de la recherche, et le meilleur devient alors la réponse.

4, Alpaca Stanford University / 2023

Le modèle d'orientation de LLaMA ci-dessus. L'accent principal est mis sur le processus de création d'un ensemble de données à l'aide de GPT-3 :

L'objectif est d'obtenir un ensemble de triplets Tâche-Entrée-Sortie, où l'entrée peut être vide.
Les humains génèrent 175 invites de tâches avec des réponses, qui sont introduites dans GPT-3, et GPT-3 génère de nouvelles tâches.
Le processus de génération est itératif, et à chaque étape, des exemples de tâches provenant d'humains et d'autres provenant d'exemples de tâches générés précédemment sont fournis.
GPT-3 divise les tâches générées en tâches de classification ou en tâches de non-classification, et génère différentes entrées et sorties en fonction de cela.
Les triples sont filtrés en fonction de leur qualité et de leur dissemblance avec les triples existants dans la base de données.

Un total de 52K triples uniques ont été générés et affinés sur LLaMA 7B.

5, Koala Berkeley University / 2023

Il s'agit d'un réglage fin de LLaMA sur les données d'instruction, mais contrairement à Alpaca ci-dessus, il n'est pas seulement affiné sur GPT- 3, etc. Mise au point sur les données générées par les grands modèles. La composition de l'ensemble de données est la suivante :

30k échantillons d'explications et de réponses sur les mathématiques, la poésie et le dialogue ;
52K échantillons de l'ensemble de données Alpaca ;# 🎜 🎜#
20K réponses aux modèles avec des questions et des évaluations des utilisateurs ;
93K En résumé, les utilisateurs ont noté sa qualité

Il n'y a pas d'augmentation de qualité par rapport au GPT-3. Mais lors des tests aveugles, les utilisateurs ont préféré les réponses de Koala à celles d'Alpaga.

Un modèle pour générer des images à partir de texte

Générateur d'images basé sur une description de texte. Les modèles de diffusion combinés à des transformateurs dominent ce domaine, permettant non seulement la génération d'images mais également la manipulation de contenu et l'amélioration de la résolution.

1, DALL-E OpenAI / 2021

Ce travail s'effectue en deux étapes : un entraînement à l'étiquetage des images, puis un apprentissage d'un modèle génératif commun de texte et d'images .

Dans la première étape, dVAE est formé, où l'image est convertie de l'espace 256x256x3 à 32x32xdim et inversement, où dim est la dimension du vecteur de représentation caché. Il existe au total 8 192 vecteurs marqueurs de ce type, qui seront utilisés plus loin dans le modèle.

Le modèle principal utilisé est le décodeur à transformateur clairsemé. En prenant les jetons de texte et les jetons d'image en entrée, le modèle apprend une distribution conjointe (Causal LM), après quoi des jetons d'image peuvent être générés sur la base du texte. dVAE génère une image basée sur ces mêmes jetons. La perte de poids pour les balises de texte est de 1/8 et la perte de poids pour les balises d'image est de 7/8.

Pour les balises de texte, il existe des intégrations régulières et des intégrations positionnelles, et pour les balises d'image, il existe des intégrations régulières, ciblées par colonnes et par lignes. La longueur maximale de la séquence de jetons de texte est de 256 et la tokenisation est BPE (vocabulaire 16 Ko).

2, GLIDE OpenAI / 2021

Un modèle de diffusion (DM) qui fonctionne au niveau du pixel et est contrôlé par du texte. Il est basé sur l'architecture U-Net avec convolution, attention et connexions résiduelles. Utilisez différentes méthodes pour contrôler la génération. Produit scalaire de vecteurs d'images et de vecteurs de texte obtenus à l'aide de CLIP Le modèle de diffusion de travail contient principalement 2 modèles :

Un auto-encodeur VAE pour la réduction de dimensionnalité et la génération à partir de l'espace latent

# 🎜🎜# DM pour la représentation interne

Le résultat passe en décodage DM dans l'espace latent : si la condition est un vecteur, elle est concaténée au vecteur latent en entrée de l'étape, si c'est une séquence de vecteurs, elle est utilisé pour le croisement de différentes couches U-Net. Pour les astuces textuelles, utilisez les vecteurs CLIP.
Ce modèle général peut être entraîné pour différentes tâches : texte en image, colorisation, peinture, super-résolution.

4, Imagen Google / 2022

L'idée principale derrière Imagen est qu'augmenter la taille de l'encodeur de texte peut apporter plus d'avantages au modèle génératif que d'augmenter la taille du DM. CLIP a donc été remplacé par T5-XXL.

Modèles qui génèrent du texte à partir d'images

Les modèles de cette section sont souvent appelés modèles multimodaux car ils sont capables d'analyser des données de différentes natures tout en générant du texte. Le texte généré peut être un langage naturel ou un ensemble de commandes, comme celles d'un robot.

1、CoCa Google / 2022

Un encodeur d'image séparé (ViT ou CNN) + un décodeur partagé où la première moitié gère le texte et la seconde moitié les images La sortie de l'encodeur est traité avec le texte.

L'image 288x288 est découpée en morceaux de 18x18 et l'encodeur la convertit en un vecteur + un vecteur de pool d'attention partagé basé sur tous ces vecteurs.

La sortie de la première moitié du décodeur est un vecteur de texte et un vecteur de jeton CLS à la fin de la séquence, tokenisés à l'aide de sentencepece (vocabulaire 64K). Les vecteurs de texte et d'image sont fusionnés dans la seconde moitié du décodeur via une attention croisée.

Les poids des deux pertes sont :

La similarité entre le vecteur attention pool de l'image et le vecteur tag CLS du texte de la description de l'image paire.

Perte autorégressive de toute la sortie du décodeur (conditionnée à l'image).

2. PaLM-E Google / 2023

L'image est codée par ViT, le vecteur de sortie ainsi que les jetons de texte et les commandes sont introduits dans PaLM, et PaLM génère le texte de sortie.

PaLM-E est utilisé pour toutes les tâches, y compris le VQA, la détection d'objets et le fonctionnement du robot.

3. GPT-4 OpenAI/2023

Il s'agit d'un modèle fermé avec peu de détails connus. Vraisemblablement, il dispose d’un décodeur avec peu d’attention et d’entrées multimodales. Il utilise un entraînement autorégressif et un réglage fin du RLHF avec des longueurs de séquence de 8K à 32K.

Il a été testé lors d'examens humains avec zéro et quelques échantillons et a atteint des niveaux semblables à ceux des humains. Il peut résoudre instantanément et étape par étape des problèmes basés sur des images (y compris des problèmes mathématiques), comprendre et interpréter des images, et analyser et générer du code. Convient également à différentes langues, y compris les langues minoritaires.

Résumé

Ce qui suit est une brève conclusion. Ils peuvent être incomplets ou simplement incorrects et sont fournis à titre indicatif uniquement.

Après que les cartes graphiques automatiques ne peuvent plus être exploitées, divers modèles à grande échelle ont envahi et la base des modèles s'est élargie, mais la simple augmentation des couches et la croissance des ensembles de données ont été remplacées par diverses technologies meilleures qui permettent améliorations de la qualité (utilisation de données et d'outils externes, structures de réseau améliorées et nouvelles techniques de réglage fin). Mais un nombre croissant de travaux montrent que la qualité des données de formation est plus importante que la quantité : une sélection et une formation correctes des ensembles de données peuvent réduire le temps de formation et améliorer la qualité des résultats.

OpenAI devient désormais fermé, ils ont essayé de ne pas publier les poids de GPT-2 mais ont échoué. Mais GPT4 est une boîte noire. La tendance des derniers mois à améliorer et à optimiser le coût de réglage fin et la vitesse d'inférence des modèles open source a largement réduit la valeur des grands modèles privés, car les produits open source rattrapent également rapidement le retard. des géants en qualité , ce qui permet à nouveau de dépasser dans les virages.

Le résumé des modèles open source finaux est le suivant :
- Parmi les blocs modèles d'encodeurs, les modèles XLM-RoBERTa et LaBSE sont considérés comme des solutions multilingues fiables
- Parmi les modèles génératifs ouverts, les plus intéressants ; sont LLaMA et les modèles d'EleutherAI (tous ont leurs versions affinées), Dolly-2, BLOOM (ont également des options de réglage fin des commandes
- En termes de code, les modèles de SantaCoder ne sont pas mauvais, mais dans l'ensemble la qualité est évidemment) ; derrière ChatGPT/GPT -4 ;
- Transformer-XL et Sparse Transformer implémentent des technologies utilisées dans d'autres modèles et peuvent être étudiées attentivement
Ce qui précède est à titre de référence uniquement ;