Maison > Périphériques technologiques > IA > le corps du texte

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par l'équipe de Tian Yuandong

WBOY
Libérer: 2023-06-28 22:06:52
avant
1744 Les gens l'ont consulté

Le contexte LLaMA open source alpaga grand modèle est égal à GPT-4, avec un seul changement simple !

Cet article qui vient d'être soumis par Meta AI montre que moins de 1 000 étapes de réglage fin sont nécessaires une fois la fenêtre contextuelle LLaMA passée de 2 000 à 32 000.

Le coût est négligeable par rapport à la pré-formation.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

L'expansion de la fenêtre contextuelle signifie que la capacité de « mémoire de travail » de l'IA est augmentée. Plus précisément, elle peut :

  • Supporter davantage de cycles de dialogue et réduire l'oubli, comme un jeu de rôle plus stable
  • Saisir davantage de Le. les données peuvent effectuer des tâches plus complexes, telles que le traitement de documents plus longs ou de plusieurs documents à la fois

Le plus important est que toutes les grandes familles de modèles d'alpaga basées sur LLaMA peuvent adopter cette méthode à faible coût et évoluer collectivement ?

Alpaca est actuellement le modèle de base open source le plus complet et a dérivé de nombreux grands modèles et modèles industriels verticaux entièrement open source disponibles dans le commerce.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

Tian Yuandong, l'auteur correspondant du journal, a également partagé avec enthousiasme ce nouveau développement dans son cercle d'amis.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

Tous les grands modèles basés sur RoPE peuvent être utilisés

La nouvelle méthode s'appelle Position Interpolation et convient aux grands modèles utilisant RoPE (codage de position de rotation).

RoPE a été proposé par l'équipe de Zhuiyi Technology dès 2021 et est désormais devenu l'une des méthodes de codage de position les plus courantes pour les grands modèles.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

Mais utiliser directement l'extrapolation pour étendre la fenêtre contextuelle sous cette architecture détruira complètement le mécanisme d'auto-attention.

Plus précisément, la partie au-delà de la longueur du contexte pré-entraîné fera monter la perplexité du modèle au même niveau qu'un modèle non entraîné.

La nouvelle méthode est modifiée pour réduire linéairement l'indice de position et élargir l'alignement de la plage de l'indice de position avant et arrière et la distance relative.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

Il est plus intuitif d'utiliser des images pour exprimer la différence entre les deux.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

Les résultats expérimentaux montrent que la nouvelle méthode est efficace pour les grands modèles LLaMA du 7B au 65B.

Il n'y a pas de dégradation significative des performances dans la modélisation de langage à séquence longue, la récupération de clé d'accès et la synthèse de documents longs.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

En plus des expériences, une preuve détaillée de la nouvelle méthode est également donnée en annexe de l'article.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

Trois choses de plus

La fenêtre contextuelle constituait autrefois un écart important entre les grands modèles open source et les grands modèles commerciaux.

Par exemple, GPT-3.5 d'OpenAI prend en charge jusqu'à 16 000, GPT-4 prend en charge 32 000 et Claude d'AnthropicAI prend en charge jusqu'à 100 000.

Dans le même temps, de nombreux grands modèles open source tels que LLaMA et Falcon sont toujours bloqués à 2k.

Maintenant, les nouveaux résultats de Meta AI ont directement comblé cet écart.

L'expansion de la fenêtre contextuelle est également l'un des objectifs des recherches récentes sur les grands modèles. En plus des méthodes d'interpolation de position, il existe de nombreuses tentatives pour attirer l'attention de l'industrie.

1. Le développeur kaiokendev a exploré une méthode pour étendre la fenêtre contextuelle de LLaMa à 8k dans un blog technique.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

2. Galina Alperovich, responsable de l'apprentissage automatique chez la société de sécurité des données Soveren, a résumé 6 conseils pour élargir la fenêtre contextuelle dans un article.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

3. Des équipes de Mila, IBM et d'autres institutions ont également tenté de supprimer complètement le codage positionnel dans Transformer dans un article.伴 Si vous en avez besoin, vous pouvez cliquer sur le lien ci-dessous pour voir ~

Méta-thèse : Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian YuandongHttps://m.sbmmt.com/link/0BDF2C1F05365071F0C725D754B96

Exting Context is Hard ... but not impossible

ht TPS:/ /m.sbmmt.com/link/9659078925b57e621eb3f9ef19773ac3

La sauce secrète derrière la fenêtre contextuelle 100K dans les LLM

//m.sbmmt.com/link/09a630e07af043e4cae879dd60db1cac

Aucun Papier de codage de position

https:/ /m.sbmmt.com/link/fb6c84779f12283a81d739d8f088fc12

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal