Le modèle open source le plus long au monde XVERSE-Long-256K, inconditionnellement gratuit pour un usage commercial-IA-php.cn

Le modèle open source le plus long au monde XVERSE-Long-256K, inconditionnellement gratuit pour un usage commercial

WBOY

Libérer： 2024-01-16 21:54:15

avant

730 Les gens l'ont consulté

Yuanxiang a publié le premier grand modèle open source au monde XVERSE-Long-256K avec une longueur de fenêtre contextuelle de 256K. Ce modèle prend en charge la saisie de 250 000 caractères chinois, permettant aux applications de grands modèles d'entrer dans « l'ère des textes longs ». Le modèle est entièrement open source et peut être utilisé commercialement gratuitement sans aucune condition. Il est également accompagné de didacticiels de formation détaillés, étape par étape, qui permettent à un grand nombre de petites et moyennes entreprises, de chercheurs et de développeurs de réaliser des « grandes ». liberté de modèle" plus tôt.

Le modèle open source le plus long au monde XVERSE-Long-256K, inconditionnellement gratuit pour un usage commercial Carte mondiale de grands modèles de texte long grand public

La quantité de paramètres et la quantité de données de haute qualité déterminent la complexité de calcul des grands modèles, et la technologie de texte long (Contexte Long) est le « tueur » dans le développement d'applications de grands modèles. En raison de la nouvelle technologie, la R&D est difficile et la plupart d'entre elles sont actuellement fournies par des sources fermées payantes.

XVERSE-Long-256K prend en charge la saisie de texte ultra-longue et peut être utilisé pour l'analyse de données à grande échelle, la compréhension en lecture de plusieurs documents et l'intégration de connaissances inter-domaines, améliorant efficacement la profondeur et l'étendue des applications de grands modèles : 1. Pour les avocats, les analystes financiers ou les consultants, les enseignants, les ingénieurs rapides, les chercheurs scientifiques, etc. peuvent résoudre le travail d'analyse et de traitement de textes plus longs. 2. Dans les applications de jeux de rôle ou de chat, cela peut atténuer le problème de mémoire du modèle « oubli » ; le dialogue précédent, ou le problème des « hallucinations » du non-sens ; 3. Mieux soutenir les agents d'IA dans la planification et la prise de décision basées sur des informations historiques ; 4. Aider les applications natives d'IA à maintenir une expérience utilisateur cohérente et personnalisée ;

Jusqu'à présent, XVERSE-Long-256K a comblé le vide de l'écosystème open source et a également formé un « seau familial haute performance » avec les précédents grands modèles de 7 milliards, 13 milliards et 65 milliards de paramètres de Yuanxiang, augmentant ainsi l'open source national au niveau de première classe mondial.
Le modèle open source le plus long au monde XVERSE-Long-256K, inconditionnellement gratuit pour un usage commercial Série grand modèle Yuanxiang

Téléchargement gratuit du grand modèle Yuanxiang

GitHub : https://github.com/xverse-ai/XVERSE-13B
hugging face : https://huggingface.co/ xverse / chat.xverse.cn) ou un mini programme pour découvrir XVERSE-Long-256K immédiatement.
Excellentes performances d'évaluation

Afin de garantir que l'industrie a une compréhension complète, objective et à long terme du grand modèle Yuanxiang, les chercheurs se sont référés à des évaluations faisant autorité dans l'industrie et ont développé une évaluation complète en 9 éléments. système d’évaluation en six dimensions. XVERSE-Long-256K fonctionnent tous bien, surpassant les autres modèles de texte long.

Résultats de l'évaluation des grands modèles de texte long open source grand public à l'échelle mondiale XVERSE-Long-256K a réussi le test de stress de performance commun de grand modèle de texte long "Trouver une aiguille dans une botte de foin". Ce test masque une phrase dans un long corpus de texte qui n'a rien à voir avec son contenu et utilise des questions en langage naturel pour permettre au grand modèle d'extraire la phrase avec précision.
Roman
Le modèle open source le plus long au monde XVERSE-Long-256K, inconditionnellement gratuit pour un usage commercial

Compréhension en lecture

Actuellement, la plupart des modèles à grande échelle en Chine ne prennent en charge que les bilingues chinois et anglais, mais Yuanxiang prend en charge plus de 40 langues. Nous avons testé le roman classique russe de 160 000 caractères « Comment l'acier a été trempé » et la biographie historique allemande de 410 000 caractères « Quand brillent les étoiles de l'humanité ». Test "Comment l'acier a été trempé (version russe)"

Test "Quand les étoiles humaines brillent (version allemande)"

Lois et règlements Le modèle open source le plus long au monde XVERSE-Long-256K, inconditionnellement gratuit pour un usage commercial

Application précise

Basé sur "La Chine prend le civil Code de la République populaire de Chine à titre d'exemple, il montre l'interprétation des termes juridiques, ainsi que l'analyse logique des cas et une application flexible en combinaison avec la réalité : Test "Code civil"

Apprenez-vous l'étape par étape, comment entraîner de grands modèles de texte long

Le modèle open source le plus long au monde XVERSE-Long-256K, inconditionnellement gratuit pour un usage commercial

Défi technique

Entraînement du modèle : l'utilisation de la mémoire GPU est proportionnelle au carré de la longueur de la séquence, provoquant une forte augmentation du volume d'entraînement.
Structure du modèle : plus la séquence est longue, plus l'attention du modèle est dispersée et plus il est facile pour le modèle d'oublier le contenu précédent.
Vitesse d'inférence : plus la séquence de modèle est longue, plus l'inférence du modèle sera lente.

2. Route technique Yuanxiang
La technologie des grands modèles de texte long est une nouvelle technologie développée au cours de l'année écoulée. Sa principale solution technique est la suivante :

Pré-entraînement direct de longues séquences, mais cela entraînera un entraînement. le volume augmente quadratiquement.
Étendez la longueur de la séquence par interpolation ou extrapolation du codage positionnel. Cette méthode réduira la résolution du codage positionnel, réduisant ainsi l'effet de sortie des grands modèles.

Le modèle open source le plus long au monde XVERSE-Long-256K, inconditionnellement gratuit pour un usage commercial