Kai-Fu Lee a officiellement annoncé le lancement du grand modèle open source « le plus puissant au monde » : traitant 400 000 caractères chinois, se classant premier en chinois et en anglais-IA-php.cn

Kai-Fu Lee a officiellement annoncé le lancement du grand modèle open source « le plus puissant au monde » : traitant 400 000 caractères chinois, se classant premier en chinois et en anglais

PHPz

Libérer： 2023-11-06 18:13:01

avant

603 Les gens l'ont consulté

Kai-fu Lee a souligné : "Nous devons faire en sorte que Zero One Thousand Things rejoigne le premier échelon des grands modèles mondiaux.

Kai-Fu Lee a officiellement annoncé le lancement du grand modèle open source « le plus puissant au monde » : traitant 400 000 caractères chinois, se classant premier en chinois et en anglais

L'univers des grands modèles open source compte un nouveau membre poids lourd, celui-ci." il est temps que Innovation Works La série "Yi" de grands modèles open source lancée par Kai-Fu Lee, président-directeur général de la grande société de modèles "Zero One Thousand Things". Il est rapporté que Zero One Thousand Things a été officiellement créé fin mars de cette année et a commencé ses activités en juin et juillet. Le Dr Kaifu Li en est le fondateur et PDG.

Le 6 novembre, Zero One Wagon a officiellement lancé la série "Yi" de grands modèles open source pré-entraînés, y compris les versions Yi-6B et Yi-34B, donnant un petit A à la communauté des grands modèles open source petit choc.

Selon les dernières listes de la plateforme communautaire open source Hugging Face English et l'évaluation chinoise C-Eval, le modèle de pré-entraînement Yi-34B a obtenu plusieurs reconnaissances internationales de meilleur indicateur de performance SOTA et est devenu le « double champion » " des grands modèles open source mondiaux. , battant les produits concurrents open source tels que LLaMA2 et Falcon.

Kai-Fu Lee a officiellement annoncé le lancement du grand modèle open source « le plus puissant au monde » : traitant 400 000 caractères chinois, se classant premier en chinois et en anglais

Yi-34B est également devenu le seul modèle national à ce jourà avoir réussi à figurer en tête du classement mondial des modèles open source de Hugging Face.

Kai-Fu Lee a officiellement annoncé le lancement du grand modèle open source « le plus puissant au monde » : traitant 400 000 caractères chinois, se classant premier en chinois et en anglais

Utiliser de petites connaissances pour atteindre le sommet de la liste mondiale des grands modèles n ° 1 faisant autorité en anglais et en chinois

Nous avons appris que dans la liste publique du test d'anglais Hugging Face Modèle open source pré-entraîné classement, Yi -34B se comporte bien dans divers indicateurs, se classant au premier rang mondial avec un score de 70,72 Il est petit et grand, écrasant de nombreux modèles de grande taille tels que LLaMA2-70B et Falcon-180B.

En termes de paramètres et de performances, le Yi-34B équivaut à utiliser moins de la moitié des paramètres du LLaMA2-70B et un cinquième des paramètres du Falcon-180B. Il a dépassé le leader mondial dans divers tests. tâches. Avec ses performances exceptionnelles, le Yi-34B se classe parmi les modèles de base open source les plus puissants au monde. ... Grand modèle domestique, a déclaré Kai-fu Lee, le Yi-34B « comprend » mieux le chinois,

C-Eval surpasse tous les modèles open source du monde sur la liste chinoise faisant autorité

. Kai-Fu Lee a officiellement annoncé le lancement du grand modèle open source « le plus puissant au monde » : traitant 400 000 caractères chinois, se classant premier en chinois et en anglais

^{Par rapport au GPT-4, le roi le plus puissant des grands modèles, le Yi-34B présente des avantages absolus dans les trois principaux indicateurs chinois de CMMLU, E-Eval et Gaokao, soulignant ses excellentes capacités dans le monde chinois et étant capable de mieux répondre à la demande du marché intérieur.}

D'un point de vue d'évaluation plus complet, parmi les différentes évaluations de grands modèles globaux, les ensembles d'évaluation les plus critiques tels que "MMLU" (Massive Multitask Language Understanding) et BBH reflètent les capacités globales du modèle. Lors du test, Yi-34B a obtenu les résultats les plus remarquables, remportant toutes les évaluations sur plusieurs indicateurs tels que la capacité générale, les connaissances, le raisonnement et la compréhension en lecture, ce qui était très cohérent avec l'évaluation Hugging Face.

Cependant, comme LLaMA2, les grands modèles open source de la série Yi fonctionnent légèrement moins bien que le modèle GPT dans l'évaluation mathématique et du code de GSM8k et MBPP. À l'avenir, la série Yi de grands modèles lancera des modèles de formation continue spécialisés dans la capacité de codage et la capacité mathématique.

La taille de la fenêtre contextuelle dépasse 200k et est directement open source

En termes de fenêtre contextuelle qui est cruciale pour l'effet de combat réel des grands modèles, le Yi-34B open source a été publié cette fois La fenêtre contextuelle la plus longue et la plus prise en charge au monde La version à fenêtre contextuelle ultra-longue de 200 000 peut gérer la saisie de texte ultra-longue d'environ 400 000 caractères chinois, ce qui équivaut à peu près à la longueur d'un livre "The Scholars". En comparaison, la fenêtre contextuelle GPT-4 d'OpenAI ne fait que 32 Ko et le volume de traitement de texte est d'environ 25 000 mots.

Comment faire ? Il est entendu que l'équipe technique de Zero-One Everything a mis en œuvre une série d'optimisations, notamment le chevauchement des communications informatiques, le parallélisme des séquences, la compression des communications, etc. Grâce à ces améliorations des capacités, les capacités de formation sur modèles à grande échelle sont multipliées par près de 100.

Il convient de mentionner que Zero One Wish est la première grande entreprise modèle à ouvrir la source de la fenêtre contextuelle ultra-longue, permettant aux développeurs de l'utiliser directement.

La fenêtre contextuelle 200K du Yi-34B est directement open source, ce qui fournit non seulement des informations sémantiques plus riches, mais comprend également les documents PDF de plus de 1000 pages, permettant à de nombreux scénarios qui s'appuient sur des bases de données vectorielles de créer des bases de connaissances externes à utiliser fenêtres contextuelles. Effectuez une substitution. La nature open source du Yi-34B offre également plus de possibilités aux développeurs qui souhaitent affiner le réglage dans une fenêtre de contexte plus longue.

Méthode unique de formation de modèles scientifiques, coût de formation réduit de 40%

Yi-34B est si puissant, cela est dû aux deux facteurs clés suivants, à savoir
L'équipe AI Infra et l'auto-recherche Plateforme mondiale de formation à grande échelle
.

Kai-fu Lee a déclaré que Zero-One a créé une équipe AI Infra (AI Infrastructure) en interne, qui est principalement responsable de la formation et du déploiement de grands modèles et de la fourniture de diverses installations techniques sous-jacentes, notamment les processeurs, les systèmes d'exploitation, le stockage. Les systèmes et l'infrastructure réseau. Les installations, les plates-formes de cloud computing, etc. sont devenues des « technologies de garantie » extrêmement critiques derrière la formation des modèles de la série Yi.

Avec le puissant soutien d'AI Infra, l'équipe Zero One Thing a obtenu des résultats de formation qui dépassent le niveau de l'industrie.
Le coût de formation du modèle Yi-34B a été mesuré comme diminuant de 40 %
La différence entre le temps réel d'achèvement de la formation et le temps prévu est inférieure à une heure. D'autres simulations peuvent réduire d'autant le coût de la formation à 100 milliards. comme 50%.

Dans le même temps, Lingyiwuwu a réalisé la transformation de la méthodologie « d'alchimie extensive » à la méthodologie de « formation de modèles scientifiques ».

Après plusieurs mois de modélisation et d'expérimentation, Lingyiwanwu a développé une « plateforme d'expérimentation de formation à grande échelle » pour guider la conception et l'optimisation du modèle. Les expériences de proportionnement des données, de recherche d'hyperparamètres et de structure de modèle peuvent toutes être réalisées sur une plate-forme expérimentale à petite échelle, et l'erreur de prédiction de chaque nœud du modèle 34B peut être contrôlée à 0,5 % près. Le modèle a une capacité de prédiction plus forte, ce qui réduit considérablement les ressources requises pour les expériences comparatives et réduit le gaspillage de ressources informatiques causé par les erreurs de formation.

La construction de pipelines de traitement de données et de capacités de formation pour augmenter les prévisions à grande échelle a rendu le processus "alchimique" précédent de formation de grands modèles extrêmement détaillé et scientifique, ce qui garantit non seulement la version actuelle du Yi-34B, Yi - Les hautes performances du modèle 6B réduisent également le temps et les coûts de formation de modèles à plus grande échelle à l'avenir, et il a également la capacité d'étendre l'échelle du modèle plusieurs fois plus rapidement que l'industrie.

Enfin, Kai-fu Lee a également annoncé qu'en complétant la pré-formation du Yi-34B, la formation du prochain modèle à 100 milliards de paramètres a commencé immédiatement.
Dans les mois à venir, nous nous attendons à voir d'autres modèles de suivi de Yi dévoilés.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!