Un certain nombre de grands modèles avec 7 à 13 milliards de paramètres ont déjà été open source en Chine, et les résultats de la mise en œuvre ont émergé, et l'écosystème open source a été initialement établi. À mesure que la complexité et le volume de données des tâches telles que celles des agents augmentent, la demande de l'industrie et de la communauté pour des modèles plus grands devient de plus en plus urgente.
La recherche montre que plus le nombre de paramètres est élevé et plus les données d'entraînement sont de haute qualité, plus les performances des grands modèles peuvent être continuellement améliorées. Le consensus général dans l'industrie est que ce n'est que lorsque le seuil de paramètres de 50 à 60 milliards est atteint que les grands modèles peuvent « émerger intelligemment » et démontrer de puissantes performances en multitâche. Cependant, la formation d’un modèle de cette ampleur est coûteuse et nécessite des compétences techniques élevées. Actuellement, elle est principalement proposée sous forme de modèle payant et fermé.Dans l'écosystème open source étranger, les modèles de référence tels que Llama2-70B et Falcon-180B sont conditionnellement open source, avec des limites commerciales supérieures sur les utilisateurs actifs mensuels ou les revenus, et présentent des lacunes évidentes dans les capacités en langue chinoise en raison du manque de données de formation. . En outre, l'interdiction des puces IA récemment promulguée aux États-Unis pourrait restreindre davantage la vitesse de développement de la grande industrie chinoise du modélisme. L'industrie réclame de toute urgence un modèle national à grande échelle et hautes performances pour combler le fossé écologique et fournir des capacités de compréhension, de raisonnement et de génération de textes longs plus puissantes pour les applications chinoises.Dans ce contexte, la société Yuanxiang XVERSE a annoncé
open source le grand modèle universel XVERSE-65B hautes performances de 65 milliards de paramètres,et une utilisation commerciale inconditionnellement gratuite, ce qui est la première fois dans l'industrie. De plus, le modèle 13B a été entièrement mis à niveau pour augmenter la limite supérieure des capacités des petits modèles. Cela permettra à un grand nombre de petites et moyennes entreprises, de chercheurs et de développeurs d'IA de prendre conscience plus tôt de la liberté des grands modèles. Ils pourront librement utiliser, modifier ou distiller les grands modèles Yuanxiang en fonction de leur puissance de calcul, de leurs contraintes de ressources et des exigences spécifiques des tâches. , favorisant les percées dans la recherche et l’innovation.
Adresse du modèle : https://huggingface.co/xverse/XVERSE-65B
Yuanxiang, a développé plusieurs modèles 7B et 13B hautes performances en trois mois et a présenté pour la première fois un modèle 65B prometteur à la communauté. temps, créant une triple valeur pour la recherche, les affaires et l'écologie. "En termes de recherche et de développement, le 65B constituera un "grand levier" pour les nouvelles technologies. , de nouveaux outils, l'optimisation des performances et la sécurité des modèles, permettant à la communauté d'accumuler rapidement de l'expérience, et contribuant également à promouvoir l'objectif à long terme d'indépendance et de contrôlabilité scientifique et technologique nationale.
Capacités de base telles que la compréhension, la génération, le raisonnement et la mémoire, jusqu'à la diversité, la créativité et la précision du modèle, d'excellent à puissant
Élargissement des capacités d'appel d'outils, d'explication de code, de réflexion et de correction, etc., établissant une base technique pour la construction d'agents intelligents et améliorant l'aspect pratique du modèle
Atténuant considérablement les problèmes d'hallucinations courants et potentiellement graves ; en 7B et 13B, réduction de l'illusion des grands modèles, augmentation de la précision et du professionnalisme.
1. Conception de systèmes distribués complexes : apprenez de la recherche et du développement de l'équipe sur Tencent Go AI » Art exquis", King of Glory AI "Excellent Art" Avec une riche expérience dans les grands systèmes tels que "Wu", nous avons des technologies clés auto-développées telles que des opérateurs efficaces, l'optimisation de la mémoire, les stratégies de planification parallèle, le chevauchement données-informatique-communication, et une collaboration entre plate-forme et cadre pour créer un système de formation efficace et stable. Le taux d'utilisation de l'énergie a atteint 58,5 %, se classant parmi les meilleurs du secteur.
3. Améliorer considérablement la stabilité de la formation : en raison de l'énorme quantité de calculs, la congestion des communications, la surchauffe des puces ou les pannes de nœuds de calcul sont devenues la norme pour la formation 65B. Au début, il y avait jusqu'à huit pannes par semaine. Grâce à l'optimisation continue du fonctionnement de l'infrastructure du cluster, de la planification des ressources, du cadre de formation et de la collaboration entre les plateformes de planification, Yuanxiang a créé un système de formation offrant une stabilité élevée, une faible interruption et une forte tolérance aux pannes, augmentant le taux de formation effectif hebdomadaire à 98,6 %.
De plus, au milieu de la formation du modèle avec près de 1,6 billion de jetons, la fonction de perte a produit des valeurs NaN, ce qui peut entraîner l'interruption de la formation. Normalement, l'industrie supprime généralement les intervalles de données pertinents après analyse. Sur la base de l'expérience, l'équipe a déterminé qu'il s'agissait de l'évolution naturelle du modèle, a choisi de ne pas supprimer les données et a directement ignoré les mises à jour des paramètres pertinents. Enfin, le problème de la valeur NaN a été résolu. Une analyse plus approfondie ultérieure des états intermédiaires tels que les valeurs des paramètres, les valeurs d'activation et les valeurs de gradient a montré que le problème peut être lié à la modification de la valeur maximale de la valeur d'activation du bloc de transformateur dans la dernière couche du modèle, et sera résolu par lui-même à mesure que la valeur maximale diminue progressivement.问题 Résoudre le problème de la valeur NAN Expérience de R&D
L'évaluation complète des performances du 65B est comparable à GPT3.5 Pour garantir que l'industrie puisse avoir une connaissance complète, objective et à long terme des performances du modèle majeur. de l'éléphant. Chercheurs En référence à une série d'évaluations académiques faisant autorité, 11 normes d'évaluation faisant autorité couvrant six dimensions telles que les questions et réponses, la compréhension, les connaissances, le raisonnement, les mathématiques et le codage ont été développées et seront continuellement utilisées et itérées.XVERSE-65B n'a pas de modèle du même niveau en Chine à des fins de comparaison. Dans l'évaluation comparative avec les références étrangères, certains indicateurs ont dépassé et les performances globales étaient comparables à GPT3.5, elles ont largement dépassé les références open source Llama2-70B et ; Falcon-180B est toujours à égalité avec GPT4. Il y a un écart.
Améliore considérablement la limite supérieure des capacités des petits modèles. Il possède à la fois des arts et des sciences, conservant ses avantages dans les arts libéraux. Les questions et réponses se sont améliorées de 18 %, la science a fait de grands progrès, le codage s'est amélioré de 149 % et les mathématiques se sont améliorées de 198 %. a complètement dépassé les références open source nationales et étrangères telles que Llama2 et Baichuan2. ✨ Les modèles d'éléphants peuvent être recherchés pour "XVERSE" sur Github, Hugging Face, ModelScope et d'autres plateformes "Télécharger,
Après une simple inscription, vous pouvez l'utiliser gratuitement sans aucune condition. Il peut répondre à la plupart des besoins d'application et d'itération des petites et moyennes entreprises, des instituts de recherche scientifique et des développeurs individuels.
intelligence artificielle(AGI) générale, et sont également la force motrice qui permet à Yuanxiang de continuer à explorez la technologie de pointe. La série open source XVERSE s'engage à promouvoir la substitution nationale et l'innovation technologique continue des grands modèles, et à donner une forte impulsion au développement de l'économie réelle et de l'économie numérique. Nous sommes impatients de travailler avec les entreprises et les développeurs. pour ouvrir conjointement une nouvelle ère d'applications de grands modèles ! -plate-forme unique pour la production et la consommation de contenu 3D, avec la vision de « définir votre monde ».
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!