Reconnaissance du premier prix du Science and Technology Progress Award : Tencent a résolu le problème de la formation de grands modèles avec des milliards de paramètres-IA-php.cn

La liste des gagnants des China Electronics Society 2023 Science and Technology Awards a été annoncée. Cette fois, nous avons trouvé un personnage familier : Tencent Angel Machine Learning Platform.

Avec le développement rapide des grands modèles, le Prix Science et Technologie est décerné aux projets de recherche et d'application des plateformes d'apprentissage automatique, affirmant pleinement la valeur et l'importance des plateformes de formation de modèles.

Reconnaissance du premier prix du Science and Technology Progress Award : Tencent a résolu le problème de la formation de grands modèles avec des milliards de paramètres

Le Prix Science et Technologie récompense la recherche et l'application de projets de plateformes d'apprentissage automatique, en particulier dans le contexte du développement rapide de modèles à grande échelle, et reconnaît pleinement la valeur et l'importance des plateformes de formation de modèles.

Avec l'essor du deep learning, les grandes entreprises ont commencé à prendre conscience de l'importance des plateformes d'apprentissage automatique dans le développement de la technologie de l'intelligence artificielle. Des entreprises telles que Google, Microsoft et Nvidia ont lancé leurs propres plateformes d'apprentissage automatique pour accélérer le processus de formation des modèles d'intelligence artificielle. Ces plates-formes offrent aux développeurs une assistance pratique, leur permettant de créer et d'optimiser plus rapidement des systèmes d'intelligence artificielle complexes. Cette tendance a incité les gens à accorder davantage d’attention au développement de la technologie d’apprentissage automatique et a jeté des bases solides pour les futures applications de l’intelligence artificielle.

À partir de 2023, la montée en puissance des modèles à grande échelle favorisera encore davantage l'augmentation du nombre de paramètres du modèle. Les grandes entreprises ont lancé des modèles avec des échelles de paramètres atteignant des centaines de milliards, voire des milliards, et ces modèles adoptent généralement des structures de réseaux neuronaux profonds. Cependant, ce développement a également entraîné deux problèmes majeurs : la difficulté de la formation distribuée des modèles et les défis de conception de modèles causés par la complexité des applications.

Pourquoi la plateforme d'apprentissage automatique Angel ?

Explication détaillée des quatre avancées technologiques fondamentales

Le comité d'évaluation composé d'un certain nombre d'académiciens et d'autres experts faisant autorité estime que la plate-forme d'apprentissage automatique Tencent Angel est techniquement complexe, difficile à développer, innovante, a de larges perspectives d'application, et la technologie globale a atteint le niveau avancé international, parmi lesquels la technologie efficace de planification et de gestion du cache pour la communication tout-à-tout, le pré-échantillonnage adaptatif et la technologie de recherche de structure graphique ont atteint le premier niveau international. El Architecture de la plateforme Tencent Angel

Reconnaissance du premier prix du Science and Technology Progress Award : Tencent a résolu le problème de la formation de grands modèles avec des milliards de paramètres

La plateforme d'apprentissage automatique Angel de Tencent utilise une architecture de serveur de paramètres distribués. Cette architecture se caractérise par les deux tâches des paramètres du modèle de stockage et des modèles d'exécution exécutés sur différents serveurs. En ajoutant plus de serveurs, des modèles plus grands avec des exigences de calcul plus élevées peuvent être pris en charge. Cette architecture rend le processus de formation des modèles plus efficace et peut gérer des ensembles de données à grande échelle et des calculs de modèles complexes. La conception du serveur de paramètres distribués permet au système d'avoir une bonne évolutivité et flexibilité, et peut répondre à des tâches d'apprentissage automatique de différentes échelles et besoins. L'avantage de cette architecture est qu'elle peut utiliser efficacement les ressources du cluster, améliorer l'efficacité informatique et fournir aux utilisateurs des solutions plus rapides et plus efficaces.

Face à des données massives et aux besoins de formation de modèles à très grande échelle, la plateforme d'apprentissage automatique Tencent Angel est en réseau communication et mise en cache, modèle Des percées techniques ont été réalisées dans des domaines clés tels que le stockage et la planification, les modèles multimodaux et le tri par apprentissage par fusion, ainsi que les modèles graphiques à grande échelle et la technologie de recherche de structure.

Afin d'améliorer l'efficacité de la formation, les modèles d'apprentissage automatique au niveau TB utilisent généralement des méthodes de formation distribuées, qui nécessitent un grand nombre de paramètres et une synchronisation par gradient. En prenant comme exemple l'entraînement en kilocalories du modèle 1.8T, le volume de communication IO. atteint 25 To et le ratio de consommation de temps 53 %. De plus, couplés à l'environnement réseau hétérogène entre les différents clusters de puissance de calcul et aux retards variables du réseau de communication, ceux-ci ont mis en avant des exigences plus élevées en matière de surcharge de communication lors de la formation du modèle. La plate-forme d'apprentissage automatique Tencent Angel est basée sur la technologie efficace de gestion de la communication et de la planification du cache du réseau Tencent Cloud Xingmai, qui peut résoudre efficacement le problème de la surcharge de communication élevée pour la formation des modèles au niveau de la To, réduire le temps de communication réseau de 80 % et obtenir une distribution distribuée. performance de formation qui atteint la solution dominante dans l'industrie 2,5 fois.

Reconnaissance du premier prix du Science and Technology Progress Award : Tencent a résolu le problème de la formation de grands modèles avec des milliards de paramètres Dans les conditions actuelles de puissance de calcul, bien que le modèle atteigne le niveau de la To, la mémoire vidéo du GPU grand public n'est toujours que de 80 Go et il existe un goulot d'étranglement dans le stockage des paramètres. En réponse au problème clé de la difficulté de stocker les paramètres de formation des modèles au niveau du téraoctet, la plate-forme d'apprentissage automatique Tencent Angel propose un mécanisme de gestion du stockage dans une perspective unifiée de la mémoire vidéo et de la mémoire principale, qui permet d'obtenir une capacité de stockage de modèles doublée par rapport à la l'industrie et une performance de formation deux fois supérieure à celle des solutions traditionnelles de l'industrie.

Pour développer un grand modèle en un modèle général, il est indissociable du support de traitement de données multimodales. L'alignement, la fusion et la compréhension de différentes modalités, telles que le texte, les images, les vidéos et autres données, sont difficiles à comprendre. Dans la formation de modèles multimodaux, la plateforme d'apprentissage automatique Tencent Angel propose une technologie de recommandation publicitaire de classement à liens complets basée sur l'apprentissage par fusion multimodale pour les scénarios publicitaires, contribuant ainsi à augmenter le taux de rappel publicitaire de plus de 40 %.

Reconnaissance du premier prix du Science and Technology Progress Award : Tencent a résolu le problème de la formation de grands modèles avec des milliards de paramètres

De plus, pour la formation de modèles de graphiques pour les systèmes de recommandation, la plate-forme d'apprentissage automatique Tencent Angel a conçu une technologie de recherche de structure de réseau de graphiques adaptative avec fonction de nœud de graphique, qui peut automatiquement générer la structure optimale et résoudre le "problème de graphique" dans le graphique TB. applications de modèle. Problème « L'exploration de données est difficile », les performances de formation du modèle sont améliorées de 28 fois et ont la meilleure évolutivité par rapport à l'industrie.

La route vers la création de la plateforme d'apprentissage automatique Tencent Angel

Le grand modèle Tencent Hunyuan étendu à des milliards d'échelle

En tant que plateforme de base de la technologie d'intelligence artificielle de Tencent, la plateforme Tencent Angel est née en 2015 et prend en charge PS-Worker la formation sur la formule de distribution et la formation d'un modèle LDA d'un milliard de paramètres.

En 2017, le framework Angel était open source sur Github et ouvert aux développeurs. En même temps, techniquement, Angel a résolu le problème de communication sous des réseaux hétérogènes et a encore amélioré les performances. En 2019, nous avons réalisé une percée dans la technologie de compréhension multimodale des modèles de graphiques évolutifs, résolvant le problème des modèles de graphiques évolutifs avec des milliards de nœuds. En 2021, une technologie de stockage en perspective unifiée de la mémoire GPU est proposée pour résoudre le problème du stockage et des performances des paramètres des grands modèles.

Dans la création du grand modèle d'intelligence artificielle générale de Tencent, Tencent Hunyuan, la plateforme d'apprentissage automatique Angel de Tencent a également joué un rôle important.

En septembre 2023, le grand modèle Hunyuan de Tencent a été officiellement dévoilé au public. Le corpus de pré-formation dépasse les 2 000 milliards de jetons et possède de solides capacités de compréhension et de création du chinois, des capacités de raisonnement logique et des capacités d'exécution de tâches fiables.

Face à la nécessité de créer de grands modèles Tencent Hunyuan, la plate-forme d'apprentissage automatique Tencent Angel a créé des cadres d'apprentissage automatique auto-développés Angel PTM et Angel HCF pour la formation et l'inférence de grands modèles, prenant en charge une tâche unique de niveau ultra-large de 10 000 ka. formation à grande échelle et déploiement de services d’inférence à grande échelle. L'efficacité de la formation de grands modèles est augmentée jusqu'à 2,6 fois celle des frameworks open source traditionnels. La formation de centaines de milliards de grands modèles peut permettre d'économiser 50 % des coûts de puissance de calcul. Après la mise à niveau, il prend en charge la formation à très grande échelle de 10 000 cartes. par tâche. En termes de raisonnement, la vitesse de raisonnement de la plate-forme d'apprentissage automatique Tencent Angel a été multipliée par 1,3. Dans l'application du grand modèle Tencent Hunyuan Wenshengtu, le temps de raisonnement est passé de 10 secondes d'origine à 3 à 4 secondes.

De plus, Angel fournit également une plate-forme unique allant du développement de modèles à la mise en œuvre d'applications, aidant les utilisateurs à appeler rapidement les capacités de grands modèles de Tencent Hunyuan via des interfaces API ou un réglage fin, accélérant la construction d'applications de grands modèles, les conférences Tencent, Tencent news , Tencent Video et plus de 400 produits et scénarios Tencent ont été connectés aux tests internes de Tencent Hunyuan.

Tencent Hunyuan a étendu le modèle à des milliards d'échelles de paramètres en adoptant une structure de modèle expert mixte (MoE), favorisant l'amélioration des performances et la réduction des coûts d'inférence. En tant que modèle général, Tencent Hunyuan est à la pointe de l'industrie en termes de performances chinoises, notamment en matière de génération de texte, de logique mathématique et de dialogue à plusieurs tours. Actuellement, Tencent Hunyuan développe également activement des modèles multimodaux pour améliorer encore les capacités des images et des vidéos Vincent.

Le grand nombre de scénarios d’application de Tencent fournissent un terrain expérimental pour la mise en œuvre de la plateforme d’apprentissage automatique Tencent Angel. En plus du grand modèle Hunyuan de Tencent, la plateforme d'apprentissage automatique Angel de Tencent prend également en charge des produits tels que la publicité Tencent et les conférences Tencent, et dessert de multiples secteurs et entreprises clientes via Tencent Cloud, aidant ainsi le développement numérique et intelligent de tous les horizons.

Prenons Tencent Advertising comme exemple, en utilisant des technologies innovantes telles que l'optimisation de la formation distribuée à plat d'apprentissage automatique Tencent Angel et l'exploration de données graphiques de compréhension multimodale, la vitesse de formation des grands modèles multimodaux dans les scénarios commerciaux publicitaires a été multipliée par 5 , et la taille du modèle a été multipliée par 10, permettant une augmentation significative du taux de mémorisation publicitaire.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!