La loi de mise à l'échelle continue de prendre effet et la puissance de calcul peut difficilement suivre le taux d'expansion des grands modèles. « Plus l'échelle est grande, plus la puissance de calcul est élevée et meilleur est l'effet » est devenu une norme industrielle. Il n’a fallu qu’un an pour que les grands modèles grand public passent de dizaines de milliards à 1 800 milliards de paramètres. Des géants tels que META, Google et Microsoft ont également construit des clusters ultra-larges avec plus de 15 000 cartes depuis 2022. "Wanka est devenu la norme pour le principal champ de bataille de l'IA."
Le 3 juillet, Moore Thread a annoncé à Shanghai que son produit phare d'IA, la solution de cluster informatique intelligent KUAE, avait réalisé une mise à niveau majeure, passant considérablement du niveau actuel d'un kilo-carte à l'échelle de 10 000 cartes. Le cluster informatique intelligent Wanka de Moore Thread Kuae (KUAE) est basé sur un GPU complet et vise à créer une plate-forme de calcul accélérée à usage général domestique de premier plan au niveau national, capable de supporter l'échelle Wanka et dotée de capacités de calcul à virgule flottante de niveau 10 000 P. . Conçu pour la formation complexe de grands modèles avec des milliards de paramètres. Ces progrès marquants ont établi une nouvelle référence pour la technologie GPU nationale, contribuent à faire un nouveau bond en avant dans les capacités informatiques des clusters informatiques intelligents nationaux et fourniront une base solide et fiable pour l'innovation technologique et applicative, la recherche scientifique et la modernisation industrielle dans le domaine. de l'intelligence artificielle dans les infrastructures critiques de mon pays.
De plus, Moore Thread a uni ses forces avec China Mobile Communications Group Qinghai Co., Ltd., China Unicom Qinghai Company, Beijing Dedao Xinke Group, China Energy Construction Co., Ltd. General Contracting Company, Guilin Huajue Big Data Technology Co., Ltd. (classés non (dans l'ordre) ont respectivement signé des contrats stratégiques pour trois projets du cluster Wanka, et toutes les parties ont travaillé ensemble pour construire un cluster GPU national utile.
Le fondateur et PDG de Moore Thread, Zhang Jianzhong, a déclaré : « Actuellement, nous sommes dans l'âge d'or de l'intelligence artificielle générative. L'intersection des technologies favorise l'émergence de l'intelligence, et le GPU est devenu le moteur d'innovation qui accélère l'arrivée de l'intelligence artificielle. de nouvelles vagues technologiques. Moore Thread Nous nous engageons dans ce processus de création historique, engagés à fournir une infrastructure informatique accélérée et des solutions uniques au monde, et à créer une plate-forme informatique accélérée avancée pour le monde numérique qui intègre l'intelligence artificielle et les jumeaux numériques. En tant qu'élément important de la stratégie d'IA complète de Moore Thread, le cluster informatique intelligent peut fournir une puissance de calcul croissante pour la transformation de l'intelligence numérique dans tous les domaines. Il démontre non seulement efficacement la force de Moore Thread en matière d'innovation technologique et de pratique d'ingénierie, mais deviendra également un moteur de l'IA. Un nouveau point de départ pour le développement industriel "
Dans le principal champ de bataille de l'IA, la puissance de calcul universelle de Wanka est la norme. Depuis l'avènement du grand modèle, son avenir. la direction et la tendance de développement doivent être vérifiées au fil du temps, mais à partir de maintenant. À en juger par ce qui précède, plusieurs tendances évolutives méritent l'attention, rendant de plus en plus claire sa demande fondamentale en puissance de calcul.
Tout d’abord, Scaling Law continuera à fonctionner.
Depuis que Scaling Law a été proposée en 2020, elle a révélé « l'esthétique de la violence » derrière le développement de grands modèles, c'est-à-dire, grâce à l'intégration profonde de la puissance de calcul, des algorithmes, des données et de l'accumulation d'expérience, un bond dans les performances des modèles. a été atteint, ce qui est également devenu une norme reconnue de l'industrie. Continuer à influencer la tendance de développement des futurs grands modèles. Scaling Law continuera à fonctionner, nécessitant un point unique d’une échelle suffisante et d’une puissance de calcul générale pour suivre rapidement l’évolution technologique.Deuxièmement, l'architecture Transformer ne peut pas être unifiée et continuera d'évoluer et de coexister avec d'autres architectures pour former un écosystème technologique diversifié.
L’évolution de l’IA générative ne repose pas seulement sur une simple expansion d’échelle, mais l’innovation dans l’architecture technique est également cruciale. Bien que l'architecture Transformer soit actuellement courante, les architectures émergentes telles que Mamba, RWKV et RetNet continuent d'actualiser l'efficacité informatique et d'accélérer l'innovation. Avec l'itération et l'évolution de la technologie, l'architecture Transformer ne parvient pas à réaliser un modèle unifié. Des modèles denses aux modèles clairsemés jusqu'à la fusion de modèles multimodaux, les progrès technologiques ont démontré le désir de ressources informatiques plus performantes.Dans le même temps, l'intégration inter-technologies et inter-domaines de l'IA, de la 3D et du HPC continue de s'accélérer
, favorisant l'expansion des frontières de l'intelligence spatiale, de l'IA physique, de l'IA 4Science, des modèles mondiaux et d'autres domaines, rendant l'environnement de formation et d'application des grands modèles plus complexe et diversifié, le marché a un besoin de plus en plus urgent d'une plate-forme informatique générale accélérée capable de prendre en charge le développement intégré de plusieurs calculs tels que l'IA+3D, l'IA+simulation physique, l'IA+scientifique. informatique, etc
Sous diverses tendances, Wanka est devenue la norme pour le principal champ de bataille de la formation de modèles d'IA. Alors que la quantité de calcul continue d'augmenter, la formation de grands modèles nécessite de toute urgence une super usine, une plate-forme informatique accélérée « grande et universelle » pour raccourcir le temps de formation et réaliser une itération rapide des capacités du modèle. Actuellement, les géants internationaux de la technologie déploient activement des clusters informatiques à l'échelle de 1 000 cartes, voire plus de 10 000 cartes, pour assurer la compétitivité des produits de grande taille. À mesure que le nombre de paramètres du modèle passe de centaines de milliards à des milliards, les capacités des modèles se généralisent et les demandes des grands modèles en puissance de calcul sous-jacente augmentent encore davantage. Les clusters Wanka, voire super-10 000ka, sont devenus le ticket d'entrée pour cette série de grands modèles. concours.
Cependant, construire un cluster Wanka n'est pas un simple empilement de 10 000 cartes GPU, mais un projet de super système très complexe. Cela implique de nombreux problèmes techniques tels qu'une interconnexion réseau à très grande échelle, un calcul en cluster efficace, une stabilité à long terme et une haute disponibilité. C'est une chose difficile mais correcte à faire. Moore Thread espère construire une plate-forme informatique accélérée avec une échelle de plus de 10 000 cartes et un scénario universel, et donner la priorité à la résolution du problème de la formation de grands modèles.
Kuae : plate-forme de formation de grands modèles domestique Wanka 10 000P trillions
Kuae (KUAE) est la solution full-stack du Moore Thread Intelligent Computing Center. Elle est basée sur un GPU complet et intègre des logiciels et. matériel Une solution de puissance de calcul complète et complète au niveau du système, comprenant une infrastructure avec le cluster informatique Kua'e comme noyau, la plate-forme de gestion de cluster Kua'e (plate-forme KUAE) et la plate-forme de services à grand modèle Kua'e (KUAE ModelStudio), visant à. livraison intégrée Cette méthode résout les problèmes de construction et de gestion opérationnelle de la puissance de calcul GPU à grande échelle.
Super grande puissance de calcul, Wanka Wanka P : En termes de performances de calcul de cluster, la nouvelle génération de cluster informatique intelligent Kuae atteint un seul Le cluster la taille dépasse 10 000 cartes et la puissance de calcul en virgule flottante atteint 10Exa-Flops, ce qui améliore considérablement les performances de calcul d'un seul cluster et peut fournir une base de puissance de calcul solide pour la formation de grands modèles avec des milliards de paramètres. Dans le même temps, en termes de mémoire GPU et de bande passante de transmission, le cluster Kua'e Wanka a atteint une capacité de mémoire graphique totale ultra-large de niveau PB, une bande passante totale d'interconnexion inter-cartes ultra-haute vitesse de niveau PB par seconde, et Bande passante totale d'interconnexion de nœuds ultra-haute vitesse de niveau PB, réalisant l'informatique Optimisation collaborative systématique de la puissance, de la mémoire vidéo et de la bande passante pour améliorer considérablement les performances informatiques du cluster.
Ultra haute stabilité, entraînement mensuel stable à long terme : La stabilité est la clé pour mesurer les performances d'un cluster de super 10 000 cartes. En termes de stabilité du cluster, Moore Thread se vante que la durée de fonctionnement moyenne sans problème du cluster Wanka est supérieure à 15 jours et qu'il peut réaliser une formation stable de grands modèles pendant plus de 30 jours. L'objectif d'efficacité de formation hebdomadaire moyen peut être atteint. plus de 99 %, dépassant de loin la moyenne de l'industrie. Cela est dû à une série de mécanismes fiables à plusieurs niveaux prévisibles et diagnosticables développés indépendamment par Moore Threads, notamment : la localisation automatique et la prédiction diagnostique des pannes logicielles et matérielles pour obtenir une localisation des pannes à l'échelle infime, et le mécanisme de stockage multi-niveaux Checkpoint pour atteindre stockage de mémoire de deuxième niveau Et la récupération infime des tâches de formation et la plate-forme de gestion de cluster Wanka hautement tolérante aux pannes et hautes performances réalisent l'allocation de gestion et la planification des tâches de deuxième niveau.
Optimisation extrême, MFU ultra-élevé : MFU est un indicateur courant pour évaluer l'efficacité de la formation des grands modèles, qui peut refléter directement l'efficacité de la formation du cluster de bout en bout. Le cluster Kua'e Wanka a été optimisé en termes de logiciel système, de cadre et d'algorithmes, avec un objectif d'efficacité informatique efficace (MFU) allant jusqu'à 60 %, atteignant les normes internationales. Parmi eux, au niveau logiciel système, sur la base de moyens techniques tels que le calcul extrême et l'optimisation de l'efficacité de la communication, l'efficacité d'exécution et les performances du cluster sont grandement améliorées. Au niveau du framework et de l'algorithme, le cluster Kua'e Wanka prend en charge une variété de stratégies parallèles hybrides adaptatives et une optimisation efficace de la mémoire. Il peut sélectionner et configurer automatiquement la stratégie parallèle optimale en fonction de la charge de l'application, améliorant considérablement l'efficacité de la formation et l'utilisation de la mémoire. Dans le même temps, pour les grands modèles avec des séquences très longues, le cluster Kua'e Wanka utilise des technologies d'optimisation telles que le parallélisme CP et RingAttention pour réduire efficacement le temps de calcul et l'utilisation de la mémoire, et améliorer considérablement l'efficacité de la formation du cluster.
Polyvalent et universel, respectueux de l'environnement : le cluster Kua'e Wanka est une plate-forme informatique accélérée générale avec des capacités informatiques conçues pour des scénarios généraux et peut accélérer différentes architectures telles que LLM, MoE, multi- modal, Mamba, etc. , grands modèles de différentes modalités. En même temps, basé sur le langage de programmation MUSA efficace et facile à utiliser, la compatibilité totale CUDA et l'outil de migration automatisé Musify, il accélère la migration au niveau « Day0 » des nouveaux modèles, réalise une adaptation écologique « Instant On » et aide les clients se connectent rapidement.
Tout le monde est un, construisant un écosystème d'applications à grand modèle
La construction du cluster Wanka nécessite les efforts concertés de l'industrie pour parvenir à la mise en œuvre rapide d'applications innovantes à grand modèle et permettre à l'informatique domestique puissance "Construite pour l'usage". Lors de la conférence de presse, Moore Thread s'est associé à China Mobile Communications Group Qinghai Co., Ltd., China Unicom Qinghai Company, Beijing Dedao Xinke Group, China Energy Construction Co., Ltd. General Contracting Company, Guilin Huajue Big Data Technology Co. (sans ordre particulier), ont respectivement mené des contrats stratégiques sur le projet de cluster Wanka du parc industriel zéro carbone du Qinghai, le projet de cluster Kua'e Wanka du plateau de Qinghai et le projet de cluster Wanka du Guangxi ASEAN.
Avec l’aide de la solution informatique intelligente full-stack Kua’e avancée de Moore Thread, toutes les parties travailleront ensemble pour construire une puissante plate-forme nationale industrielle et informatique intelligente afin d’accélérer la transformation numérique et le développement de haute qualité de l’industrie. Le projet de cluster informatique intelligent de Kua'e Wanka marque un autre développement majeur dans l'infrastructure nationale de puissance de calcul de l'IA et injectera une nouvelle vitalité dans le développement des économies numériques dans divers endroits. # ensemble, Moore Thread a signé des contrats stratégiques avec China Unicom Qinghai Company et Beijing Dedao Xinke Group中国 Moore threads et China Energy Construction Co., Ltd. Société d'entrepreneur général et Guilin Huasheng Big Data Technology Co., Ltd. Après la conférence de signature stratégique, je n'ai pas demandé au dôme central, Qingcheng Jizhi, 360, Jingdong Yun, Zhi Zhi, Zhi Zhi, Zhi Zhi, Zhi Zhi, Zhi Zhi, Zhi Zhi, Zhi Zhi, Zhi Zhi, Zhi Zhi, Zhi Zhi, Zhi Zhi, Zhi Zhi, Zhi Zhi, Zhi Zhi, Zhizhi, Zhizhi, Zhi Zhi, Zhizhi, Zhizhi, Zhizhi et Zhi Zhi Les représentants de cinq partenaires, dont Square, sont montés sur scène l'un après l'autre pour partager comment le Moore. Thread Kua'e Intelligent Computing Cluster les aide à innover dans différents scénarios et domaines tels que la formation sur grands modèles, le raisonnement sur grands modèles et l'intelligence incorporée, démontrant le rôle du cluster informatique intelligent Kua'e. Son énorme potentiel et sa large applicabilité dans les applications pratiques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!