L'essor des grands modèles d'IA met à l'épreuve la puissance de calcul des GPU nationaux-IA-php.cn

Depuis que ChatGPT est devenu populaire, la recherche et le développement de grands modèles d'IA ont émergé les uns après les autres, et différents types de grands modèles d'IA ont également été lancés les uns après les autres. Il y a eu une guerre fanatique de centaines de modèles en Chine.

En tant que modèle de données révolutionnaire, ChatGPT apporte non seulement des changements surprenants dans les méthodes de production de contenu, mais permet également à l'industrie de voir l'espoir de l'intelligence artificielle générale, favorisant l'émergence continue de grands modèles d'IA et de nouvelles applications. Selon les experts, les futures recherches sur l’intelligence artificielle se déplaceront en grande partie vers les grands modèles, et nous inaugurons l’ère des grands modèles.

AI大模型兴起考验国产GPU算力成色

La large application de l’intelligence artificielle traditionnelle est composée de trois éléments : la puissance de calcul, les données et les algorithmes. Cependant, avec l’avènement de l’ère de l’intelligence artificielle générale (AGI), les données massives nécessitent beaucoup de formation et d’optimisation pour obtenir une précision de prédiction et des capacités de généralisation plus élevées, et la demande en puissance de calcul n’est plus la même.

Alors que les modèles à grande échelle battent leur plein, l'énorme « écart » entre l'offre et la demande de puissance de calcul ne cesse de se creuser. Comment résoudre « l'anxiété » en matière de puissance de calcul est devenu un nouvel objectif pour l'industrie.

Il existe un énorme écart en termes de puissance de calcul

L'optimisation continue de grands modèles basés sur la structure Transformer nécessite de « nourrir » un nombre de plus en plus grand de paramètres. À mesure que l'ampleur des paramètres de formation augmente, la demande de puissance de calcul augmente également et les clusters de puissance de calcul deviennent de plus en plus complexes. les cheveux sont énormes.

Prenons ChatGPT comme exemple. Rien qu'en termes de puissance de calcul, afin de former ChatGPT, OpenAI a construit un énorme cluster de puissance de calcul composé de près de 30 000 cartes graphiques NVIDIA V100. Calculé avec FP16 demi-précision, il s'agit d'un cluster de puissance de calcul de près de 4000P.

Selon les rapports, l'échelle des paramètres de GPT-4 a atteint le niveau de 100 milliards et les besoins en puissance de calcul correspondants ont également considérablement augmenté. Les données montrent que le nombre de grands paramètres du modèle augmente proportionnellement au carré de la puissance de calcul.

Avec la prolifération d'entreprises dédiées aux grands modèles d'IA, couplée à l'écosystème d'intelligence artificielle entourant les grands modèles et à la demande qui en résulte en puissance de calcul pour l'inférence, l'écart de puissance de calcul à l'avenir sera encore plus alarmant.

De toute évidence, le fait que la puissance de calcul soit suffisante déterminera le succès ou l'échec des produits grands modèles de chaque entreprise. Zou Yi, président de Tianshu Zhixin Product Line, estime que pour les grandes entreprises, les premiers grands modèles GPT nécessitent environ 10 000 GPU NVIDIA, mais que les grands modèles itératifs peuvent nécessiter au moins des milliers de GPU de pointe. Avec l'émergence de nombreux adeptes dans ce domaine, les entreprises suivantes ne doivent pas perdre face aux entreprises leaders en termes de puissance de calcul, et doivent même investir davantage dans l'infrastructure de puissance de calcul pour rattraper leur retard.

Ding Yunfan, vice-président de l'architecture système de Biren Technology, a prononcé un discours sur « La construction d'un système national de formation de grands modèles basé sur un GPU à usage général hautes performances » lors de la conférence Zhiyuan de Pékin, un grand rassemblement de l'industrie de l'intelligence artificielle. Il a souligné que le facteur de succès de ChatGPT réside dans l'innovation collaborative de l'ingénierie et des algorithmes. Les données sont à la fois un carburant et un fondement, en particulier les données de haute qualité jouent le rôle d'un accélérateur, impliquant non seulement de grandes quantités de données. Des clusters GPU, mais aussi des clusters de stockage et de réseau.

En raison de l'interdiction, la principale demande sur le marché intérieur concerne les A800 et H800 lancés par NVIDIA pour le marché chinois. Alors que la demande continue de croître, le prix du NVIDIA A800 a augmenté de manière alarmante et le cycle de livraison a également été allongé. Certaines nouvelles commandes devront peut-être même arriver. Elle ne sera livrée qu’en décembre.

Heureusement, de nombreuses entreprises nationales ont pris les devants dans le domaine des GPU à usage général et progressent également dans la production de masse de puces, la construction écologique et l'expansion des applications. Avec la montée en puissance de l'industrie AIGC qui fait date, de nouveaux espaces de marché se sont créés. a également inauguré.

Nécessite une puissance de calcul, du matériel et des logiciels

Bien que nous soyons confrontés à de nouvelles opportunités commerciales sans précédent, nous devons saisir l'opportunité de l'essor des grands modèles d'IA et comprendre les exigences en matière de puissance de calcul qui prennent réellement en charge les grands modèles de bas en haut.

À cet égard, Zou Yi a déclaré qu'à partir du modèle, de la couche de cadre informatique et de l'accélération des opérateurs, la puissance de calcul doit répondre à trois éléments majeurs : premièrement, elle est universelle et peut supporter une déformation rapide du modèle, une prise en charge rapide de nouveaux opérateurs, et prise en charge rapide de nouvelles communications ; le deuxième est la facilité d'utilisation, car il peut être mis en œuvre à l'aide de modules d'algorithmes existants et l'expérience de réglage peut être utilisée à titre de référence ; le troisième est la facilité d'utilisation, car il peut reconstruire le calcul parallèle et échanger entièrement l'accès à la mémoire ; , et une informatique entièrement interconnectée.

Pour concrétiser ces trois éléments majeurs, il y a en réalité une logique plus essentielle derrière cela. Comme l'a dit sans détour Luo Hang, directeur R&D de Kunlun Core, l'industrialisation nationale de la puissance de calcul doit passer par trois portes étroites : premièrement, la production de masse, qui peut considérablement diluer l'énorme investissement dans l'enregistrement précoce, et la dilution des coûts par la production de masse est le seul moyen de atteindre la rentabilité. , est également l'un des indicateurs pour mesurer la maturité des puces ; le deuxième est l'écologie, afin de permettre aux clients de mieux développer des applications, nous devons nous efforcer de construire un écosystème logiciel raisonnable et adapté ; les logiciels et le matériel en produits, qui doivent être combinés avec des industries verticales pour atteindre la valeur du produit.

De plus, afin de soutenir davantage l'expansion massive des paramètres de formation, non seulement les fabricants de GPU doivent avoir la capacité de construire des milliers, voire des dizaines de milliers de clusters de formation de cartes GPU, mais doivent également s'assurer qu'ils peuvent fonctionner en continu sans panne pendant le processus de formation, préjudiciable à la stabilité et à la fiabilité des produits, impose des exigences extrêmement strictes. Dans le même temps, il doit également prendre en charge des capacités élastiques évolutives pour parvenir à une évolutivité élastique de la puissance de calcul.

Selon le résumé de Ding Yunfan, lors de la formation de grands modèles contenant des centaines de milliards de paramètres, les clients sont plus préoccupés par la capacité de stockage et l'évolutivité. En plus de cela, les clients exigent également des modèles faciles à utiliser, rapides et économiques.

Il convient de mentionner que afin de soutenir de manière globale le développement de grands modèles, les fabricants nationaux, notamment Cambrian, Kunlun Core, Suiyuan, Biren, Tianshu Zhixin, Muxi, Moore Thread et d'autres fabricants, ont également effectué beaucoup de travail autour du support technique sous-jacent. Devoirs, améliorez les performances de la puce en maximisant la réutilisation des données, les calculs matriciels évolutifs, le stockage et le calcul asynchrones, ainsi que l'accélération du transformateur à précision mixte. Dans le même temps, nous continuons à améliorer nos capacités en matière de logiciels de base.

"En plus de se concentrer sur la puissance de calcul du GPU, le coût et d'autres aspects, Biren fournit également un soutien solide dans les aspects multidimensionnels : premièrement, l'échelle du cluster peut être étendue à la demande et plusieurs plans de données peuvent communiquer en parallèle pour réduire les conflits ; Deuxièmement, plusieurs machines sont accessibles. Le cadre d'apprentissage effectue une planification élastique dans la dimension parallèle des données, prend en charge la tolérance aux pannes, l'expansion et la contraction automatiques, accélère considérablement la formation, améliore l'efficacité et prend en charge la migration des tâches entre les commutateurs, réduit la fragmentation des ressources sous un seul commutateur. , améliore l'utilisation des ressources et assure la stabilité des tâches ", a déclaré Ding Yunfan.

L'écologie est la clé de l'avenir

À un niveau plus profond, la formation de grands modèles nationaux est indissociable de la prise en charge de GPU de grande puissance de calcul, et elle nécessite également la construction d'un écosystème industriel mature qui intègre des logiciels et du matériel avec une couverture complète de la pile.

La formation de grands modèles d'IA peut être considérée comme un projet systématique qui teste des mises à niveau complètes. Ding Yunfan a déclaré que ce projet implique des clusters de calcul haute performance, des plates-formes d'apprentissage automatique, des bibliothèques d'accélération, des cadres de formation et des moteurs d'inférence. Il nécessite du matériel distribué, notamment un processeur, un stockage et des communications, pour prendre en charge une interconnexion efficace et s'intégrer au cadre de formation. Le processus permet une collaboration complète tout en réalisant une expansion, une stabilité et une fiabilité parallèles.

C'est précisément en raison de cette demande que les GPU nationaux doivent s'adapter aux systèmes de formation de grands modèles dans une perspective qui ne se limite pas à la base de la puissance de calcul. Comment fournir une puissance de calcul unique sur les grands modèles et des services habilitants pour les partenaires industriels est la solution. test ultime. Par conséquent, la construction écologique est également cruciale.

Concernant cette demande, certains fabricants nationaux de GPU ont déjà pris les devants et s'engagent à créer des solutions full-stack à grand modèle qui intègrent des logiciels et du matériel, y compris une infrastructure haute performance basée sur des puces de grande puissance de calcul, une planification intelligente et une gestion de milliers. des cartes GPU Nous continuons à faire des efforts sur les plateformes de machine learning, les bibliothèques d'opérateurs et de communication hautes performances, ainsi que les frameworks de formation compatibles et adaptables aux grands modèles grand public.

Afin de promouvoir conjointement l'innovation collaborative en matière de puissance de calcul et d'applications de grands modèles, l'écosystème industriel des fabricants de GPU et des grands modèles nationaux accélère également le rythme de la coopération.

Il est rapporté que Biren Technology a successivement rejoint le système open source de technologie de grand modèle FlagOpen (Feizhi) de l'Institut de recherche de Zhiyuan et le projet « AI Open Ecological Laboratory » de l'Institut de recherche de Zhiyuan, et a mené un projet dans le domaine des logiciels de grand modèle d'IA et construction écologique de matériel. Collaboration en série. Le grand projet « Intelligence artificielle de nouvelle génération » du ministère de la Science et de la Technologie, « Plateforme de support du modèle de base de l'intelligence artificielle et technologie d'évaluation », auquel les deux parties ont participé, a réalisé des progrès importants.

De plus, Biren Technology a également participé à la construction et à la sortie conjointe de la « Zone écologique du matériel Fei Paddle AI Studio », dans l'espoir de travailler en étroite collaboration avec de nombreux partenaires écologiques, dont Baidu Fei Paddle, combinant les avantages du cadre d'IA chinois et de la puissance de calcul de l'IA. , fournissant une force motrice puissante pour le développement de l'industrie chinoise de l'IA.

Selon les rapports, les produits GPU à usage général de Tianshu Zhixin prennent largement en charge divers grands cadres de modèles tels que DeepSpeed, Colossal et BM Train. La solution de cluster de puissance de calcul basée sur eux prend également en charge efficacement les grands modèles AIGC traditionnels tels que LLaMa, GPT-2. , et CPM et Finetune se sont également adaptés aux projets open source de nombreuses institutions de recherche nationales, notamment l'Université Tsinghua, l'Université Zhiyuan et l'Université Fudan.

À l'avenir, la demande de grands modèles d'IA continuera d'augmenter. La manière dont les fabricants nationaux de GPU continueront à itérer leurs produits, à mettre à niveau leurs solutions de puissance de calcul et à s'adapter à de grands modèles prenant en charge des algorithmes plus efficaces et plus complexes restera un test durable.

【Source : Jiwei.com】

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!