Deepgemm sorti le jour 3 de Deepseek Open Source Week-IA-php.cn

Deepgemm sorti le jour 3 de Deepseek Open Source Week

Jennifer Aniston

Libérer： 2025-03-03 18:58:10

original

200 Les gens l'ont consulté

Deepseek publie Deepgemm: une bibliothèque GEMM FP8 haute performance pour Ai

Dans le cadre de #OpenSourceweek, Deepseek a dévoilé DeepgeMM, une bibliothèque de pointe optimisée pour les multiplications efficaces de la matrice générale FP8 (GEMMS). Cette bibliothèque prend en charge les gemmes denses et du mélange de mélange (MOE), se révélant inestimable pour la formation et l'inférence du modèle V3 / R1. Deepgemm vise à augmenter considérablement les performances et l'efficacité des charges de travail de l'IA, renforçant l'engagement de Deepseek à l'innovation open source.

? Jour 3 de #OpenSourceweek: Deepgemm

Présentation de DeepgeMM - Une bibliothèque GEMM FP8 prenant en charge les gemms denses et Moe, alimentant la formation et l'inférence V3 / R1.

⚡ Jusqu'à 1350 fp8 tflops sur les gpus de trémie
✅ Dépendances minimales, conçues pour la facilité d'utilisation
✅ Compilé entièrement juste à temps…

- Deepseek (@deepseek_ai) 26 février 2025

Cette version suit les lancements réussis de Deepseek Flashml (Jour 1) et Deepseek DeepPe (Jour 2).

Table des matières

Qu'est-ce que GEMM?
Qu'est-ce que FP8?
La nécessité de Deepgemm
Caractéristiques clés de Deepgemm
Benchmarks de performance
Instructions d'installation
Conclusion

Qu'est-ce que GEMM?

La multiplication de la matrice générale (GEMM) est une opération d'algèbre linéaire fondamentale multipliant deux matrices pour en produire un troisième. Largement utilisé dans de nombreuses applications, sa formule est:

DeepGEMM Released on Day 3 of DeepSeek Open Source Week

GEMM est crucial pour l'optimisation des performances du modèle, en particulier dans l'apprentissage en profondeur pour la formation et l'inférence du réseau neuronal.

DeepGEMM Released on Day 3 of DeepSeek Open Source Week

Cette illustration montre GEMM, mettant en évidence le carrelage (divisant les matrices en blocs plus petits - mtile, ntile, ktile) pour une utilisation optimisée du cache. Cela améliore les performances grâce à une localité et à un parallélisme améliorées.

Qu'est-ce que FP8?

FP8 (point flottant 8 bits) est un format informatique haute performance offrant une précision réduite et une représentation efficace des données numériques. Il est particulièrement avantageux pour gérer les demandes de calcul des grands ensembles de données dans l'apprentissage automatique.

Le format FP8 typique comprend:

1 bit de signe
5 bits d'exposant
2 bits de fraction

Cette structure compacte permet des calculs plus rapides et une utilisation réduite de la mémoire, idéale pour la formation de grands modèles. Bien que la précision puisse être légèrement compromise, cela est souvent acceptable, conduisant même à des gains de performance en raison d'une réduction des frais de calcul.

DeepGEMM Released on Day 3 of DeepSeek Open Source Week

Cette image compare les formats FP8 (E4M3 et E5M2) avec FP16 et BF16, illustrant les compromis entre précision et plage pour différents formats à virgule flottante.

La nécessité de Deepgemm

Deepgemm relève des défis de multiplication de la matrice en offrant une bibliothèque légère, haute performance et conviviale pour diverses opérations GEMM.

remplit un besoin critique de GEMM FP8 optimisé dans la communauté AI.
haute performance avec une petite empreinte mémoire.
prend en charge les dispositions denses et MOE.
crucial pour la formation et l'exécution du modèle d'IA à grande échelle.
optimise les architectures MOE avec des types de gemm spécialisés.
améliore directement les modèles AI de Deepseek.
profite à l'écosystème de développement d'IA plus large.

Caractéristiques clés de Deepgemm

Les forces de Deepgemm incluent:

Haute performance: atteint jusqu'à 1350 FP8 Tflop
Conception légère: Dépendances minimales pour une utilisation simplifiée.
Compilation juste à temps: compile les noyaux au moment de l'exécution pour une expérience utilisateur rationalisée.
Logique de base concise: Environ 300 lignes de code central, surperformant de nombreux noyaux réglés par des experts.
Soutien pour diverses dispositions: prend en charge les dispositions denses et deux MOE.

Benchmarks de performance

L'efficacité de Deepgemm sur diverses configurations de matrice est illustrée ci-dessous:

/ Styles personnalisés pour la table / .custom-table { Largeur: 100%; Border-Collapse: s'effondrer; / garantit que les frontières ne doublent pas / marge: 20px 0; } .custom-table th, .custom-table td { bordure: 1px solide # 000; / Borders visibles / rembourrage: 12px; / rembourrage confortable / Texte-aligne: Centre; / texte centré / } .custom-table th { Color d'arrière-plan: # F8F9FA; / gris clair pour l'en-tête / Police-poids: Bold; } / ajustements réactifs / @media (max-large: 768px) { .custom-table th, .custom-table td { taille de police: 14px; / Texte plus petit sur des écrans plus petits / rembourrage: 8px; } }

Tableau 1: Benchmarks de performance DeepGemm

Instructions d'installation

L'installation Deepgemm est simple:

Étape 1: Prérequis

Hopper Architecture GPUS (SM_90A)
python 3.8
CUDA 12.3 (recommandé: 12.8)
pytorch 2.1
Cutlass 3.6 (peut être un sous-module GIT)

Étape 2: cloner le référentiel

git clone --recursive [email protected]:deepseek-ai/DeepGEMM.git

Copier après la connexion

Étape 3: Installez la bibliothèque

python setup.py install

Copier après la connexion

Étape 4: Importer Deepgemm

import deep_gemm

Copier après la connexion

Voir le référentiel DeepGemm Github pour des instructions détaillées.

Conclusion

Deepgemm est une bibliothèque FP8 GEMM FP8 à haute performance et conviviale idéale pour les tâches avancées d'apprentissage automatique. Sa conception légère, sa vitesse et sa flexibilité en font un outil précieux pour les développeurs d'IA. Consultez le blog Analytics Vidhya pour les mises à jour sur la version du jour 4 de Deepseek!

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!