Maison > Périphériques technologiques > IA > Deepgemm sorti le jour 3 de Deepseek Open Source Week

Deepgemm sorti le jour 3 de Deepseek Open Source Week

Jennifer Aniston
Libérer: 2025-03-03 18:58:10
original
200 Les gens l'ont consulté

Deepseek publie Deepgemm: une bibliothèque GEMM FP8 haute performance pour Ai

Dans le cadre de #OpenSourceweek, Deepseek a dévoilé DeepgeMM, une bibliothèque de pointe optimisée pour les multiplications efficaces de la matrice générale FP8 (GEMMS). Cette bibliothèque prend en charge les gemmes denses et du mélange de mélange (MOE), se révélant inestimable pour la formation et l'inférence du modèle V3 / R1. Deepgemm vise à augmenter considérablement les performances et l'efficacité des charges de travail de l'IA, renforçant l'engagement de Deepseek à l'innovation open source.

? Jour 3 de #OpenSourceweek: Deepgemm

Présentation de DeepgeMM - Une bibliothèque GEMM FP8 prenant en charge les gemms denses et Moe, alimentant la formation et l'inférence V3 / R1.

⚡ Jusqu'à 1350 fp8 tflops sur les gpus de trémie
✅ Dépendances minimales, conçues pour la facilité d'utilisation
✅ Compilé entièrement juste à temps…

- Deepseek (@deepseek_ai) 26 février 2025

Cette version suit les lancements réussis de Deepseek Flashml (Jour 1) et Deepseek DeepPe (Jour 2).

Table des matières

  • Qu'est-ce que GEMM?
  • Qu'est-ce que FP8?
  • La nécessité de Deepgemm
  • Caractéristiques clés de Deepgemm
  • Benchmarks de performance
  • Instructions d'installation
  • Conclusion

Qu'est-ce que GEMM?

La multiplication de la matrice générale (GEMM) est une opération d'algèbre linéaire fondamentale multipliant deux matrices pour en produire un troisième. Largement utilisé dans de nombreuses applications, sa formule est:

DeepGEMM Released on Day 3 of DeepSeek Open Source Week

GEMM est crucial pour l'optimisation des performances du modèle, en particulier dans l'apprentissage en profondeur pour la formation et l'inférence du réseau neuronal.

DeepGEMM Released on Day 3 of DeepSeek Open Source Week

Cette illustration montre GEMM, mettant en évidence le carrelage (divisant les matrices en blocs plus petits - mtile, ntile, ktile) pour une utilisation optimisée du cache. Cela améliore les performances grâce à une localité et à un parallélisme améliorées.

Qu'est-ce que FP8?

FP8 (point flottant 8 bits) est un format informatique haute performance offrant une précision réduite et une représentation efficace des données numériques. Il est particulièrement avantageux pour gérer les demandes de calcul des grands ensembles de données dans l'apprentissage automatique.

Le format FP8 typique comprend:

  • 1 bit de signe
  • 5 bits d'exposant
  • 2 bits de fraction

Cette structure compacte permet des calculs plus rapides et une utilisation réduite de la mémoire, idéale pour la formation de grands modèles. Bien que la précision puisse être légèrement compromise, cela est souvent acceptable, conduisant même à des gains de performance en raison d'une réduction des frais de calcul.

DeepGEMM Released on Day 3 of DeepSeek Open Source Week

Cette image compare les formats FP8 (E4M3 et E5M2) avec FP16 et BF16, illustrant les compromis entre précision et plage pour différents formats à virgule flottante.

La nécessité de Deepgemm

Deepgemm relève des défis de multiplication de la matrice en offrant une bibliothèque légère, haute performance et conviviale pour diverses opérations GEMM.

  • remplit un besoin critique de GEMM FP8 optimisé dans la communauté AI.
  • haute performance avec une petite empreinte mémoire.
  • prend en charge les dispositions denses et MOE.
  • crucial pour la formation et l'exécution du modèle d'IA à grande échelle.
  • optimise les architectures MOE avec des types de gemm spécialisés.
  • améliore directement les modèles AI de Deepseek.
  • profite à l'écosystème de développement d'IA plus large.

Caractéristiques clés de Deepgemm

Les forces de Deepgemm incluent:

  • Haute performance: atteint jusqu'à 1350 FP8 Tflop
  • Conception légère: Dépendances minimales pour une utilisation simplifiée.
  • Compilation juste à temps: compile les noyaux au moment de l'exécution pour une expérience utilisateur rationalisée.
  • Logique de base concise: Environ 300 lignes de code central, surperformant de nombreux noyaux réglés par des experts.
  • Soutien pour diverses dispositions: prend en charge les dispositions denses et deux MOE.

Benchmarks de performance

L'efficacité de Deepgemm sur diverses configurations de matrice est illustrée ci-dessous:

/ Styles personnalisés pour la table / .custom-table { Largeur: 100%; Border-Collapse: s'effondrer; / garantit que les frontières ne doublent pas / marge: 20px 0; } .custom-table th, .custom-table td { bordure: 1px solide # 000; / Borders visibles / rembourrage: 12px; / rembourrage confortable / Texte-aligne: Centre; / texte centré / } .custom-table th { Color d'arrière-plan: # F8F9FA; / gris clair pour l'en-tête / Police-poids: Bold; } / ajustements réactifs / @media (max-large: 768px) { .custom-table th, .custom-table td { taille de police: 14px; / Texte plus petit sur des écrans plus petits / rembourrage: 8px; } }

Tableau 1: Benchmarks de performance DeepGemm

Instructions d'installation

L'installation Deepgemm est simple:

Étape 1: Prérequis

  • Hopper Architecture GPUS (SM_90A)
  • python 3.8
  • CUDA 12.3 (recommandé: 12.8)
  • pytorch 2.1
  • Cutlass 3.6 (peut être un sous-module GIT)

Étape 2: cloner le référentiel

git clone --recursive [email protected]:deepseek-ai/DeepGEMM.git
Copier après la connexion

Étape 3: Installez la bibliothèque

python setup.py install
Copier après la connexion

Étape 4: Importer Deepgemm

import deep_gemm
Copier après la connexion

Voir le référentiel DeepGemm Github pour des instructions détaillées.

Conclusion

Deepgemm est une bibliothèque FP8 GEMM FP8 à haute performance et conviviale idéale pour les tâches avancées d'apprentissage automatique. Sa conception légère, sa vitesse et sa flexibilité en font un outil précieux pour les développeurs d'IA. Consultez le blog Analytics Vidhya pour les mises à jour sur la version du jour 4 de Deepseek!

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal