communauté Apprendre Bibliothèque d'outils Loisirs

Français

Maison > Périphériques technologiques > IA > Présentation d'un grand modèle MoE open source national, ses performances sont comparables à celles de Llama 2-7B, tandis que le montant du calcul est réduit de 60 %

Présentation d'un grand modèle MoE open source national, ses performances sont comparables à celles de Llama 2-7B, tandis que le montant du calcul est réduit de 60 %

PHPz

Libérer： 2024-01-15 21:36:14

avant

1016 Les gens l'ont consulté

Le modèle open source du MoE accueille enfin son premier acteur national !

Ses performances ne sont pas inférieures au modèle dense Llama 2-7B, mais le montant de calcul n'est que de 40 %.

Ce modèle peut être qualifié de guerrier à 19 faces, écrasant particulièrement Llama en termes de capacités mathématiques et de codage.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Il s'agit du dernier modèle expert open source à 16 milliards de paramètres DeepSeek MoE de l'équipe Deep Search.

En plus de ses excellentes performances, l’objectif principal de DeepSeek MoE est d’économiser de la puissance de calcul.

Dans ce diagramme de paramètres d'activation de performance, il « se démarque » et occupe une grande zone vide dans le coin supérieur gauche.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Un jour seulement après sa publication, le tweet de l'équipe DeepSeek sur X a reçu un grand nombre de retweets et d'attention.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Maxime Labonne, ingénieur en machine learning chez JP Morgan, a également déclaré après des tests que la version chat de DeepSeek MoE était légèrement plus performante que le « petit modèle » Phi-2 de Microsoft.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Dans le même temps, DeepSeek MoE a également reçu plus de 300 étoiles sur GitHub et est apparu sur la page d'accueil du classement des modèles de génération de texte Hugging Face.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Alors, quelles sont les performances spécifiques de DeepSeek MoE ?

Le montant du calcul est réduit de 60 %

La version actuellement lancée de DeepSeek MoE compte 16 milliards de paramètres, et le nombre réel de paramètres activés est d'environ 2,8 milliards.

Par rapport à notre propre modèle dense 7B, les performances des deux sur 19 ensembles de données diffèrent, mais les performances globales sont relativement proches.

Par rapport à Llama 2-7B, qui est également un modèle dense, DeepSeek MoE présente également des avantages évidents en mathématiques, en code, etc.

Mais la charge de calcul des deux modèles denses dépasse 180TFLOP pour 4 000 jetons, tandis que DeepSeek MoE n'a que 74,4TFLOP, soit seulement 40 % des deux.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Les tests de performances effectués sur 2 milliards de paramètres montrent que DeepSeek MoE peut également obtenir des résultats équivalents, voire meilleurs, que GShard 2.8B, qui est également un modèle MoE avec 1,5 fois plus de paramètres et utilise moins de calculs.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

De plus, l'équipe Deep Seek a également affiné la version Chat de DeepSeek MoE basée sur SFT, et ses performances sont également proches de sa propre version dense et de Llama 2-7B.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

De plus, l'équipe DeepSeek a également révélé qu'il existe également une version 145B du modèle DeepSeek MoE en cours de développement.

Des tests préliminaires progressifs montrent que le 145B DeepSeek MoE a une énorme avance sur le GShard 137B et peut atteindre des performances équivalentes à la version dense du modèle DeepSeek 67B avec 28,5 % du montant de calcul.

Une fois la recherche et le développement terminé, l'équipe ouvrira également la version 145B.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Derrière les performances de ces modèles se cache la nouvelle architecture MoE auto-développée par DeepSeek.

Nouvelle architecture MoE auto-développée

Tout d'abord, par rapport à l'architecture MoE traditionnelle, DeepSeek dispose d'une division d'experts plus fine.

Lorsque le nombre total de paramètres est fixé, le modèle traditionnel peut classer N experts, tandis que DeepSeek peut classer 2N experts.

Dans le même temps, le nombre d'experts sélectionnés à chaque fois qu'une tâche est effectuée est deux fois supérieur à celui du modèle traditionnel, donc le nombre global de paramètres utilisés reste le même, mais le degré de liberté de sélection augmente.

Cette stratégie de segmentation permet une combinaison plus flexible et adaptative d'experts en activation, améliorant ainsi la précision du modèle sur différentes tâches et la pertinence de l'acquisition de connaissances.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

En plus des différences dans la division des experts, DeepSeek introduit également de manière innovante le paramètre « expert partagé ».

Ces experts partagés activent des jetons pour toutes les entrées et ne sont pas affectés par le module de routage. Le but est de capturer et d'intégrer les connaissances communes nécessaires dans différents contextes.

En compressant ces connaissances partagées en experts partagés, la redondance des paramètres entre autres experts peut être réduite, améliorant ainsi l'efficacité des paramètres du modèle.

La configuration d'experts partagés aide d'autres experts à se concentrer davantage sur leurs domaines de connaissances uniques, augmentant ainsi le niveau global de spécialisation des experts.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Les résultats de l'expérience d'ablation montrent que les deux solutions jouent un rôle important dans la « réduction des coûts et l'augmentation de l'efficacité » de DeepSeek MoE.

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

Adresse papier : https://arxiv.org/abs/2401.06066.

Lien de référence : https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées：

人工智能开源 modèle moe

source：51cto.com

Article précédent：Une revue révélant les modèles de base et les voies de développement des robots Article suivant：Hou Zhenyu a annoncé que Baidu avait lancé une variété de produits cloud natifs d'IA et s'engageait à remodeler la technologie des grands modèles dans le cloud computing.

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Les clés du codage : libérer la puissance du C pour les débutants

2024-10-13 11:44:01
Connectez votre site Web aux bases de données avec PHP et MySQL

2024-10-13 09:56:31
Résolution de problèmes avec Python : débloquez des solutions puissantes en tant que codeur débutant

2024-10-11 20:58:41
Python Power, simplifié : une approche de la programmation adaptée aux débutants

2024-10-11 16:53:11
PHP et médias sociaux : intégrez votre site Web au monde

2024-10-11 11:54:51
Galeries d'images dynamiques avec PHP : présentez votre travail en ligne

2024-10-10 16:21:01
Créez des API et des services Web avec PHP

2024-10-10 15:18:02
Démystifier Java : un chemin clair et simple pour les nouveaux programmeurs

2024-10-10 13:34:01
Créer des jeux et des graphiques avec C : une introduction amusante et pratique

2024-10-10 13:26:26
Comment jouer Cheng Yaojin dans Glory of Kings ?

2024-10-10 11:38:42

Derniers numéros

Le vérificateur de Sudoku ne fonctionne pas ? Quelqu'un peut-il m'aider à identifier l'erreur ? J'ai tout essayé sur l'éditeur en ligne mais j'obtiens toujours l'erreur. Mais quand je fa...

Depuis 2024-04-06 21:21:07

0

1

474

Les points de nuage de points ne conservent pas leurs valeurs lors du zoom dans d3.js C'est la première fois que j'utilise d3.js, alors soyez indulgents avec moi. Je l'ai implé...

Depuis 2024-04-06 18:16:26

0

1

403

Générez des valeurs par défaut et des variables CSS à l'aide de SCSS J'implémente le style du site Web. Pour des raisons de support hérité, je dois prendre en ...

Depuis 2024-04-06 17:46:54

0

1

355

Comprendre le fonctionnement interne du module d'authentification Nuxtjs J'essaie en fait d'intégrer le module Nuxtjsauth dans mon projet mais je n'arrive pas à co...

Depuis 2024-04-06 15:38:16

0

1

371

Node.js : Impossible de stocker les résultats de la requête SQL dans un tableau J'essaie de transmettre les résultats d'une requête SQL vers un tableau. Cependant, cela n...

Depuis 2024-04-06 14:14:46

0

1

373

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal