communauté Apprendre Bibliothèque d'outils Loisirs

Français

Maison > Périphériques technologiques > IA > Transformateur simple et efficace (moteur d'inférence en ligne de très grand modèle de NetEase)

Transformateur simple et efficace (moteur d'inférence en ligne de très grand modèle de NetEase)

王林

Libérer： 2024-01-24 10:45:05

avant

432 Les gens l'ont consulté

Easy and Efficient Transformer（网易超大模型线上推理引擎）

Le cadre d'accélération d'inférence open source de NetEase pour les modèles basés sur des transformateurs prend en charge l'inférence hautes performances sur une seule carte de dizaines de milliards de modèles sur l'architecture Ampere de milieu à bas de gamme.

Contexte du projet

Les modèles à grande échelle basés sur des transformateurs se sont révélés efficaces dans diverses tâches dans de nombreux domaines. Cependant, son application à la production industrielle nécessite des efforts considérables pour réduire le coût d’inférence. Pour combler cette lacune, nous proposons une solution d'inférence évolutive : Easy and Efficient Transformer (EET). EET est un système qui comprend une série d'optimisations de raisonnement Transformer aux niveaux de l'algorithme et de la mise en œuvre. En optimisant les processus de calcul et de données de Transformer, EET peut réduire considérablement le coût d'inférence et améliorer l'efficacité et les performances du modèle. Nos résultats expérimentaux montrent que l'EET peut améliorer considérablement la vitesse d'inférence et l'utilisation des ressources sans perdre en précision du modèle, offrant ainsi une solution simple et efficace pour les applications de modèles à grande échelle dans la production industrielle.

Tout d'abord, nous avons conçu un noyau hautement optimisé pour les entrées longues et les grandes tailles cachées.

De plus, nous proposons également un gestionnaire de mémoire CUDA flexible pour réduire l'empreinte mémoire lors du déploiement de grands modèles. Par rapport à la bibliothèque d'inférence Transformer de pointe (Faster Transformer v4.0), EET est capable d'atteindre une accélération moyenne de la couche de décodage de 1,40 à 4,20x sur le GPU A100.

Adresse papier

https://arxiv.org/abs/2104.12470

Adresse Github

https://github.com/NetEase-FuXi/EET

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées：

articles académiques

source：163.com

Article précédent：Comment le mécanisme d’auto-attention utilise-t-il l’échantillonnage aléatoire pour améliorer les capacités de formation et de généralisation des modèles d’intelligence artificielle ? Article suivant：Quelles sont les origines et les applications de la technologie RLHF dans les modèles de langage ?

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Créer l'avenir : programmation Java pour les débutants absolus

2024-10-13 13:32:21
Vous n'êtes pas seul : maîtrisez Python avec une communauté de soutien à vos côtés

2024-10-12 11:58:51
Du novice au codeur : exploitez la puissance de la programmation Python

2024-10-11 20:06:51
Pensez comme un programmeur : apprendre les principes fondamentaux de Java

2024-10-11 18:59:31
Java Made Simple : un guide du débutant sur la puissance de programmation

2024-10-11 18:30:51
Créer un blog avec PHP : un projet adapté aux débutants

2024-10-11 15:51:51
Parlez le langage des systèmes : apprenez le C, une ligne à la fois

2024-10-11 15:42:10
Structures de données et algorithmes en C : une approche adaptée aux débutants

2024-10-11 14:41:20
Coder sans larmes : apprendre le C en toute simplicité

2024-10-11 14:08:31
Analyse de données avec Java : guide du débutant sur le traitement des informations

2024-10-11 13:42:21

Derniers numéros

Existe-t-il un moyen de forcer le texte de la flexbox à être centré verticalement, quel que soit l'autre code CSS dont nous disposons ? J'ai le code CSS suivant qui fait partie d'un code CSS plus vaste utilisé dans un site Web...

Depuis 2024-04-06 20:41:51

0

1

518

Comparez Imagick, Adobe Photoshop et Windows - Détecter la résolution (pixels par centimètre ou pixels par pouce) Ce n'est pas une question mais une tentative d'améliorer ma compréhension de la façon dont...

Depuis 2024-04-06 16:01:27

0

1

397

Comment utiliser correctement @can dans le modèle de lame en utilisant la stratégie Je ne parviens pas à créer @can() dans le modèle de lame car la documentation suggère que ...

Depuis 2024-04-04 13:51:55

0

1

344

Traduire « Supprimer le répertoire public » dans le projet Laravel en chinois par « Supprimer le répertoire public » Je fais un projet Laravel mais j'ai un gros problème, je n'arrive pas à supprimer le nom /...

Depuis 2024-04-03 19:26:05

0

1

355

Vous recherchez un moyen efficace de gérer un grand nombre de vérifications répétées de l'instruction If Lorsque j'essaie de créer un outil de recherche pour une base de données que j'ai créée po...

Depuis 2024-04-03 19:20:08

0

1

297

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal