Nvidia a récemment annoncé le lancement d'une nouvelle suite logicielle open source appelée TensorRT-LLM, qui étend les capacités d'optimisation de grands modèles de langage sur les GPU Nvidia et brise les limites des performances d'inférence de l'intelligence artificielle après le déploiement.
Les grands modèles de langage d'IA générative sont devenus populaires en raison de leurs capacités impressionnantes. Il élargit les possibilités de l’intelligence artificielle et est largement utilisé dans diverses industries. Les utilisateurs peuvent obtenir des informations en discutant avec des chatbots, résumer des documents volumineux, écrire du code logiciel et découvrir de nouvelles façons de comprendre les informations.
Ian Buck, vice-président du calcul hyperscale et haute performance chez Nvidia, a déclaré : "Inférence de modèle de langage à grande échelle devient de plus en plus important. Il est tout à fait naturel que les modèles deviennent plus complexes, plus intelligents et plus grands, mais lorsque les modèles évoluent au-delà d'un seul GPU et doivent fonctionner sur plusieurs GPU "
En intelligence artificielle, l'inférence est un processus dans lequel Les modèles traitent de nouvelles données qui n'ont jamais été vues auparavant, par exemple pour résumer, générer du code, fournir des suggestions ou répondre à des questions. C'est un cheval de bataille à grande échelle des modèles de langage.
Avec l'expansion rapide de l'écosystème de modèles, les modèles deviennent plus grands et plus riches en fonctionnalités. Cela signifie également que le modèle devient si volumineux qu'il ne peut pas être exécuté simultanément sur un seul GPU et doit être divisé. Les développeurs et les ingénieurs doivent répartir et coordonner manuellement les charges de travail pour obtenir des réponses en temps réel. TensorRT-LLM résout ce problème en implémentant le « parallélisme tensoriel », permettant une inférence efficace et à grande échelle sur plusieurs GPU
De plus, en raison de la grande variété de grands modèles de langage sur le marché aujourd'hui, Nvidia a optimisé le cœur pour les modèles linguistiques à grande échelle actuels. La suite logicielle comprend des versions entièrement optimisées et prêtes à l'emploi de grands modèles de langage, notamment Llama 2 de Meta Platform, GPT-2 et GPT-3 d'OpenAI, Falcon, MosaicMPT et BLOOM.
En raison de la nature des grands modèles de langage eux-mêmes, la charge de travail du modèle peut être très dynamique, et les exigences de charge de travail et l'utilisation des tâches peuvent également changer au fil du temps. un modèle unique peut être utilisé simultanément comme chatbot pour poser des questions et répondre à des questions, et peut être utilisé pour résumer des documents volumineux ainsi que des documents courts. Par conséquent, la taille de la production peut être d’ordres de grandeur complètement différents.
Pour faire face à ces différentes charges de travail, TensorRT-LLM introduit un mécanisme appelé « traitement par lots à la volée », qui est un processus de planification optimisé qui divise le processus de génération de texte en plusieurs morceaux afin qu'il puisse être déplacé vers ou déplacer le GPU sorti afin que l'intégralité du lot de charge de travail n'ait pas besoin d'être terminée avant de démarrer un nouveau lot.
Auparavant, s'il y avait une demande importante, comme le résumé d'un très gros document, tout ce qui se trouvait derrière devait attendre la fin du processus avant que la file d'attente puisse avancer.
Nvidia a travaillé avec de nombreux fournisseurs pour optimiser TensorRT-LLM, notamment Meta, Cohere, Grammarly, Databricks et Tabnine. Avec leur aide, Nvidia continue de rationaliser les fonctionnalités et l'ensemble des outils de sa suite logicielle, y compris l'interface utilisateur de l'application Python open source pour définir et optimiser de nouvelles architectures afin de personnaliser de grands modèles de langage.
Par exemple, lorsque MosaicML a intégré TensorRT-LLM à sa pile logicielle existante, il a ajouté des fonctionnalités supplémentaires en plus de TensorRT-LLM. Naveen Rao, vice-président de l'ingénierie chez Databricks, a déclaré que le processus est très simple
"TensorRT-LLM est facile à utiliser, riche en fonctionnalités, notamment le streaming de jetons, le traitement par lots dynamique, l'attention paginée, la quantification, etc., et il est très efficace et fournit la meilleure solution pour l'utilisation des GPU NVIDIA. Le service de modèle de langage à grande échelle offre les meilleures performances et nous permet de répercuter les économies de coûts sur nos clients "
Nvidia a déclaré que TensorRT-LLM et les avantages qu'il apporte. , y compris les capacités de traitement par lots, peuvent être utilisés par Nvidia. Les performances de raisonnement du H100 pour l'extraction de résumés d'articles sont améliorées de plus de 1 fois. Lors de l'utilisation du modèle GPT-J-6B pour effectuer des tests A100 sur les résumés d'articles de CNN/Daily Mail, l'utilisation uniquement du H100 était 4 fois plus rapide que l'A100, et avec l'optimisation TensorRT-LLM activée, la vitesse a augmenté de 8 fois
TensorRT- LLM fournit aux développeurs et aux ingénieurs un compilateur d'apprentissage profond, des noyaux de grands modèles de langage optimisés, des capacités de pré- et post-traitement, de communication multi-GPU/multi-nœuds et une API open source simple, leur permettant d'optimiser et d'exécuter rapidement de grands modèles de langage Raisonnement de production. Alors que les grands modèles de langage continuent de remodeler le centre de données, la demande des entreprises pour des performances plus élevées signifie que les développeurs ont plus que jamais besoin d'outils qui leur offrent les fonctionnalités et l'accès nécessaires pour fournir des résultats plus performants.
La suite logicielle TensorRT-LLM est désormais disponible en accès anticipé pour les développeurs du programme pour développeurs Nvidia et sera intégrée au framework NeMo pour la plate-forme logicielle de bout en bout d'IA de production Nvidia AI Enterprise le mois prochain. La suite logicielle TensorRT-LLM a été publiée pour un accès anticipé par les développeurs du programme pour développeurs Nvidia et sera intégrée au framework NeMo de Nvidia AI Enterprise le mois prochain pour une plate-forme logicielle de bout en bout d'IA de production
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!