社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

王林

发布： 2023-09-10 16:41:01

转载

1442 人浏览过

「GPU贫民」即将告别困境！

刚刚，英伟达发布了一款名为TensorRT-LLM的开源软件，可以加速在H100上运行的大型语言模型的推理过程

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

那么，具体能提升多少倍？

在添加了TensorRT-LLM及其一系列优化功能后（包括In-Flight批处理），模型总吞吐量提升8倍。

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

使用和不使用TensorRT-LLM的GPT-J-6B A100与H100的比较

另外，以Llama 2为例，相比独立使用A100，TensorRT-LLM能够将推理性能提升4.6倍

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

对比Llama 2 70B、A100和H100在使用和不使用TensorRT-LLM的情况下的比较

网友表示，超强H100，再结合上TensorRT-LLM，无疑将彻底改变大型语言模型推理现状！

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

TensorRT-LLM：大模型推理加速神器

当前，由于大模型有着巨大的参数规模，使得「部署和推理」难度和成本一直居高不下。

英伟达开发的TensorRT-LLM旨在通过GPU来显著提高LLM的吞吐量，并降低成本

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

具体而言，TensorRT-LLM将TensorRT的深度学习编译器、FasterTransformer的优化内核、预处理和后处理以及多GPU/多节点通信封装在一个简单的开源Python API中

英伟达对FasterTransformer进行了进一步的增强，使其成为一个产品化的解决方案。

可见，TensorRT-LLM提供了一个易用、开源和模块化的Python应用编程接口。

不需要深入了解C++或CUDA专业知识的码农们，可以部署、运行和调试各种大型语言模型，并且能够获得卓越的性能表现，以及快速定制化的功能

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

根据英伟达官方博客的报道，TensorRT-LLM采用了四种方法来提升Nvidia GPU上的LLM推理性能

首先，为当前10+大模型，引入TensorRT-LLM，让开发者们能够立即运行。

其次，TensorRT-LLM作为一个开源软件库，允许LLM在多个GPU和多个GPU服务器上同时进行推理。

这些服务器分别通过，英伟达的NVLink和InfiniBand互连连接。

第三点是关于「机内批处理」，这是一项全新的调度技术，它允许不同模型的任务独立于其他任务进入和退出GPU

最后，TensorRT-LLM经过优化，可以利用H100 Transformer Engine来降低模型推理时的内存占用和延迟。

下面我们来详细看一下TensorRT-LLM是如何提升模型性能的

支持丰富LLM生态

TensorRT-LLM为开源模型生态提供了出色的支持

需要重写的内容是：具有最大规模和最先进的语言模型，例如Meta推出的Llama 2-70B，需要多个GPU协同工作才能实时提供响应

以前，要实现LLM推理的最佳性能，开发人员必须手动重写AI模型，并将其分解成多个片段，然后在GPU之间进行协调执行

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

TensorRT-LLM使用张量并行技术，将权重矩阵分配到各个设备上，从而简化了这一过程，可以实现大规模高效推理

每个模型可以在通过NVLink连接的多个GPU和多个服务器上并行运行，无需开发人员干预或模型更改。

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

随着新模型和模型架构的推出，开发人员可以使用TensorRT-LLM中开源的最新NVIDIA AI内核（Kernal）来优化模型

需要进行改写的内容是：支持的内核融合（Kernal Fusion）包括最新的FlashAttention实现，以及用于GPT模型执行的上下文和生成阶段的掩码多头注意力等

此外，TensorRT-LLM还包括了目前流行的许多大语言模型的完全优化、可立即运行的版本。

这些模型包括Meta Llama 2、OpenAI GPT-2和GPT-3、Falcon、Mosaic MPT、BLOOM等十多个。所有这些模型都可以使用简单易用的TensorRT-LLM Python API来调用

这些功能可帮助开发人员更快、更准确地搭建定制化的大语言模型，以满足各行各业的不同需求。

In-flight批处理

现如今大型语言模型的用途极其广泛。

一个模型可以同时用于多种看起来完全不同的任务——从聊天机器人中的简单问答响应，到文档摘要或长代码块的生成，工作负载是高度动态的，输出大小需要满足不同数量级任务的需求。

任务的多样性可能会导致难以有效地批处理请求和进行高效并行执行，可能会导致某些请求比其他请求更早完成。

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

为了管理这些动态负载，TensorRT-LLM包含一种称为「In-flight批处理」的优化调度技术。

大语言模型的核心原理在于，整个文本生成过程可以通过模型的多次迭代来实现

通过in flight批处理，TensorRT-LLM运行时会立即从批处理中释放出已完成的序列，而不是等待整个批处理完成后再继续处理下一组请求。

在执行新请求时，上一批还未完成的其他请求仍在处理中。

通过进行机上批处理和进行额外的内核级优化，可以提高GPU的利用率，从而使得H100上LLM的实际请求基准的吞吐量至少增加一倍

使用FP 8的 H100 Transformer引擎

TensorRT-LLM还提供了一个名为H100 Transformer Engine的功能，能有效降低大模型推理时的内存消耗和延迟。

因为LLM包含数十亿个模型权重和激活函数，通常用FP16或BF16值进行训练和表示，每个值占用16位内存。

然而，在推理时，大多数模型可以使用量化（Quantization）技术以较低精度有效表示，例如8位甚至4位整数（INT8或 INT4）。

量化（Quantization）是在不牺牲准确性的情况下降低模型权重和激活精度的过程。使用较低的精度意味着每个参数较小，并且模型在GPU内存中占用的空间较小。

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

这样做可以使用相同的硬件对更大的模型进行推理，同时在执行过程中减少在内存操作上的时间消耗

通过H100 Transformer Engine技术，配合TensorRT-LLM的H100 GPU使户能够轻松地将模型权重转换为新的FP8格式，并能自动编译模型以利用优化后的FP8内核。

而且这个过程不需要任何的代码！H100引入的FP8数据格式使开发人员能够量化他们的模型并从大幅度减少内存消耗，而且不会降低模型的准确性。

与INT8或INT4等其他数据格式相比，FP8量化保留了更高的精度，同时实现了最快的性能，并且实现起来最为方便。与INT8或INT4等其他数据格式相比，FP8量化保留了更高的精度，同时实现了最快的性能，并且实现起来最为方便

如何获取TensorRT-LLM

尽管TensorRT-LLM尚未正式发布，但用户现在已经可以提前体验了

申请链接如下：

https://developer.nvidia.com/tensorrt-llm-early-access/join

英伟达也说会将TensorRT-LLM很快集成到NVIDIA NeMo框架中。

这个框架是最近由英伟达推出的AI Enterprise的组成部分，为企业客户提供了一个安全、稳定、可管理性极强的企业级AI软件平台

开发人员和研究人员可以通过英伟达NGC上的NeMo框架或GitHub上的项目来访问TensorRT-LLM

但是需要注意的是，用户必须注册英伟达开发者计划才能申请抢先体验版本。

网友热议

Reddit上的用户对TensorRT-LLM的发布进行了激烈的讨论

难以想象专门针对LLM对硬件做出优化之后，效果将会有多大的提升。

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

但也有网友认为，这个东西的意义就是帮助老黄卖更多的H100。

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

有些网友对此持不同意见，他们认为Tensor RT对于本地部署深度学习的用户也是有帮助的。只要拥有RTX GPU，将来在类似的产品上也有可能受益

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

从更宏观的角度来看，也许对于LLM而言，会出现一系列专门针对硬件级别的优化措施，甚至可能会出现专门为LLM设计的硬件来提升其性能。这种情况在许多流行的应用中已经出现过，LLM也不会例外

H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

以上是H100推理飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

模型英伟达

来源：51cto.com

上一篇：人机协同安全高效 ——国网江苏超高压公司构建10类输电检修无人机作业场景下一篇：百度智能云发布 11 款面向企业通用场景的 AI 原生应用

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

创造未来：面向零基础的 Java 编程

2024-10-13 13:32:21
你并不孤单：在社区的支持下掌握 Python

2024-10-12 11:58:51
从新手到程序员：利用 Python 编程的力量

2024-10-11 20:06:51
像程序员一样思考：学习 Java 基础知识

2024-10-11 18:59:31
Java 变得简单：编程能力的初学者指南

2024-10-11 18:30:51
使用 PHP 构建博客：一个适合初学者的项目

2024-10-11 15:51:51
讲系统语言：学习 C，一次一行

2024-10-11 15:42:10
C 语言的数据结构和算法：适合初学者的方法

2024-10-11 14:41:20
不流泪编码：轻松学习 C

2024-10-11 14:08:31
使用 Java 进行数据分析：信息处理初学者指南

2024-10-11 13:42:21

最新问题

在多个路由中声明的workerpool是否仍然可以保持其cpu使用率而不关心阈值我希望找到一个带有workerpool的node.js系统来处理CPU密集型任务，但是对于多条路由中的cpu使用情况，我有些困惑。一个场景是这样的：route1.js:constw...

来自于 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查询计算另一张表中字段的总和我有一个这样的模式：具有属性“user_id”和“username”的用户表以及具有属性“customer_id”（user_id的FK）和“finalPrice”的订单表数据库架...

来自于 2024-04-06 19:39:29

0

1

441

无法从网站获取输入元素所以我试图从Twitter获取一个输入元素，但当我运行它时，它不断在节点终端中给我一个这样的错误，结果，由此代码创建的浏览器窗口将自行关闭，因为它找不到正确的输入选择器。如何获取正...

来自于 2024-04-06 18:59:57

0

1

442

在模板中使用在方法中定义的变量这是我第一次使用Vue（v2而不是v3），并且我一直在尝试在模板内使用变量（在方法内定义）。我的简化代码：<template><divclass="co...

来自于 2024-04-06 18:10:25

0

2

513

使用SCSS生成默认值和CSS变量我正在实现网站样式。出于遗留支持的原因，我需要支持IE11，至少一段时间。出于工作流程和我的理智原因，我想尽可能使用css变量。我已经研究过这个解决方案，它会生成一些有效的东西，但...

来自于 2024-04-06 17:46:54

0

1

355

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1422675
php入门教程之一周学会PHP

4267567
JAVA 初级入门视频教程

2530320
小甲鱼零基础入门学习Python视频教程

507005
PHP 零基础入门教程

862170

最新下载

更多>

网站特效

网站源码

网站素材

前端模板