[资讯] H100 推理性能最高提升 8 倍，英伟达发布 TensorRT-LLM

xhzxjja

LEVEL 3

Rank: 2

积分: 12
金币: 590 枚
威望: 0 点
金镑: 0 个
银币: 1 枚
舍利: 0 枚
注册时间: 2011-11-22
最后登录: 2025-1-2

1楼大中小发表于 2023-9-9 19:48 只看该作者

H100 推理性能最高提升 8 倍，英伟达发布 TensorRT-LLM

I英伟达今天宣布推出名为 TensorRT-LLM，是一个深度优化的开源库，能够在 Hopper 等 AI GPU 上加速所有大语言模型的推理性能。

英伟达目前已经和开源社区合作，利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术，实现 AI 内核来优化其 GPU，可以加速 GPT-3（175 B），Llama Falcom（180 B）和 Bloom 模型。

TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案，允许工作独立于其他任务进入和退出 GPU。

该方案允许同一 GPU 在处理大型计算密集型请求时，动态处理多个较小的查询，提高 GPU 的处理性能，可以让 H100 的吞吐量加快 2 倍。
在性能测试中，英伟达以 A100 为基础，对比了 H100 以及启用 TensorRT-LLM 的 H100，在 GPT-J 6B 推理中，H100 推理性能比 A100 提升 4 倍，而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。

在 Llama 2 中，H100 推理性能是 A100 的 2.6 倍；而启用 TensorRT-LLM 的 H100 性能是 A100 的 4.6 倍。

本帖最近评分记录

坏小子很坏金币 +1 感谢分享，论坛有您更精彩！ 2023-9-9 22:39

TOP

作者的其他主题:
北京经开区将建设集成电路测试验证共享技术平台消息称任天堂 Switch 2 在底座模式下性能接近 PS4 Pro 特斯拉 Cybertruck“Foundation Series”配置公布，一年内转售将罚款 5 万美元科学家演示三节点量子网络，离构建量子互联网又近了一步华为欧拉 openEuler 21.09 创新版正式发布：新增文件系统 EulerFS，内核升级，覆盖全场景华为认证：需要进行实名制，否则证书资质无效，合作伙伴身份能力不达标

‹‹ 上一主题 | 下一主题 ››