腾讯混元发布 HPC-Ops:一款高性能的LLM推理运营商库
腾讯混元开源了HPC-Ops,这是一个用于大型语言模型推理架构设备的生产级操作库。HPC-Ops专注于核心操作员(如Attention、分组GEMM和Fused MoE)的低级CUDA核,并通过紧凑的C和Python API将其暴露出来,以便集成到现有的推理堆栈中。
HPC-Ops在大规模内部服务中运行。在这些部署中,它为腾讯-HY模型提供了约30%的每分钟查询改进,为主流推理卡上的DeepSeek模型提供了约17%的改进。这些收益是在服务级别报告的,因此它们反映了真实推理管道内内核加速的累积效果。
HPC-Ops的范围和设计
HPC-Ops是由腾讯混元AI基础设施团队开发的一个用于LLM推理的生产级、高性能且易于使用的操作库。该项目旨在不取代服务框架。相反,它提供内核和清晰的API,可以从已经处理调度、KV缓存管理、批处理和传输的系统调用。
API设计用于无缝地在流行的推理框架(如vLLM和SGLang)内部使用。这意味着框架团队可以在不改变服务器外部行为的情况下,在自身抽象的背后交换HPC-Ops内核。
HPC-Ops使用C++和CUDA,并以CuTe和CUTLASS为构建块。内核被编写为相对较小的示例,同时也作为现代CUDA教程。
内核性能特性
该项目为每个操作员发布了相对于已知基线观察到的最大加速数值。这些都是微基准测试,研究团队强调,性能在形状和工作负载之间有所不同,但它们显示了优化的上限。
对于bf16中的Attention,与FlashInfer、FlashAttention二、FlashAttention三和TensorRT LLM相比,HPC Ops报告了预填充加速最高可达1.33倍,解码加速最高可达2.22倍。对于fp8中的Attention,与FlashInfer、FlashAttention三和TensorRT LLM相比,报告了预填充加速最高可达1.12倍,解码加速最高可达2.0倍。
对于fp8的FusedMoE,与TensorRT LLM和vLLM相比,观察到的最大加速的最高可达预填充1.49倍,解码1.14倍。对于fp8的GroupGEMM,与DeepGEMM相比,报告的收益最高的为预填充1.1倍,解码1.88倍。
这些数据很重要,因为解码通常是自回归生成中的延迟瓶颈,其中批大小缩小,内存流量占主导地位。Attention和GroupGEMM在解码中显示出最大相对收益,这表明HPC-Ops专注于用户最注意到的管道部分。
支持的内核和精度
当前版本将它的功能分组为三个操作员家族:
- Attention内核涵盖了预填充和解码,并包含了支持分页注意力。分页注意力是框架(如vLLM)用于将键和值缓存块放置在分页结构中的内存布局,从而提高了长序列的内存重用性。
- 分组GEMM是作为量化GroupGEMM实现的,具有fp8权重。HPC-Ops支持分块和按张量缩放,因此团队能够在参数存储和校准成本之间权衡量化粒度。
- Fused-MoE在一个量化操作员中结合了专家路由和专家计算。它还使用fp8专家权重,并支持分块和按张量缩放策略。
在这些内核中,HPC-Ops为bf16和fp8数据类型提供了原生支持。这与当前的生产趋势相匹配,即将推理移动到降低精度格式,同时保留精度、减少内存带宽并提高张量核心利用率。
要点总结
- 腾讯混元开源了HPC-Ops,作为NVIDIA SM90 GPU(包括H20)上用于LLM推理的生产级操作库,它是基于CuTe和CUTLASS构建的C++和CUDA内核。
- 在生产部署中,HPC-Ops为腾讯-HY模型报告了约30%的每分钟查询改进,为主流推理卡上的DeepSeek模型报告了约17%的每分钟查询改进。
- 操作员微基准测试显示了相对于FlashInfer、FlashAttention、TensorRT LLM和DeepGEMM等强大基线的最大加速,分别为bf16 Attention解码2.22倍,fp8 Attention解码2.0倍,fp8 FusedMoE预填充1.49倍,fp8 GroupGEMM解码1.88倍。
- 该库专注于三个操作员家族:支持分页注意力的Attention、具有fp8权重的量化GroupGEMM和具有fp8专家权重的量化Fused MoE,同时提供分块和按张量缩放,以及bf16和fp8原生精度支持。
- HPC-Ops被设计为操作层,可以集成到现有的推理框架(如vLLM和SGLang)中,并且路线图目标包括了稀疏注意力用于长上下文LLM、扩展量化包括4位和8位策略以及能够更好地与多GPU通信重叠计算的内核。
查看代码库。此外,请随意关注我们的推特并且不要忘记加入我们的10万+机器学习SubReddit和订阅我们的通讯。等!你在电报上吗?现在您也可以加入我们。
本文首次发表在MarkTechPost。