腾讯混元发布 HPC-Ops：一款高性能的LLM推理运营商库

腾讯混元开源了HPC-Ops，这是一个用于大型语言模型推理架构设备的生产级操作库。HPC-Ops专注于核心操作员（如Attention、分组GEMM和Fused MoE）的低级CUDA核，并通过紧凑的C和Python API将其暴露出来，以便集成到现有的推理堆栈中。

HPC-Ops在大规模内部服务中运行。在这些部署中，它为腾讯-HY模型提供了约30%的每分钟查询改进，为主流推理卡上的DeepSeek模型提供了约17%的改进。这些收益是在服务级别报告的，因此它们反映了真实推理管道内内核加速的累积效果。

HPC-Ops的范围和设计

HPC-Ops是由腾讯混元AI基础设施团队开发的一个用于LLM推理的生产级、高性能且易于使用的操作库。该项目旨在不取代服务框架。相反，它提供内核和清晰的API，可以从已经处理调度、KV缓存管理、批处理和传输的系统调用。

API设计用于无缝地在流行的推理框架（如vLLM和SGLang）内部使用。这意味着框架团队可以在不改变服务器外部行为的情况下，在自身抽象的背后交换HPC-Ops内核。

HPC-Ops使用C++和CUDA，并以CuTe和CUTLASS为构建块。内核被编写为相对较小的示例，同时也作为现代CUDA教程。

内核性能特性

该项目为每个操作员发布了相对于已知基线观察到的最大加速数值。这些都是微基准测试，研究团队强调，性能在形状和工作负载之间有所不同，但它们显示了优化的上限。

对于bf16中的Attention，与FlashInfer、FlashAttention二、FlashAttention三和TensorRT LLM相比，HPC Ops报告了预填充加速最高可达1.33倍，解码加速最高可达2.22倍。对于fp8中的Attention，与FlashInfer、FlashAttention三和TensorRT LLM相比，报告了预填充加速最高可达1.12倍，解码加速最高可达2.0倍。

对于fp8的FusedMoE，与TensorRT LLM和vLLM相比，观察到的最大加速的最高可达预填充1.49倍，解码1.14倍。对于fp8的GroupGEMM，与DeepGEMM相比，报告的收益最高的为预填充1.1倍，解码1.88倍。

这些数据很重要，因为解码通常是自回归生成中的延迟瓶颈，其中批大小缩小，内存流量占主导地位。Attention和GroupGEMM在解码中显示出最大相对收益，这表明HPC-Ops专注于用户最注意到的管道部分。

支持的内核和精度

当前版本将它的功能分组为三个操作员家族：

Attention内核涵盖了预填充和解码，并包含了支持分页注意力。分页注意力是框架（如vLLM）用于将键和值缓存块放置在分页结构中的内存布局，从而提高了长序列的内存重用性。
分组GEMM是作为量化GroupGEMM实现的，具有fp8权重。HPC-Ops支持分块和按张量缩放，因此团队能够在参数存储和校准成本之间权衡量化粒度。
Fused-MoE在一个量化操作员中结合了专家路由和专家计算。它还使用fp8专家权重，并支持分块和按张量缩放策略。

在这些内核中，HPC-Ops为bf16和fp8数据类型提供了原生支持。这与当前的生产趋势相匹配，即将推理移动到降低精度格式，同时保留精度、减少内存带宽并提高张量核心利用率。

要点总结

腾讯混元开源了HPC-Ops，作为NVIDIA SM90 GPU（包括H20）上用于LLM推理的生产级操作库，它是基于CuTe和CUTLASS构建的C++和CUDA内核。
在生产部署中，HPC-Ops为腾讯-HY模型报告了约30%的每分钟查询改进，为主流推理卡上的DeepSeek模型报告了约17%的每分钟查询改进。
操作员微基准测试显示了相对于FlashInfer、FlashAttention、TensorRT LLM和DeepGEMM等强大基线的最大加速，分别为bf16 Attention解码2.22倍，fp8 Attention解码2.0倍，fp8 FusedMoE预填充1.49倍，fp8 GroupGEMM解码1.88倍。
该库专注于三个操作员家族：支持分页注意力的Attention、具有fp8权重的量化GroupGEMM和具有fp8专家权重的量化Fused MoE，同时提供分块和按张量缩放，以及bf16和fp8原生精度支持。
HPC-Ops被设计为操作层，可以集成到现有的推理框架（如vLLM和SGLang）中，并且路线图目标包括了稀疏注意力用于长上下文LLM、扩展量化包括4位和8位策略以及能够更好地与多GPU通信重叠计算的内核。

查看代码库。此外，请随意关注我们的推特并且不要忘记加入我们的10万+机器学习SubReddit和订阅我们的通讯。等！你在电报上吗？现在您也可以加入我们。

本文首次发表在MarkTechPost。