Novita AI 在 H100 和 H200 上评估 FlashMLA

什么是 MLA？
Novita AI 对 FlashMLA 的性能评估
FlashMLA 将带来什么影响？

DeepSeek 正式开启了为期五天的开源发布计划，首个亮相的项目是 FlashMLA。FlashMLA 是一个专门为 NVIDIA Hopper GPU（如 H800 SXM5）设计的优化高效 MLA 解码内核。其主要目标是加速大规模模型的计算，特别是在 NVIDIA 高端 GPU 上提升性能。

作为领先的 AI 基础设施提供商，Novita AI 率先在主流 Hopper GPU（H100、H200）上评估了 FlashMLA 的性能。

什么是 MLA？

在深入评估结果之前，我们先了解一些相关的背景概念。

Hopper GPU：NVIDIA 下一代高性能 GPU 架构，专为 AI 和高性能计算（HPC）设计。采用先进工艺和创新架构，Hopper GPU 在处理复杂计算任务时展现出卓越的性能和能效。主流 Hopper GPU 包括 H100 和 H200。
解码内核：专门为加速解码任务而设计的硬件或软件模块。在 AI 推理中，解码内核能显著提升模型推理的速度和效率，尤其是在处理序列数据时。
键值对（KV 对）
- Key（键）：
  - 表示输入数据的压缩版本，用于计算注意力权重（即对输入不同部分的关注程度）。
  - 示例：在文本生成中，键帮助模型识别句子中哪些词与当前生成词最相关。
- Value（值）：
  - 包含每个输入 token 相关联的实际信息，根据注意力分数加权后使用。
  - 示例：值存储了单词的语义信息，根据注意力权重组合后产生输出。
MLA（多头潜在注意力）：一种新颖的注意力机制，需要更轻量的 KV 缓存，从而更适合长序列处理。MLA 在可扩展性和性能上均优于传统的多头注意力（MHA）机制。

MHA vs MQA vs GQA vs MLA

模块	技术逻辑	推理速度	模型性能
MHA	多个头独立生成键和值，无共享（全维度计算）。	⭐️	⭐️⭐️⭐️
MQA	所有查询头共享一个键值对（单个 KV 组）。	⭐️⭐️⭐️	⭐️
GQA	查询头分组共享键值对（多个 KV 组）。	⭐️⭐️	⭐️⭐️
MLA	将键值对压缩为低维潜在向量，并通过解耦 RoPE 解码以保留位置信息。	⭐️⭐️⭐️⭐️	⭐️⭐️⭐️⭐️

MQA/GQA：是 MHA 的“简化版”，以信息损失为代价追求效率。
MLA：是“升级压缩版”，在内存效率和信息保留之间取得平衡，甚至优于 MHA。
架构创新：MLA 不仅仅是优化，而是对注意力机制的重新构想，利用潜在变量在数学上重构注意力机制，实现了效率与能力的兼得。

Novita AI 对 FlashMLA 的性能评估

DeepSeek 宣布 FlashMLA 在 H800 SXM5 GPU 上实现了 **3000 GB/s 的内存带宽极限 ** 和 **580 TFLOPS 的计算极限 。为了验证这些数据，Novita AI ** 进行了全面的评估，在不同参数配置下测试了 FlashMLA。

为了更直观地展示结果，性能图表中的横轴代表以下参数配置：

批处理大小
序列长度
注意力头数

注意

这些结果基于官方测试脚本。由于不了解最优参数配置，数据可能未完全反映理论最大值。

FlashMLA 将带来什么影响？

FlashMLA 的发布不仅引起了开发者的兴趣，也获得了主流推理框架 vLLM 和 SGLang 的积极回应。

vLLM 集成：
vLLM 团队已宣布计划尽快集成 FlashMLA。从技术上讲，FlashMLA 基于 PagedAttention 构建，与 vLLM 的技术栈高度兼容。一旦集成，FlashMLA 有望进一步提升 vLLM 的推理性能。
SGLang 采用：
SGLang 将继续使用已集成的 FlashInferMLA，评估表明其性能与 FlashMLA 相当。