DeepSeek 正式开启了为期五天的开源发布计划,首个亮相的项目是 FlashMLA。FlashMLA 是一个专门为 NVIDIA Hopper GPU(如 H800 SXM5)设计的优化高效 MLA 解码内核。其主要目标是加速大规模模型的计算,特别是在 NVIDIA 高端 GPU 上提升性能。

作为领先的 AI 基础设施提供商,Novita AI 率先在主流 Hopper GPU(H100、H200)上评估了 FlashMLA 的性能。
什么是 MLA?
在深入评估结果之前,我们先了解一些相关的背景概念。
-
Hopper GPU:NVIDIA 下一代高性能 GPU 架构,专为 AI 和高性能计算(HPC)设计。采用先进工艺和创新架构,Hopper GPU 在处理复杂计算任务时展现出卓越的性能和能效。主流 Hopper GPU 包括 H100 和 H200。
-
解码内核:专门为加速解码任务而设计的硬件或软件模块。在 AI 推理中,解码内核能显著提升模型推理的速度和效率,尤其是在处理序列数据时。
-
键值对(KV 对)
- Key(键):
- 表示输入数据的压缩版本,用于计算注意力权重(即对输入不同部分的关注程度)。
- 示例:在文本生成中,键帮助模型识别句子中哪些词与当前生成词最相关。
- Value(值):
- 包含每个输入 token 相关联的实际信息,根据注意力分数加权后使用。
- 示例:值存储了单词的语义信息,根据注意力权重组合后产生输出。
- Key(键):
-
MLA(多头潜在注意力):一种新颖的注意力机制,需要更轻量的 KV 缓存,从而更适合长序列处理。MLA 在可扩展性和性能上均优于传统的多头注意力(MHA)机制。
MHA vs MQA vs GQA vs MLA
| **模块 ** | ** 技术逻辑 ** | ** 推理速度 ** | ** 模型性能** |
|---|---|---|---|
| MHA | 多个头独立生成键和值,无共享(全维度计算)。 | ⭐️ | ⭐️⭐️⭐️ |
| MQA | 所有查询头共享一个键值对(单个 KV 组)。 | ⭐️⭐️⭐️ | ⭐️ |
| GQA | 查询头分组共享键值对(多个 KV 组)。 | ⭐️⭐️ | ⭐️⭐️ |
| MLA | 将键值对压缩为低维潜在向量,并通过解耦 RoPE 解码以保留位置信息。 | ⭐️⭐️⭐️⭐️ | ⭐️⭐️⭐️⭐️ |
- MQA/GQA:是 MHA 的“简化版”,以信息损失为代价追求效率。
- MLA:是“升级压缩版”,在内存效率和信息保留之间取得平衡,甚至优于 MHA。
- 架构创新:MLA 不仅仅是优化,而是对注意力机制的重新构想,利用潜在变量在数学上重构注意力机制,实现了效率与能力的兼得。
Novita AI 对 FlashMLA 的性能评估
DeepSeek 宣布 FlashMLA 在 H800 SXM5 GPU 上实现了 **3000 GB/s 的内存带宽极限 ** 和 **580 TFLOPS 的计算极限 。为了验证这些数据,Novita AI ** 进行了全面的评估,在不同参数配置下测试了 FlashMLA。
为了更直观地展示结果,性能图表中的横轴代表以下参数配置:
- 批处理大小
- 序列长度
- 注意力头数


注意
这些结果基于官方测试脚本。由于不了解最优参数配置,数据可能未完全反映理论最大值。
FlashMLA 将带来什么影响?
FlashMLA 的发布不仅引起了开发者的兴趣,也获得了主流推理框架 vLLM 和 SGLang 的积极回应。
- vLLM 集成:
vLLM 团队已宣布计划尽快集成 FlashMLA。从技术上讲,FlashMLA 基于 PagedAttention 构建,与 vLLM 的技术栈高度兼容。一旦集成,FlashMLA 有望进一步提升 vLLM 的推理性能。 - SGLang 采用:
SGLang 将继续使用已集成的 FlashInferMLA,评估表明其性能与 FlashMLA 相当。
Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷方式,同时也提供经济且可靠的 GPU 云用于构建和扩展。

