Novita AI 在 H100 和 H200 上评估 FlashMLA

Novita AI 在 H100 和 H200 上评估 FlashMLA

DeepSeek 正式开启了为期五天的开源发布计划,首个亮相的项目是 FlashMLA。FlashMLA 是一个专门为 NVIDIA Hopper GPU(如 H800 SXM5)设计的优化高效 MLA 解码内核。其主要目标是加速大规模模型的计算,特别是在 NVIDIA 高端 GPU 上提升性能。

DEEPSEEK WEEK 1

作为领先的 AI 基础设施提供商,Novita AI 率先在主流 Hopper GPU(H100、H200)上评估了 FlashMLA 的性能。

什么是 MLA?

在深入评估结果之前,我们先了解一些相关的背景概念。

  • Hopper GPU:NVIDIA 下一代高性能 GPU 架构,专为 AI 和高性能计算(HPC)设计。采用先进工艺和创新架构,Hopper GPU 在处理复杂计算任务时展现出卓越的性能和能效。主流 Hopper GPU 包括 H100 和 H200。

  • 解码内核:专门为加速解码任务而设计的硬件或软件模块。在 AI 推理中,解码内核能显著提升模型推理的速度和效率,尤其是在处理序列数据时。

  • 键值对(KV 对)

    • Key(键)
      • 表示输入数据的压缩版本,用于计算注意力权重(即对输入不同部分的关注程度)。
      • 示例:在文本生成中,键帮助模型识别句子中哪些词与当前生成词最相关。
    • Value(值)
      • 包含每个输入 token 相关联的实际信息,根据注意力分数加权后使用。
      • 示例:值存储了单词的语义信息,根据注意力权重组合后产生输出。
  • MLA(多头潜在注意力):一种新颖的注意力机制,需要更轻量的 KV 缓存,从而更适合长序列处理。MLA 在可扩展性和性能上均优于传统的多头注意力(MHA)机制。

MHA vs MQA vs GQA vs MLA

**模块 ** ** 技术逻辑 ** ** 推理速度 ** ** 模型性能**
MHA 多个头独立生成键和值,无共享(全维度计算)。 ⭐️ ⭐️⭐️⭐️
MQA 所有查询头共享一个键值对(单个 KV 组)。 ⭐️⭐️⭐️ ⭐️
GQA 查询头分组共享键值对(多个 KV 组)。 ⭐️⭐️ ⭐️⭐️
MLA 将键值对压缩为低维潜在向量,并通过解耦 RoPE 解码以保留位置信息。 ⭐️⭐️⭐️⭐️ ⭐️⭐️⭐️⭐️
  • MQA/GQA:是 MHA 的“简化版”,以信息损失为代价追求效率。
  • MLA:是“升级压缩版”,在内存效率和信息保留之间取得平衡,甚至优于 MHA。
  • 架构创新:MLA 不仅仅是优化,而是对注意力机制的重新构想,利用潜在变量在数学上重构注意力机制,实现了效率与能力的兼得。

Novita AI 对 FlashMLA 的性能评估

DeepSeek 宣布 FlashMLA 在 H800 SXM5 GPU 上实现了 **3000 GB/s 的内存带宽极限 ** 和 **580 TFLOPS 的计算极限 。为了验证这些数据,Novita AI ** 进行了全面的评估,在不同参数配置下测试了 FlashMLA。

为了更直观地展示结果,性能图表中的横轴代表以下参数配置:

  1. 批处理大小
  2. 序列长度
  3. 注意力头数

h100

h200

注意

这些结果基于官方测试脚本。由于不了解最优参数配置,数据可能未完全反映理论最大值。

FlashMLA 将带来什么影响?

FlashMLA 的发布不仅引起了开发者的兴趣,也获得了主流推理框架 vLLMSGLang 的积极回应。

  • vLLM 集成
    vLLM 团队已宣布计划尽快集成 FlashMLA。从技术上讲,FlashMLA 基于 PagedAttention 构建,与 vLLM 的技术栈高度兼容。一旦集成,FlashMLA 有望进一步提升 vLLM 的推理性能。
  • SGLang 采用
    SGLang 将继续使用已集成的 FlashInferMLA,评估表明其性能与 FlashMLA 相当。

Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷方式,同时也提供经济且可靠的 GPU 云用于构建和扩展。

try deepseek r1

获取 $20 信用额度,立即体验 DeepSeek!

推荐阅读