Novita AI 在 H100 與 H200 上評估 FlashMLA

什麼是 MLA？
Novita AI 對 FlashMLA 的效能評估
FlashMLA 將帶來什麼影響？

DeepSeek 正式展開了為期五天的開源釋出計劃，第一個亮相的項目是 FlashMLA。FlashMLA 是一個專為 NVIDIA Hopper GPU（例如 H800 SXM5）設計的最佳化、高效能 MLA 解碼核心。其主要目標是加速大型模型的運算，尤其是在 NVIDIA 高階 GPU 上提升效能。

作為領先的 AI 基礎設施供應商，Novita AI 率先在主流 Hopper GPU（H100、H200）上評估 FlashMLA 的效能表現。

什麼是 MLA？

在深入探討評估結果之前，我們先花點時間了解相關的背景概念。

Hopper GPU：NVIDIA 的次世代高效能 GPU 架構，專為 AI 與高效能運算（HPC）而設計。憑藉先進製程與創新架構，Hopper GPU 在複雜運算任務中提供卓越的效能與能源效率。主流的 Hopper GPU 包括 H100 與 H200。
解碼核心：專為加速解碼任務而設計的硬體或軟體模組。在 AI 推論中，解碼核心能顯著提升模型推論的速度與效率，特別是在處理序列資料時。
鍵值對（Key-Value, KV）
- 鍵（Key）：
  - 代表輸入資料的壓縮版本，用於計算注意力權重（決定關注輸入中哪些部分）。
  - 範例：在文字生成時，鍵幫助模型識別句子中哪些詞彙與當前生成的詞彙最相關。
- 值（Value）：
  - 包含每個輸入 token 的實際資訊，並根據注意力權重進行加權。
  - 範例：值儲存詞彙的語義，根據注意力權重組合後產生輸出。
MLA（多頭潛在注意力）：一種新穎的注意力機制，需要更輕量的 KV（鍵值）快取，使其在長序列處理上更具可擴展性。MLA 在可擴展性與效能上皆優於傳統的多頭注意力（MHA）機制。

MHA 與 MQA 與 GQA 與 MLA 的比較

模組	技術邏輯	推論速度	模型效能
MHA	多個頭獨立產生鍵與值，無共享（全維度運算）。	⭐️	⭐️⭐️⭐️
MQA	所有查詢頭共享單一鍵值對（單一 KV 組）。	⭐️⭐️⭐️	⭐️
GQA	查詢頭以分組方式共享鍵值對（多個 KV 組）。	⭐️⭐️	⭐️⭐️
MLA	將鍵值對壓縮為低維度潛在向量，並透過解耦的 RoPE 解碼以保留位置資訊。	⭐️⭐️⭐️⭐️	⭐️⭐️⭐️⭐️

MQA/GQA：是 MHA 的「簡化版」，專注於效率，但以資訊損失為代價。
MLA：一個「升級版的壓縮版本」，在記憶體效率與資訊保留之間取得平衡，甚至超越 MHA 的表現。
架構創新：MLA 並非單純的最佳化，而是對注意力機制的重新構想，利用潛在變數從數學上重建注意力。它實現了效率與能力的雙贏。

Novita AI 對 FlashMLA 的效能評估

DeepSeek 宣布 FlashMLA 在 H800 SXM5 GPU 上可達到 **3000 GB/s 的記憶體頻寬極限 ** 與 **580 TFLOPS 的運算極限 。為了驗證這些數據，Novita AI ** 進行了全面評估，在不同參數設定下測試 FlashMLA。

為了更直觀地呈現結果，效能圖表中的橫軸代表以下參數配置：

批次大小
序列長度
注意力頭數

備註

這些結果是基於官方測試腳本。由於未掌握最佳參數配置，數據可能無法完全反映理論最大值。

FlashMLA 將帶來什麼影響？

FlashMLA 的發布不僅引起了開發者的興趣，也獲得了主流推論框架 vLLM 與 SGLang 的正面回應。

vLLM 整合：
vLLM 團隊已宣布計劃盡快整合 FlashMLA。從技術上來說，FlashMLA 基於 PagedAttention，因此與 vLLM 的技術棧高度相容。整合後，FlashMLA 有望進一步提升 vLLM 的推論效能。
SGLang 採用：
SGLang 將繼續使用已整合的 FlashInferMLA，經評估其效能與 FlashMLA 相當。