Novita AI avalia FlashMLA em H100 e H200

Índice

O que é MLA?
Avaliação de Desempenho do FlashMLA pela Novita AI
Qual Impacto o FlashMLA Terá?

O DeepSeek iniciou oficialmente sua iniciativa de lançamento de código aberto de cinco dias, com o primeiro projeto em destaque sendo o FlashMLA. O FlashMLA é um kernel de decodificação MLA otimizado e de alta eficiência, projetado especificamente para GPUs NVIDIA Hopper (por exemplo, H800 SXM5). Seu objetivo principal é acelerar os cálculos para modelos de grande escala, especialmente melhorando o desempenho em GPUs de ponta da NVIDIA.

Como fornecedora líder de infraestrutura de IA, a Novita AI foi uma das primeiras a avaliar o desempenho do FlashMLA em GPUs Hopper convencionais (H100, H200).

O que é MLA?

Antes de mergulharmos nos resultados da avaliação, vamos entender alguns conceitos de base relevantes.

GPU Hopper: a arquitetura de GPU de alto desempenho de próxima geração da NVIDIA, projetada para IA e computação de alto desempenho (HPC). Construída com processos tecnológicos avançados e uma arquitetura inovadora, as GPUs Hopper oferecem desempenho excepcional e eficiência energética para tarefas computacionais complexas. As GPUs Hopper convencionais incluem H100 e H200.
Kernel de Decodificação: um módulo de hardware ou software projetado especificamente para acelerar tarefas de decodificação. Na inferência de IA, os kernels de decodificação aumentam significativamente a velocidade e a eficiência da inferência do modelo, especialmente ao processar dados sequenciais.
Pares Chave-Valor (KV)
- Chave:
  - Representa uma versão comprimida dos dados de entrada, usada para calcular os pesos de atenção (quanto foco colocar em diferentes partes da entrada).
  - Exemplo: na geração de texto, as chaves ajudam o modelo a identificar quais palavras em uma frase são mais relevantes para a palavra atual sendo gerada.
- Valor:
  - Contém as informações reais associadas a cada token de entrada, ponderadas pelos escores de atenção.
  - Exemplo: os valores armazenam o significado semântico das palavras, que são combinados com base nos pesos de atenção para produzir a saída.
MLA (Multi-head Latent Attention): um novo mecanismo de atenção que requer cache KV (chave-valor) mais leve, tornando-o mais escalável para processamento de sequências longas. O MLA supera os mecanismos tradicionais de Atenção Multi-Cabeça (MHA) tanto em escalabilidade quanto em desempenho.

MHA VS MQA VS GQA VS MLA

Módulo	Lógica Técnica	Velocidade de Inferência	Desempenho do Modelo
MHA	Múltiplas cabeças geram chaves e valores independentemente, sem compartilhamento (cálculo de dimensão completa).	⭐️	⭐️⭐️⭐️
MQA	Todas as cabeças de consulta compartilham um único par chave-valor (grupo KV único).	⭐️⭐️⭐️	⭐️
GQA	Cabeças de consulta compartilham pares chave-valor em grupos (múltiplos grupos KV).	⭐️⭐️	⭐️⭐️
MLA	Pares chave-valor são comprimidos em vetores latentes de baixa dimensão e decodificados com RoPE desacoplado para reter informações posicionais.	⭐️⭐️⭐️⭐️	⭐️⭐️⭐️⭐️

MQA/GQA: uma “versão simplificada” do MHA, focando na eficiência ao custo de perda de informação.
MLA: uma “versão comprimida atualizada” que equilibra eficiência de memória e retenção de informações, superando até mesmo o MHA.
Inovação Arquitetural: o MLA não é uma mera otimização, mas uma reinterpretação dos mecanismos de atenção, utilizando variáveis latentes para reconstruí-los matematicamente. Ele alcança o melhor dos dois mundos: eficiência e capacidade.

Avaliação de Desempenho do FlashMLA pela Novita AI

O DeepSeek anunciou que o FlashMLA atinge um limite de largura de banda de memória de 3000 GB/s e um limite computacional de 580 TFLOPS na GPU H800 SXM5. Para validar essas afirmações, a Novita AI realizou uma avaliação abrangente, testando o FlashMLA sob várias configurações de parâmetros.

Para apresentar os resultados de forma mais intuitiva, o eixo horizontal nos gráficos de desempenho representa as seguintes configurações de parâmetros:

Tamanho do Lote
Comprimento da Sequência
Número de Cabeças de Atenção

Nota

Esses resultados são baseados nos scripts de teste oficiais. Sem o conhecimento das configurações ideais de parâmetros, os dados podem não refletir totalmente os máximos teóricos.

Qual Impacto o FlashMLA Terá?

O lançamento do FlashMLA não apenas capturou o interesse dos desenvolvedores, mas também gerou respostas positivas de frameworks de inferência convencionais, vLLM e SGLang.

Integração com vLLM:
A equipe do vLLM anunciou planos para integrar o FlashMLA em breve. Tecnicamente, o FlashMLA é construído sobre o PagedAttention, tornando-o altamente compatível com a pilha de tecnologia do vLLM. Uma vez integrado, espera-se que o FlashMLA melhore ainda mais o desempenho de inferência do vLLM.
Adoção pelo SGLang:
O SGLang continuará utilizando o já integrado FlashInferMLA, que foi avaliado como tendo desempenho comparável ao FlashMLA.

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer a nuvem de GPU acessível e confiável para construção e escalonamento.