Novita AI avalia FlashMLA em H100 e H200

Novita AI avalia FlashMLA em H100 e H200

O DeepSeek iniciou oficialmente sua iniciativa de lançamento de código aberto de cinco dias, com o primeiro projeto em destaque sendo o FlashMLA. O FlashMLA é um kernel de decodificação MLA otimizado e de alta eficiência, projetado especificamente para GPUs NVIDIA Hopper (por exemplo, H800 SXM5). Seu objetivo principal é acelerar os cálculos para modelos de grande escala, especialmente melhorando o desempenho em GPUs de ponta da NVIDIA.

DEEPSEEK WEEK 1

Como fornecedora líder de infraestrutura de IA, a Novita AI foi uma das primeiras a avaliar o desempenho do FlashMLA em GPUs Hopper convencionais (H100, H200).

O que é MLA?

Antes de mergulharmos nos resultados da avaliação, vamos entender alguns conceitos de base relevantes.

  • GPU Hopper: a arquitetura de GPU de alto desempenho de próxima geração da NVIDIA, projetada para IA e computação de alto desempenho (HPC). Construída com processos tecnológicos avançados e uma arquitetura inovadora, as GPUs Hopper oferecem desempenho excepcional e eficiência energética para tarefas computacionais complexas. As GPUs Hopper convencionais incluem H100 e H200.

  • Kernel de Decodificação: um módulo de hardware ou software projetado especificamente para acelerar tarefas de decodificação. Na inferência de IA, os kernels de decodificação aumentam significativamente a velocidade e a eficiência da inferência do modelo, especialmente ao processar dados sequenciais.

  • Pares Chave-Valor (KV)

    • Chave:
      • Representa uma versão comprimida dos dados de entrada, usada para calcular os pesos de atenção (quanto foco colocar em diferentes partes da entrada).
      • Exemplo: na geração de texto, as chaves ajudam o modelo a identificar quais palavras em uma frase são mais relevantes para a palavra atual sendo gerada.
    • Valor:
      • Contém as informações reais associadas a cada token de entrada, ponderadas pelos escores de atenção.
      • Exemplo: os valores armazenam o significado semântico das palavras, que são combinados com base nos pesos de atenção para produzir a saída.
  • MLA (Multi-head Latent Attention): um novo mecanismo de atenção que requer cache KV (chave-valor) mais leve, tornando-o mais escalável para processamento de sequências longas. O MLA supera os mecanismos tradicionais de Atenção Multi-Cabeça (MHA) tanto em escalabilidade quanto em desempenho.

MHA VS MQA VS GQA VS MLA

Módulo Lógica Técnica Velocidade de Inferência Desempenho do Modelo
MHA Múltiplas cabeças geram chaves e valores independentemente, sem compartilhamento (cálculo de dimensão completa). ⭐️ ⭐️⭐️⭐️
MQA Todas as cabeças de consulta compartilham um único par chave-valor (grupo KV único). ⭐️⭐️⭐️ ⭐️
GQA Cabeças de consulta compartilham pares chave-valor em grupos (múltiplos grupos KV). ⭐️⭐️ ⭐️⭐️
MLA Pares chave-valor são comprimidos em vetores latentes de baixa dimensão e decodificados com RoPE desacoplado para reter informações posicionais. ⭐️⭐️⭐️⭐️ ⭐️⭐️⭐️⭐️
  • MQA/GQA: uma “versão simplificada” do MHA, focando na eficiência ao custo de perda de informação.
  • MLA: uma “versão comprimida atualizada” que equilibra eficiência de memória e retenção de informações, superando até mesmo o MHA.
  • Inovação Arquitetural: o MLA não é uma mera otimização, mas uma reinterpretação dos mecanismos de atenção, utilizando variáveis latentes para reconstruí-los matematicamente. Ele alcança o melhor dos dois mundos: eficiência e capacidade.

Avaliação de Desempenho do FlashMLA pela Novita AI

O DeepSeek anunciou que o FlashMLA atinge um limite de largura de banda de memória de 3000 GB/s e um limite computacional de 580 TFLOPS na GPU H800 SXM5. Para validar essas afirmações, a Novita AI realizou uma avaliação abrangente, testando o FlashMLA sob várias configurações de parâmetros.

Para apresentar os resultados de forma mais intuitiva, o eixo horizontal nos gráficos de desempenho representa as seguintes configurações de parâmetros:

  1. Tamanho do Lote
  2. Comprimento da Sequência
  3. Número de Cabeças de Atenção

h100

h200

Nota

Esses resultados são baseados nos scripts de teste oficiais. Sem o conhecimento das configurações ideais de parâmetros, os dados podem não refletir totalmente os máximos teóricos.

Qual Impacto o FlashMLA Terá?

O lançamento do FlashMLA não apenas capturou o interesse dos desenvolvedores, mas também gerou respostas positivas de frameworks de inferência convencionais, vLLM e SGLang.

  • Integração com vLLM:
    A equipe do vLLM anunciou planos para integrar o FlashMLA em breve. Tecnicamente, o FlashMLA é construído sobre o PagedAttention, tornando-o altamente compatível com a pilha de tecnologia do vLLM. Uma vez integrado, espera-se que o FlashMLA melhore ainda mais o desempenho de inferência do vLLM.
  • Adoção pelo SGLang:
    O SGLang continuará utilizando o já integrado FlashInferMLA, que foi avaliado como tendo desempenho comparável ao FlashMLA.

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer a nuvem de GPU acessível e confiável para construção e escalonamento.

try deepseek r1

Obtenha $20 em créditos e experimente o DeepSeek agora!

Leitura Recomendada