DeepSeek-V4-Flash em Novita AIRaciocínio rápido a um custo menor

DeepSeek-V4-Flash com suporte de Novita AI: 1 milhão de contextos a US$ 0.14/milhão de tokens

A maioria dos modelos de código aberto com capacidade de raciocínio impõe uma escolha: janelas de contexto pequenas, baixa taxa de transferência ou preços que ultrapassam US$ 1/M tokens assim que você habilita o raciocínio estendido. O DeepSeek-V4-Flash contorna isso completamente — 284 bilhões de parâmetros, apenas 13 bilhões ativados por inferência, uma janela de contexto nativa de 1,048,576 tokens e três modos de raciocínio selecionáveis. Com um custo de US$ 0.14/M tokens de entrada, ele se posiciona em uma categoria onde modelos com capacidade de raciocínio raramente competem.

Resumindo: DeepSeek-V4-Flash é um modelo MoE da DeepSeek AI que oferece contexto de 1 milhão de tokens e profundidade de raciocínio ajustável para desenvolvedores que precisam de alta capacidade de processamento sem o custo adicional de um modelo fechado. Atualmente, está disponível através do Novita AI API.

O que é DeepSeek-V4-Flash?

DeepSeek-V4-Flash é um modelo de linguagem Mixture-of-Experts (MoE) da DeepSeek IA, lançado como parte da série DeepSeek-V4 juntamente com o DeepSeek-V4-Pro, de maior porte. O modelo possui um total de 284 bilhões de parâmetros, com 13 bilhões ativados na inferência — mantendo o custo computacional por token baixo, ao mesmo tempo que preserva a capacidade de parâmetros de um modelo muito maior.

Principais funcionalidades em resumo:

  • 284 bilhões no total / 13 bilhões de parâmetros ativados — Arquitetura MoE, baixo custo de inferência
  • Janela de contexto de 1,048,576 tokens (1 milhão de tokens) — habilitado pela Arquitetura de Atenção Híbrida
  • Três modos de raciocínio: Sem pensar (rápido), Pensar (passo a passo), Pensar ao máximo (orçamento máximo de raciocínio)
  • Suporte para chamada de função — uso de ferramentas, saídas estruturadas, modo JSON
  • Treinado com mais de 32 trilhões de tokens. com pós-treinamento em múltiplos estágios (SFT, RL com GRPO, destilação on-policy)
  • MIT License — pesos disponíveis para download em Abraçando o Rosto; uso comercial permitido
  • Precisão mista FP4 + FP8 — Especialistas do Ministério da Educação ponderam no FP4, camadas restantes no FP8

Principais características: Por que o DeepSeek-V4-Flash se destaca

Profundidade de raciocínio selecionável sem necessidade de trocar de modelo

A maioria dos modelos limita você a um único modo de inferência: raciocínio ativado ou raciocínio desativado. O DeepSeek-V4-Flash oferece três modos de operação distintos no mesmo endpoint da API:

ModaParticularidadesMais Adequada Para
Não pensarRápido, sem linha de raciocínio.Tarefas de alto volume, bate-papo, resumo
PensarRaciocínio passo a passo, equilibradoPerguntas e respostas complexas, geração de código, análise
Pense Maxorçamento máximo de raciocínioCompetições de matemática, tarefas de programação complexas, benchmarks

A diferença entre os modos é significativa: no GPQA Diamond, o V4-Flash Non-think alcança 71.2 pontos, enquanto o Think atinge 87.4 e o Think Max, 88.1. No LiveCodeBench, o Think Max chega a 91.6 pontos, contra 55.2 do Non-think. Você escolhe entre custo e qualidade por requisição — sem necessidade de alterações na infraestrutura.

Arquitetura de Atenção Híbrida para Contexto de 1 Milhão de Tokens

Contexto nativo com um milhão de tokens é mais difícil do que parece. O DeepSeek-V4-Flash consegue isso através de uma Arquitetura de Atenção Híbrida desenvolvida especificamente para esse fim, que combina dois mecanismos:

  • Atenção Esparsa Comprimida (CSA) — reduz drasticamente o orçamento computacional de atenção para sequências longas
  • Atenção Altamente Comprimida (HCA) — Comprime o espaço ocupado pelo cache KV para inferência de 1 milhão de contextos

O resultado: inferência sobre entradas de 1 milhão de tokens com custo de FLOP e memória gerenciável. Para cargas de trabalho como análise de código-fonte, revisão de documentos jurídicos ou agentes de longa duração, essa arquitetura representa a diferença entre viável e proibitiva.

Eficiência do MoE: 13B ativado na escala 284B

A relação de ativação de 284B/13B é o que proporciona a eficiência de custos. Apenas 13B parâmetros estão ativos por passagem direta, mantendo a latência e o custo por token próximos a um modelo denso de 13B — enquanto o conjunto completo de 284B parâmetros oferece capacidade de conhecimento comparável a uma rede densa muito maior. A precisão mista FP4 + FP8 reduz ainda mais a pressão sobre a largura de banda da memória nos pesos dos especialistas.

Forte fluxo de profissionais após o treinamento

O DeepSeek-V4-Flash segue um processo de pós-treinamento em duas etapas: primeiro, o desenvolvimento de conhecimento especializado específico do domínio por meio de SFT (Spectral Functional Training) e aprendizado por reforço com GRPO (Global Regressive Processing Optimization); em seguida, a consolidação unificada do modelo por meio de destilação on-policy. Isso produz um modelo único com perfis de capacidade diferenciados em codificação, raciocínio e conhecimento geral — não um mero seguidor de instruções genérico.

Desempenho de referência

O principal destaque do DeepSeek-V4-Flash é a seleção do modo de raciocínio. No modo "Non-think" (sem processamento), ele se comporta como um modelo eficiente ativado por 13B. Ao selecionar o modo "Think Max" (processamento máximo), ele atinge um nível completamente diferente.

Gráfico comparativo do benchmark DeepSeek-V4-Flash mostrando o desempenho em diferentes modos de raciocínio.
Desempenho do DeepSeek-V4-Flash em diferentes modos versus modelos de ponta [Fonte: DeepSeek AI / HuggingFace]

Desempenho em diferentes modos de raciocínio

Abaixo estão os resultados do V4-Flash em benchmarks importantes, comparando os três modos de operação:

referênciaV4-Flash Não-PensarV4-Flash PenseV4-Flash Think Max
LiveCodeBench (Passe@1)55.288.491.6
GPQA Diamante (Aprovado na primeira tentativa)71.287.488.1
HMMT 2026 Fev (Pass@1)40.891.994.8
IMOAnswerBench (Pass@1)41.985.188.4
Classificação Codeforces-28163052
SWE verificado (resolvido)73.778.679.0
MRCR 1M (MMR)37.576.978.7
MCPAtlas (Passagem@1)64.067.469.0
MMLU-Pro (EM)83.086.486.2

Última verificação: 27/04/2026. Fonte: Relatório técnico do DeepSeek-V4 e cartão de modelo da HuggingFace.

Como o V4-Flash se compara aos concorrentes

O V4-Flash Think Max (79.0 SWE Verified, 91.6 LiveCodeBench) compete com modelos que têm um custo por token muito maior. Ele não lidera todos os rankings — o V4-Pro Max lidera na maioria dos benchmarks de ponta —, mas para desenvolvedores que priorizam o custo por tarefa em vez do desempenho máximo bruto, a relação custo-benefício é vantajosa.

referênciaV4-Flash MaxV4-Pro MaxClaude Opus 4.6 Máx.Gemini 3.1 Pro High
LiveCodeBench (Passe@1)91.693.588.891.7
GPQA Diamante (Aprovado na primeira tentativa)88.190.191.394.3
SWE verificado (resolvido)79.080.680.880.6
HMMT 2026 Fev (Pass@1)94.895.296.294.7
MRCR 1M (MMR)78.783.592.976.3

Última verificação: 27/04/2026. Valores de Claude Opus 4.6 Max e Gemini 3.1 Pro High obtidos de... Relatório técnico do DeepSeek-V4 (Tabela comparativa de fronteira V4-Pro). Essas pontuações não foram medidas diretamente com o V4-Flash naquele relatório.

Notavelmente, o V4-Flash Think Max no MRCR 1M (78.7) supera o Gemini 3.1 Pro High (76.3) na tarefa de recuperação de contexto longo — o benchmark que melhor se relaciona com casos de uso de 1 milhão de contextos. No SWE Verified, todos os quatro modelos se agrupam entre 79 e 81, tornando o V4-Flash competitivo na categoria de agentes de codificação do mundo real a uma fração do preço de modelos fechados.

Como usar o DeepSeek-V4-Flash via Novita AI

Opção 1: Playground (Sem código)

Teste o modelo diretamente no seu navegador em Novita AI console modeloNão é necessária nenhuma chave de API para começar — alterne entre os modos Não-pensar, Pensar e Pensar Máximo através da interface de chat.

Opção 2: API (Python)

O DeepSeek-V4-Flash utiliza a API compatível com OpenAI. Use o ID do modelo. deepseek/deepseek-v4-flash com a URL base da Novita:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[{"role": "user", "content": "Your prompt here"}]
)
print(response.choices[0].message.content)

Para ativar o modo Think ou Think Max, passe o reasoning parâmetro no corpo da requisição:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

# Think Max mode — maximum reasoning budget
response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[{"role": "user", "content": "Solve: x^4 - 5x^2 + 4 = 0"}],
    extra_body={"reasoning": {"effort": "high"}}  # "low" = Think, "high" = Think Max
)
print(response.choices[0].message.content)

Obtenha sua chave de API em novita.ai/ definições.

Opção 3: Ferramentas de terceiros

Porque Novita AI Expõe um endpoint compatível com OpenAI; o DeepSeek-V4-Flash funciona imediatamente com:

  • LangChain / Índice de Lhama - usar ChatOpenAI com as base_url="https://api.novita.ai/v3/openai"
  • OpenWebUI — adicionar como um endpoint personalizado compatível com OpenAI
  • Continue.dev / Cursor — configurar como um modelo personalizado com a URL base da Novita

Preços

O DeepSeek-V4-Flash tem preços consistentes entre os principais provedores. Todos os valores são por milhão de tokens, referentes a 27/04/2026.

provedor do cliente Entrada ($/M)Saída ($/M)Leitura de cache ($/M)Contexto máximo
Novita AI$0.14$0.28$0.028Tokens 1,048,576
DeepSeek Oficial$0.14$0.28$0.028Tokens 131,072
Fluxo de Silício$0.14$0.28$0.028Tokens 65,536
Infra profunda$0.14$0.28-Tokens 16,384

A taxa por token é a mesma em todos os lugares, mas o contexto máximo varia significativamente. Novita AI Oferece a janela de contexto completa de 1 milhão de tokens. O DeepInfra tem um limite de 16,384 tokens. Se sua carga de trabalho envolve documentos longos, bases de código ou agentes com múltiplas interações, o Novita é a escolha mais prática.

Agentes de codificação autônomos

A janela de contexto de 1M do V4-Flash permite que um agente carregue toda a base de código no contexto sem fragmentação. Combinado com a verificação de software 79.0 no modo Think Max, ele lida com refatorações e depuração de vários arquivos sem perda de estado entre as execuções.

Controle de qualidade e RAG para documentos longos

MRCR 1M (Recuperação de Contexto Multirrodada) com 78.7% de precisão. Think Max — o benchmark mede a precisão da recuperação em uma janela real de 1 milhão de tokens. Para indexação de documentos jurídicos, artigos acadêmicos ou longas especificações técnicas, o V4-Flash recupera com precisão onde a maioria dos modelos apresenta desempenho inferior após 32 mil tokens.

Raciocínio em Matemática e Ciências

94.8% no HMMT de fevereiro de 2026 (matemática para competições) com o Think Max. O modo de otimização de recursos permite ajustar custo versus precisão — use o Think para problemas padrão e o Think Max para os mais difíceis. Uma única requisição não consome um orçamento computacional fixo; a escolha é sua.

APIs de produção com cache

Com leituras de cache a US$ 0.028/M, solicitações repetidas do sistema e esquemas de ferramentas praticamente não custam nada em grande escala. Produtos de chatbot e wrappers de API que reinjetam o mesmo contexto em cada chamada se beneficiam da precificação por leitura de cache em vez da precificação por entrada bruta.

Perguntas frequentes

O que é DeepSeek-V4-Flash?

O DeepSeek-V4-Flash é um modelo de linguagem Mixture-of-Experts com 284 bilhões de parâmetros, desenvolvido pela DeepSeek AI e lançado em 23/04/2026. Ele ativa apenas 13 bilhões de parâmetros por passagem direta, tornando-o significativamente mais rápido e econômico do que modelos densos com capacidade comparável. Suporta uma janela de contexto de 1,048,576 tokens e três modos de raciocínio: Não-pensamento (rápido), Pensamento Orçamentário e Pensamento Estendido (Think Max).

Qual a diferença entre o DeepSeek-V4-Flash e o DeepSeek-V4-Pro?

O V4-Flash é a variante mais leve e rápida, otimizada para velocidade e custo. O V4-Pro é o modelo principal, com pontuações de benchmark mais altas (por exemplo, 93.5 contra 91.6 no LiveCodeBench Think Max). O V4-Flash "alcança desempenho de raciocínio comparável à versão Pro quando recebe um orçamento de processamento maior" — na prática, o V4-Flash Think Max reduz significativamente a diferença em relação ao V4-Pro Think Max a um custo por token menor.

O que significa "Flash" no nome do modelo?

Flash sinaliza uma variante otimizada para velocidade, consistente com a forma como o Google usa o termo para Gemini Flash. O DeepSeek-V4-Flash prioriza menor latência e custo em detrimento da precisão máxima bruta, com os modos de processamento disponíveis quando você precisa reduzir a diferença de desempenho.

O DeepSeek-V4-Flash suporta uma janela de contexto de 1M com suporte de... Novita AI?

Sim. Travas deslizantes portáteis Novita AI Expõe a janela de contexto completa de 1,048,576 tokens — a maior disponível entre todos os provedores atuais para este modelo. O número máximo de tokens de conclusão no Novita é 393,216.

Como faço para alternar entre os modos de raciocínio por meio da API?

Passe o extra_body={"reasoning": {"effort": "low"}} parâmetro para Pensamento Orçamentário, ou "effort": "high" Para o modo Think Max, omita o parâmetro completamente. A API é compatível com OpenAI — nenhuma alteração no SDK é necessária.

Qual é o preço do DeepSeek-V4-Flash com suporte de [nome da empresa/plataforma]? Novita AI?

Em 27/04/2026: US$ 0.14/M para tokens de entrada, US$ 0.28/M para tokens de saída e US$ 0.028/M para tokens de leitura de cache. Isso corresponde aos preços oficiais da DeepSeek e é consistente entre os provedores — o diferencial da Novita é a janela de contexto completa de 1M e o tempo de atividade confiável.

O DeepSeek-V4-Flash é de código aberto?

Sim. Os pesos dos modelos estão disponíveis em Abraçando o Rosto sob a MIT License — confirmado no repositório oficial do DeepSeek-V4. Hospedagem própria e uso comercial são permitidos sob os termos do MIT. Usando-o via Novita AIA API não requer nenhum tipo de hospedagem própria.


Comece a usar o DeepSeek-V4-Flash hoje mesmo

O DeepSeek-V4-Flash já está disponível via Novita AI Com uma janela de contexto completa de 1 milhão de visualizações, preços competitivos e zero sobrecarga de infraestrutura. Você escolhe o modo de raciocínio; a Novita cuida do resto.

Experimente o DeepSeek-V4-Flash com suporte de Novita AI

Novita AI LLM Documentação da API



Descubra mais da Novita

Inscreva-se para receber as últimas postagens enviadas para seu e-mail.

Deixe um comentário

Voltar ao Topo

Descubra mais da Novita

Inscreva-se agora para continuar lendo e ter acesso ao arquivo completo.

Ler Mais