DeepSeek-V4-Flash com suporte de Novita AI: 1 milhão de contextos a US$ 0.14/milhão de tokens
A maioria dos modelos de código aberto com capacidade de raciocínio impõe uma escolha: janelas de contexto pequenas, baixa taxa de transferência ou preços que ultrapassam US$ 1/M tokens assim que você habilita o raciocínio estendido. O DeepSeek-V4-Flash contorna isso completamente — 284 bilhões de parâmetros, apenas 13 bilhões ativados por inferência, uma janela de contexto nativa de 1,048,576 tokens e três modos de raciocínio selecionáveis. Com um custo de US$ 0.14/M tokens de entrada, ele se posiciona em uma categoria onde modelos com capacidade de raciocínio raramente competem.
Resumindo: DeepSeek-V4-Flash é um modelo MoE da DeepSeek AI que oferece contexto de 1 milhão de tokens e profundidade de raciocínio ajustável para desenvolvedores que precisam de alta capacidade de processamento sem o custo adicional de um modelo fechado. Atualmente, está disponível através do Novita AI API.
O que é DeepSeek-V4-Flash?
DeepSeek-V4-Flash é um modelo de linguagem Mixture-of-Experts (MoE) da DeepSeek IA, lançado como parte da série DeepSeek-V4 juntamente com o DeepSeek-V4-Pro, de maior porte. O modelo possui um total de 284 bilhões de parâmetros, com 13 bilhões ativados na inferência — mantendo o custo computacional por token baixo, ao mesmo tempo que preserva a capacidade de parâmetros de um modelo muito maior.
Principais funcionalidades em resumo:
- 284 bilhões no total / 13 bilhões de parâmetros ativados — Arquitetura MoE, baixo custo de inferência
- Janela de contexto de 1,048,576 tokens (1 milhão de tokens) — habilitado pela Arquitetura de Atenção Híbrida
- Três modos de raciocínio: Sem pensar (rápido), Pensar (passo a passo), Pensar ao máximo (orçamento máximo de raciocínio)
- Suporte para chamada de função — uso de ferramentas, saídas estruturadas, modo JSON
- Treinado com mais de 32 trilhões de tokens. com pós-treinamento em múltiplos estágios (SFT, RL com GRPO, destilação on-policy)
- MIT License — pesos disponíveis para download em Abraçando o Rosto; uso comercial permitido
- Precisão mista FP4 + FP8 — Especialistas do Ministério da Educação ponderam no FP4, camadas restantes no FP8
Principais características: Por que o DeepSeek-V4-Flash se destaca
Profundidade de raciocínio selecionável sem necessidade de trocar de modelo
A maioria dos modelos limita você a um único modo de inferência: raciocínio ativado ou raciocínio desativado. O DeepSeek-V4-Flash oferece três modos de operação distintos no mesmo endpoint da API:
| Moda | Particularidades | Mais Adequada Para |
|---|---|---|
| Não pensar | Rápido, sem linha de raciocínio. | Tarefas de alto volume, bate-papo, resumo |
| Pensar | Raciocínio passo a passo, equilibrado | Perguntas e respostas complexas, geração de código, análise |
| Pense Max | orçamento máximo de raciocínio | Competições de matemática, tarefas de programação complexas, benchmarks |
A diferença entre os modos é significativa: no GPQA Diamond, o V4-Flash Non-think alcança 71.2 pontos, enquanto o Think atinge 87.4 e o Think Max, 88.1. No LiveCodeBench, o Think Max chega a 91.6 pontos, contra 55.2 do Non-think. Você escolhe entre custo e qualidade por requisição — sem necessidade de alterações na infraestrutura.
Arquitetura de Atenção Híbrida para Contexto de 1 Milhão de Tokens
Contexto nativo com um milhão de tokens é mais difícil do que parece. O DeepSeek-V4-Flash consegue isso através de uma Arquitetura de Atenção Híbrida desenvolvida especificamente para esse fim, que combina dois mecanismos:
- Atenção Esparsa Comprimida (CSA) — reduz drasticamente o orçamento computacional de atenção para sequências longas
- Atenção Altamente Comprimida (HCA) — Comprime o espaço ocupado pelo cache KV para inferência de 1 milhão de contextos
O resultado: inferência sobre entradas de 1 milhão de tokens com custo de FLOP e memória gerenciável. Para cargas de trabalho como análise de código-fonte, revisão de documentos jurídicos ou agentes de longa duração, essa arquitetura representa a diferença entre viável e proibitiva.
Eficiência do MoE: 13B ativado na escala 284B
A relação de ativação de 284B/13B é o que proporciona a eficiência de custos. Apenas 13B parâmetros estão ativos por passagem direta, mantendo a latência e o custo por token próximos a um modelo denso de 13B — enquanto o conjunto completo de 284B parâmetros oferece capacidade de conhecimento comparável a uma rede densa muito maior. A precisão mista FP4 + FP8 reduz ainda mais a pressão sobre a largura de banda da memória nos pesos dos especialistas.
Forte fluxo de profissionais após o treinamento
O DeepSeek-V4-Flash segue um processo de pós-treinamento em duas etapas: primeiro, o desenvolvimento de conhecimento especializado específico do domínio por meio de SFT (Spectral Functional Training) e aprendizado por reforço com GRPO (Global Regressive Processing Optimization); em seguida, a consolidação unificada do modelo por meio de destilação on-policy. Isso produz um modelo único com perfis de capacidade diferenciados em codificação, raciocínio e conhecimento geral — não um mero seguidor de instruções genérico.
Desempenho de referência
O principal destaque do DeepSeek-V4-Flash é a seleção do modo de raciocínio. No modo "Non-think" (sem processamento), ele se comporta como um modelo eficiente ativado por 13B. Ao selecionar o modo "Think Max" (processamento máximo), ele atinge um nível completamente diferente.

Desempenho em diferentes modos de raciocínio
Abaixo estão os resultados do V4-Flash em benchmarks importantes, comparando os três modos de operação:
| referência | V4-Flash Não-Pensar | V4-Flash Pense | V4-Flash Think Max |
|---|---|---|---|
| LiveCodeBench (Passe@1) | 55.2 | 88.4 | 91.6 |
| GPQA Diamante (Aprovado na primeira tentativa) | 71.2 | 87.4 | 88.1 |
| HMMT 2026 Fev (Pass@1) | 40.8 | 91.9 | 94.8 |
| IMOAnswerBench (Pass@1) | 41.9 | 85.1 | 88.4 |
| Classificação Codeforces | - | 2816 | 3052 |
| SWE verificado (resolvido) | 73.7 | 78.6 | 79.0 |
| MRCR 1M (MMR) | 37.5 | 76.9 | 78.7 |
| MCPAtlas (Passagem@1) | 64.0 | 67.4 | 69.0 |
| MMLU-Pro (EM) | 83.0 | 86.4 | 86.2 |
Última verificação: 27/04/2026. Fonte: Relatório técnico do DeepSeek-V4 e cartão de modelo da HuggingFace.
Como o V4-Flash se compara aos concorrentes
O V4-Flash Think Max (79.0 SWE Verified, 91.6 LiveCodeBench) compete com modelos que têm um custo por token muito maior. Ele não lidera todos os rankings — o V4-Pro Max lidera na maioria dos benchmarks de ponta —, mas para desenvolvedores que priorizam o custo por tarefa em vez do desempenho máximo bruto, a relação custo-benefício é vantajosa.
| referência | V4-Flash Max | V4-Pro Max | Claude Opus 4.6 Máx. | Gemini 3.1 Pro High |
|---|---|---|---|---|
| LiveCodeBench (Passe@1) | 91.6 | 93.5 | 88.8 | 91.7 |
| GPQA Diamante (Aprovado na primeira tentativa) | 88.1 | 90.1 | 91.3 | 94.3 |
| SWE verificado (resolvido) | 79.0 | 80.6 | 80.8 | 80.6 |
| HMMT 2026 Fev (Pass@1) | 94.8 | 95.2 | 96.2 | 94.7 |
| MRCR 1M (MMR) | 78.7 | 83.5 | 92.9 | 76.3 |
Última verificação: 27/04/2026. Valores de Claude Opus 4.6 Max e Gemini 3.1 Pro High obtidos de... Relatório técnico do DeepSeek-V4 (Tabela comparativa de fronteira V4-Pro). Essas pontuações não foram medidas diretamente com o V4-Flash naquele relatório.
Notavelmente, o V4-Flash Think Max no MRCR 1M (78.7) supera o Gemini 3.1 Pro High (76.3) na tarefa de recuperação de contexto longo — o benchmark que melhor se relaciona com casos de uso de 1 milhão de contextos. No SWE Verified, todos os quatro modelos se agrupam entre 79 e 81, tornando o V4-Flash competitivo na categoria de agentes de codificação do mundo real a uma fração do preço de modelos fechados.
Como usar o DeepSeek-V4-Flash via Novita AI
Opção 1: Playground (Sem código)
Teste o modelo diretamente no seu navegador em Novita AI console modeloNão é necessária nenhuma chave de API para começar — alterne entre os modos Não-pensar, Pensar e Pensar Máximo através da interface de chat.
Opção 2: API (Python)
O DeepSeek-V4-Flash utiliza a API compatível com OpenAI. Use o ID do modelo. deepseek/deepseek-v4-flash com a URL base da Novita:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="YOUR_NOVITA_API_KEY",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash",
messages=[{"role": "user", "content": "Your prompt here"}]
)
print(response.choices[0].message.content)
Para ativar o modo Think ou Think Max, passe o reasoning parâmetro no corpo da requisição:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="YOUR_NOVITA_API_KEY",
)
# Think Max mode — maximum reasoning budget
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash",
messages=[{"role": "user", "content": "Solve: x^4 - 5x^2 + 4 = 0"}],
extra_body={"reasoning": {"effort": "high"}} # "low" = Think, "high" = Think Max
)
print(response.choices[0].message.content)
Obtenha sua chave de API em novita.ai/ definições.
Opção 3: Ferramentas de terceiros
Porque Novita AI Expõe um endpoint compatível com OpenAI; o DeepSeek-V4-Flash funciona imediatamente com:
- LangChain / Índice de Lhama - usar
ChatOpenAIcom asbase_url="https://api.novita.ai/v3/openai" - OpenWebUI — adicionar como um endpoint personalizado compatível com OpenAI
- Continue.dev / Cursor — configurar como um modelo personalizado com a URL base da Novita
Preços
O DeepSeek-V4-Flash tem preços consistentes entre os principais provedores. Todos os valores são por milhão de tokens, referentes a 27/04/2026.
| provedor do cliente | Entrada ($/M) | Saída ($/M) | Leitura de cache ($/M) | Contexto máximo |
|---|---|---|---|---|
| Novita AI | $0.14 | $0.28 | $0.028 | Tokens 1,048,576 |
| DeepSeek Oficial | $0.14 | $0.28 | $0.028 | Tokens 131,072 |
| Fluxo de Silício | $0.14 | $0.28 | $0.028 | Tokens 65,536 |
| Infra profunda | $0.14 | $0.28 | - | Tokens 16,384 |
A taxa por token é a mesma em todos os lugares, mas o contexto máximo varia significativamente. Novita AI Oferece a janela de contexto completa de 1 milhão de tokens. O DeepInfra tem um limite de 16,384 tokens. Se sua carga de trabalho envolve documentos longos, bases de código ou agentes com múltiplas interações, o Novita é a escolha mais prática.
Casos de uso recomendados
Agentes de codificação autônomos
A janela de contexto de 1M do V4-Flash permite que um agente carregue toda a base de código no contexto sem fragmentação. Combinado com a verificação de software 79.0 no modo Think Max, ele lida com refatorações e depuração de vários arquivos sem perda de estado entre as execuções.
Controle de qualidade e RAG para documentos longos
MRCR 1M (Recuperação de Contexto Multirrodada) com 78.7% de precisão. Think Max — o benchmark mede a precisão da recuperação em uma janela real de 1 milhão de tokens. Para indexação de documentos jurídicos, artigos acadêmicos ou longas especificações técnicas, o V4-Flash recupera com precisão onde a maioria dos modelos apresenta desempenho inferior após 32 mil tokens.
Raciocínio em Matemática e Ciências
94.8% no HMMT de fevereiro de 2026 (matemática para competições) com o Think Max. O modo de otimização de recursos permite ajustar custo versus precisão — use o Think para problemas padrão e o Think Max para os mais difíceis. Uma única requisição não consome um orçamento computacional fixo; a escolha é sua.
APIs de produção com cache
Com leituras de cache a US$ 0.028/M, solicitações repetidas do sistema e esquemas de ferramentas praticamente não custam nada em grande escala. Produtos de chatbot e wrappers de API que reinjetam o mesmo contexto em cada chamada se beneficiam da precificação por leitura de cache em vez da precificação por entrada bruta.
Perguntas frequentes
O que é DeepSeek-V4-Flash?
O DeepSeek-V4-Flash é um modelo de linguagem Mixture-of-Experts com 284 bilhões de parâmetros, desenvolvido pela DeepSeek AI e lançado em 23/04/2026. Ele ativa apenas 13 bilhões de parâmetros por passagem direta, tornando-o significativamente mais rápido e econômico do que modelos densos com capacidade comparável. Suporta uma janela de contexto de 1,048,576 tokens e três modos de raciocínio: Não-pensamento (rápido), Pensamento Orçamentário e Pensamento Estendido (Think Max).
Qual a diferença entre o DeepSeek-V4-Flash e o DeepSeek-V4-Pro?
O V4-Flash é a variante mais leve e rápida, otimizada para velocidade e custo. O V4-Pro é o modelo principal, com pontuações de benchmark mais altas (por exemplo, 93.5 contra 91.6 no LiveCodeBench Think Max). O V4-Flash "alcança desempenho de raciocínio comparável à versão Pro quando recebe um orçamento de processamento maior" — na prática, o V4-Flash Think Max reduz significativamente a diferença em relação ao V4-Pro Think Max a um custo por token menor.
O que significa "Flash" no nome do modelo?
Flash sinaliza uma variante otimizada para velocidade, consistente com a forma como o Google usa o termo para Gemini Flash. O DeepSeek-V4-Flash prioriza menor latência e custo em detrimento da precisão máxima bruta, com os modos de processamento disponíveis quando você precisa reduzir a diferença de desempenho.
O DeepSeek-V4-Flash suporta uma janela de contexto de 1M com suporte de... Novita AI?
Sim. Travas deslizantes portáteis Novita AI Expõe a janela de contexto completa de 1,048,576 tokens — a maior disponível entre todos os provedores atuais para este modelo. O número máximo de tokens de conclusão no Novita é 393,216.
Como faço para alternar entre os modos de raciocínio por meio da API?
Passe o extra_body={"reasoning": {"effort": "low"}} parâmetro para Pensamento Orçamentário, ou "effort": "high" Para o modo Think Max, omita o parâmetro completamente. A API é compatível com OpenAI — nenhuma alteração no SDK é necessária.
Qual é o preço do DeepSeek-V4-Flash com suporte de [nome da empresa/plataforma]? Novita AI?
Em 27/04/2026: US$ 0.14/M para tokens de entrada, US$ 0.28/M para tokens de saída e US$ 0.028/M para tokens de leitura de cache. Isso corresponde aos preços oficiais da DeepSeek e é consistente entre os provedores — o diferencial da Novita é a janela de contexto completa de 1M e o tempo de atividade confiável.
O DeepSeek-V4-Flash é de código aberto?
Sim. Os pesos dos modelos estão disponíveis em Abraçando o Rosto sob a MIT License — confirmado no repositório oficial do DeepSeek-V4. Hospedagem própria e uso comercial são permitidos sob os termos do MIT. Usando-o via Novita AIA API não requer nenhum tipo de hospedagem própria.
Comece a usar o DeepSeek-V4-Flash hoje mesmo
O DeepSeek-V4-Flash já está disponível via Novita AI Com uma janela de contexto completa de 1 milhão de visualizações, preços competitivos e zero sobrecarga de infraestrutura. Você escolhe o modo de raciocínio; a Novita cuida do resto.
→ Experimente o DeepSeek-V4-Flash com suporte de Novita AI
→ Novita AI LLM Documentação da API
Artigos Recomendados
- Qual provedor de inferência é o mais adequado para agentes de IA?
- Principais provedores de API de inferência para modelos de código aberto em 2026
- Ling-2.6-1T: O Modelo 1T que Ignora o Imposto de Raciocínio
Descubra mais da Novita
Inscreva-se para receber as últimas postagens enviadas para seu e-mail.





