Como faço para acessar o DeepSeek-V4-Flash via API?

O DeepSeek-V4-Flash está disponível através do Novita AI API usando o ID do modelo deepseek/deepseek-v4-flash. Use o endpoint compatível com OpenAI em https://api.novita.ai/v3/openai com sua chave de API da Novita.

Como o DeepSeek-V4-Flash se compara ao DeepSeek-V4-Pro?

DeepSeek-V4-Flash é a variante otimizada para velocidade da série V4. O V4-Pro lidera na maioria dos benchmarks de ponta (93.5 vs 91.6 no LiveCodeBench Think Max), mas o V4-Flash reduz significativamente a diferença no modo Think Max. Ambos compartilham a janela de contexto de 1 milhão de tokens. O V4-Flash tem um preço mais baixo e oferece maior desempenho por dólar.

O que é a janela de contexto do DeepSeek-V4-Flash?

O DeepSeek-V4-Flash suporta uma janela de contexto de 1,048,576 tokens — um milhão de tokens — possibilitada por sua Arquitetura de Atenção Híbrida, que combina Atenção Esparsa Comprimida (CSA) e Atenção Altamente Comprimida (HCA).

Qual o preço do DeepSeek-V4-Flash?

Através da Novita AIO DeepSeek-V4-Flash tem o preço de US$ 0.14/M para tokens de entrada, US$ 0.28/M para tokens de saída e US$ 0.028/M para leituras de cache. A janela de contexto de 1M e o suporte a cache KV o tornam economicamente viável para cargas de trabalho com documentos longos.

DeepSeek-V4-Flash com suporte de Novita AI: 1 milhão de contextos a US$ 0.14/milhão de tokens

A maioria dos modelos de código aberto com capacidade de raciocínio impõe uma escolha: janelas de contexto pequenas, baixa taxa de transferência ou preços que ultrapassam US$ 1/M tokens assim que você habilita o raciocínio estendido. O DeepSeek-V4-Flash contorna isso completamente — 284 bilhões de parâmetros, apenas 13 bilhões ativados por inferência, uma janela de contexto nativa de 1,048,576 tokens e três modos de raciocínio selecionáveis. Com um custo de US$ 0.14/M tokens de entrada, ele se posiciona em uma categoria onde modelos com capacidade de raciocínio raramente competem.

Resumindo: DeepSeek-V4-Flash é um modelo MoE da DeepSeek AI que oferece contexto de 1 milhão de tokens e profundidade de raciocínio ajustável para desenvolvedores que precisam de alta capacidade de processamento sem o custo adicional de um modelo fechado. Atualmente, está disponível através do Novita AI API.

Clique aqui

Índice analítico

DeepSeek-V4-Flash com suporte de Novita AI: 1 milhão de contextos a US$ 0.14/milhão de tokens

O que é DeepSeek-V4-Flash?

DeepSeek-V4-Flash é um modelo de linguagem Mixture-of-Experts (MoE) da DeepSeek IA, lançado como parte da série DeepSeek-V4 juntamente com o DeepSeek-V4-Pro, de maior porte. O modelo possui um total de 284 bilhões de parâmetros, com 13 bilhões ativados na inferência — mantendo o custo computacional por token baixo, ao mesmo tempo que preserva a capacidade de parâmetros de um modelo muito maior.

Principais funcionalidades em resumo:

284 bilhões no total / 13 bilhões de parâmetros ativados — Arquitetura MoE, baixo custo de inferência
Janela de contexto de 1,048,576 tokens (1 milhão de tokens) — habilitado pela Arquitetura de Atenção Híbrida
Três modos de raciocínio: Sem pensar (rápido), Pensar (passo a passo), Pensar ao máximo (orçamento máximo de raciocínio)
Suporte para chamada de função — uso de ferramentas, saídas estruturadas, modo JSON
Treinado com mais de 32 trilhões de tokens. com pós-treinamento em múltiplos estágios (SFT, RL com GRPO, destilação on-policy)
MIT License — pesos disponíveis para download em Abraçando o Rosto; uso comercial permitido
Precisão mista FP4 + FP8 — Especialistas do Ministério da Educação ponderam no FP4, camadas restantes no FP8

Principais características: Por que o DeepSeek-V4-Flash se destaca

Profundidade de raciocínio selecionável sem necessidade de trocar de modelo

A maioria dos modelos limita você a um único modo de inferência: raciocínio ativado ou raciocínio desativado. O DeepSeek-V4-Flash oferece três modos de operação distintos no mesmo endpoint da API:

Moda	Particularidades	Mais Adequada Para
Não pensar	Rápido, sem linha de raciocínio.	Tarefas de alto volume, bate-papo, resumo
Pensar	Raciocínio passo a passo, equilibrado	Perguntas e respostas complexas, geração de código, análise
Pense Max	orçamento máximo de raciocínio	Competições de matemática, tarefas de programação complexas, benchmarks

A diferença entre os modos é significativa: no GPQA Diamond, o V4-Flash Non-think alcança 71.2 pontos, enquanto o Think atinge 87.4 e o Think Max, 88.1. No LiveCodeBench, o Think Max chega a 91.6 pontos, contra 55.2 do Non-think. Você escolhe entre custo e qualidade por requisição — sem necessidade de alterações na infraestrutura.

Arquitetura de Atenção Híbrida para Contexto de 1 Milhão de Tokens

Contexto nativo com um milhão de tokens é mais difícil do que parece. O DeepSeek-V4-Flash consegue isso através de uma Arquitetura de Atenção Híbrida desenvolvida especificamente para esse fim, que combina dois mecanismos:

Atenção Esparsa Comprimida (CSA) — reduz drasticamente o orçamento computacional de atenção para sequências longas
Atenção Altamente Comprimida (HCA) — Comprime o espaço ocupado pelo cache KV para inferência de 1 milhão de contextos

O resultado: inferência sobre entradas de 1 milhão de tokens com custo de FLOP e memória gerenciável. Para cargas de trabalho como análise de código-fonte, revisão de documentos jurídicos ou agentes de longa duração, essa arquitetura representa a diferença entre viável e proibitiva.

Eficiência do MoE: 13B ativado na escala 284B

A relação de ativação de 284B/13B é o que proporciona a eficiência de custos. Apenas 13B parâmetros estão ativos por passagem direta, mantendo a latência e o custo por token próximos a um modelo denso de 13B — enquanto o conjunto completo de 284B parâmetros oferece capacidade de conhecimento comparável a uma rede densa muito maior. A precisão mista FP4 + FP8 reduz ainda mais a pressão sobre a largura de banda da memória nos pesos dos especialistas.

Forte fluxo de profissionais após o treinamento

O DeepSeek-V4-Flash segue um processo de pós-treinamento em duas etapas: primeiro, o desenvolvimento de conhecimento especializado específico do domínio por meio de SFT (Spectral Functional Training) e aprendizado por reforço com GRPO (Global Regressive Processing Optimization); em seguida, a consolidação unificada do modelo por meio de destilação on-policy. Isso produz um modelo único com perfis de capacidade diferenciados em codificação, raciocínio e conhecimento geral — não um mero seguidor de instruções genérico.

Desempenho de referência

O principal destaque do DeepSeek-V4-Flash é a seleção do modo de raciocínio. No modo "Non-think" (sem processamento), ele se comporta como um modelo eficiente ativado por 13B. Ao selecionar o modo "Think Max" (processamento máximo), ele atinge um nível completamente diferente.

Desempenho em diferentes modos de raciocínio

Abaixo estão os resultados do V4-Flash em benchmarks importantes, comparando os três modos de operação:

referência	V4-Flash Não-Pensar	V4-Flash Pense	V4-Flash Think Max
LiveCodeBench (Passe@1)	55.2	88.4	91.6
GPQA Diamante (Aprovado na primeira tentativa)	71.2	87.4	88.1
HMMT 2026 Fev (Pass@1)	40.8	91.9	94.8
IMOAnswerBench (Pass@1)	41.9	85.1	88.4
Classificação Codeforces	-	2816	3052
SWE verificado (resolvido)	73.7	78.6	79.0
MRCR 1M (MMR)	37.5	76.9	78.7
MCPAtlas (Passagem@1)	64.0	67.4	69.0
MMLU-Pro (EM)	83.0	86.4	86.2

Última verificação: 27/04/2026. Fonte: Relatório técnico do DeepSeek-V4 e cartão de modelo da HuggingFace.

Como o V4-Flash se compara aos concorrentes

O V4-Flash Think Max (79.0 SWE Verified, 91.6 LiveCodeBench) compete com modelos que têm um custo por token muito maior. Ele não lidera todos os rankings — o V4-Pro Max lidera na maioria dos benchmarks de ponta —, mas para desenvolvedores que priorizam o custo por tarefa em vez do desempenho máximo bruto, a relação custo-benefício é vantajosa.

referência	V4-Flash Max	V4-Pro Max	Claude Opus 4.6 Máx.	Gemini 3.1 Pro High
LiveCodeBench (Passe@1)	91.6	93.5	88.8	91.7
GPQA Diamante (Aprovado na primeira tentativa)	88.1	90.1	91.3	94.3
SWE verificado (resolvido)	79.0	80.6	80.8	80.6
HMMT 2026 Fev (Pass@1)	94.8	95.2	96.2	94.7
MRCR 1M (MMR)	78.7	83.5	92.9	76.3

Última verificação: 27/04/2026. Valores de Claude Opus 4.6 Max e Gemini 3.1 Pro High obtidos de... Relatório técnico do DeepSeek-V4 (Tabela comparativa de fronteira V4-Pro). Essas pontuações não foram medidas diretamente com o V4-Flash naquele relatório.

Notavelmente, o V4-Flash Think Max no MRCR 1M (78.7) supera o Gemini 3.1 Pro High (76.3) na tarefa de recuperação de contexto longo — o benchmark que melhor se relaciona com casos de uso de 1 milhão de contextos. No SWE Verified, todos os quatro modelos se agrupam entre 79 e 81, tornando o V4-Flash competitivo na categoria de agentes de codificação do mundo real a uma fração do preço de modelos fechados.

Como usar o DeepSeek-V4-Flash via Novita AI

Opção 1: Playground (Sem código)

Teste o modelo diretamente no seu navegador em Novita AI console modeloNão é necessária nenhuma chave de API para começar — alterne entre os modos Não-pensar, Pensar e Pensar Máximo através da interface de chat.

Opção 2: API (Python)

O DeepSeek-V4-Flash utiliza a API compatível com OpenAI. Use o ID do modelo. deepseek/deepseek-v4-flash com a URL base da Novita:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[{"role": "user", "content": "Your prompt here"}]
)
print(response.choices[0].message.content)

Para ativar o modo Think ou Think Max, passe o reasoning parâmetro no corpo da requisição:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

# Think Max mode — maximum reasoning budget
response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[{"role": "user", "content": "Solve: x^4 - 5x^2 + 4 = 0"}],
    extra_body={"reasoning": {"effort": "high"}}  # "low" = Think, "high" = Think Max
)
print(response.choices[0].message.content)

Obtenha sua chave de API em novita.ai/ definições.

Opção 3: Ferramentas de terceiros

Porque Novita AI Expõe um endpoint compatível com OpenAI; o DeepSeek-V4-Flash funciona imediatamente com:

LangChain / Índice de Lhama - usar ChatOpenAI com as base_url="https://api.novita.ai/v3/openai"
OpenWebUI — adicionar como um endpoint personalizado compatível com OpenAI
Continue.dev / Cursor — configurar como um modelo personalizado com a URL base da Novita

Preços

O DeepSeek-V4-Flash tem preços consistentes entre os principais provedores. Todos os valores são por milhão de tokens, referentes a 27/04/2026.

provedor do cliente	Entrada ($/M)	Saída ($/M)	Leitura de cache ($/M)	Contexto máximo
Novita AI	$0.14	$0.28	$0.028	Tokens 1,048,576
DeepSeek Oficial	$0.14	$0.28	$0.028	Tokens 131,072
Fluxo de Silício	$0.14	$0.28	$0.028	Tokens 65,536
Infra profunda	$0.14	$0.28	-	Tokens 16,384

A taxa por token é a mesma em todos os lugares, mas o contexto máximo varia significativamente. Novita AI Oferece a janela de contexto completa de 1 milhão de tokens. O DeepInfra tem um limite de 16,384 tokens. Se sua carga de trabalho envolve documentos longos, bases de código ou agentes com múltiplas interações, o Novita é a escolha mais prática.

Casos de uso recomendados

Agentes de codificação autônomos

A janela de contexto de 1M do V4-Flash permite que um agente carregue toda a base de código no contexto sem fragmentação. Combinado com a verificação de software 79.0 no modo Think Max, ele lida com refatorações e depuração de vários arquivos sem perda de estado entre as execuções.

Controle de qualidade e RAG para documentos longos

MRCR 1M (Recuperação de Contexto Multirrodada) com 78.7% de precisão. Think Max — o benchmark mede a precisão da recuperação em uma janela real de 1 milhão de tokens. Para indexação de documentos jurídicos, artigos acadêmicos ou longas especificações técnicas, o V4-Flash recupera com precisão onde a maioria dos modelos apresenta desempenho inferior após 32 mil tokens.

Raciocínio em Matemática e Ciências

94.8% no HMMT de fevereiro de 2026 (matemática para competições) com o Think Max. O modo de otimização de recursos permite ajustar custo versus precisão — use o Think para problemas padrão e o Think Max para os mais difíceis. Uma única requisição não consome um orçamento computacional fixo; a escolha é sua.

APIs de produção com cache

Com leituras de cache a US$ 0.028/M, solicitações repetidas do sistema e esquemas de ferramentas praticamente não custam nada em grande escala. Produtos de chatbot e wrappers de API que reinjetam o mesmo contexto em cada chamada se beneficiam da precificação por leitura de cache em vez da precificação por entrada bruta.

Perguntas frequentes

O que é DeepSeek-V4-Flash?

O DeepSeek-V4-Flash é um modelo de linguagem Mixture-of-Experts com 284 bilhões de parâmetros, desenvolvido pela DeepSeek AI e lançado em 23/04/2026. Ele ativa apenas 13 bilhões de parâmetros por passagem direta, tornando-o significativamente mais rápido e econômico do que modelos densos com capacidade comparável. Suporta uma janela de contexto de 1,048,576 tokens e três modos de raciocínio: Não-pensamento (rápido), Pensamento Orçamentário e Pensamento Estendido (Think Max).

Qual a diferença entre o DeepSeek-V4-Flash e o DeepSeek-V4-Pro?

O V4-Flash é a variante mais leve e rápida, otimizada para velocidade e custo. O V4-Pro é o modelo principal, com pontuações de benchmark mais altas (por exemplo, 93.5 contra 91.6 no LiveCodeBench Think Max). O V4-Flash "alcança desempenho de raciocínio comparável à versão Pro quando recebe um orçamento de processamento maior" — na prática, o V4-Flash Think Max reduz significativamente a diferença em relação ao V4-Pro Think Max a um custo por token menor.

O que significa "Flash" no nome do modelo?

Flash sinaliza uma variante otimizada para velocidade, consistente com a forma como o Google usa o termo para Gemini Flash. O DeepSeek-V4-Flash prioriza menor latência e custo em detrimento da precisão máxima bruta, com os modos de processamento disponíveis quando você precisa reduzir a diferença de desempenho.

O DeepSeek-V4-Flash suporta uma janela de contexto de 1M com suporte de... Novita AI?

Sim. Travas deslizantes portáteis Novita AI Expõe a janela de contexto completa de 1,048,576 tokens — a maior disponível entre todos os provedores atuais para este modelo. O número máximo de tokens de conclusão no Novita é 393,216.

Como faço para alternar entre os modos de raciocínio por meio da API?

Passe o extra_body={"reasoning": {"effort": "low"}} parâmetro para Pensamento Orçamentário, ou "effort": "high" Para o modo Think Max, omita o parâmetro completamente. A API é compatível com OpenAI — nenhuma alteração no SDK é necessária.

Qual é o preço do DeepSeek-V4-Flash com suporte de [nome da empresa/plataforma]? Novita AI?

Em 27/04/2026: US$ 0.14/M para tokens de entrada, US$ 0.28/M para tokens de saída e US$ 0.028/M para tokens de leitura de cache. Isso corresponde aos preços oficiais da DeepSeek e é consistente entre os provedores — o diferencial da Novita é a janela de contexto completa de 1M e o tempo de atividade confiável.

O DeepSeek-V4-Flash é de código aberto?

Sim. Os pesos dos modelos estão disponíveis em Abraçando o Rosto sob a MIT License — confirmado no repositório oficial do DeepSeek-V4. Hospedagem própria e uso comercial são permitidos sob os termos do MIT. Usando-o via Novita AIA API não requer nenhum tipo de hospedagem própria.

Comece a usar o DeepSeek-V4-Flash hoje mesmo

O DeepSeek-V4-Flash já está disponível via Novita AI Com uma janela de contexto completa de 1 milhão de visualizações, preços competitivos e zero sobrecarga de infraestrutura. Você escolhe o modo de raciocínio; a Novita cuida do resto.

→ Experimente o DeepSeek-V4-Flash com suporte de Novita AI

→ Novita AI LLM Documentação da API

Artigos Recomendados

Descubra mais da Novita

Inscreva-se para receber as últimas postagens enviadas para seu e-mail.

DeepSeek-V4-Flash em Novita AIRaciocínio rápido a um custo menor

DeepSeek-V4-Flash com suporte de Novita AI: 1 milhão de contextos a US$ 0.14/milhão de tokens

O que é DeepSeek-V4-Flash?

Principais características: Por que o DeepSeek-V4-Flash se destaca

Profundidade de raciocínio selecionável sem necessidade de trocar de modelo

Arquitetura de Atenção Híbrida para Contexto de 1 Milhão de Tokens

Eficiência do MoE: 13B ativado na escala 284B

Forte fluxo de profissionais após o treinamento

Desempenho de referência

Desempenho em diferentes modos de raciocínio

Como o V4-Flash se compara aos concorrentes