Use DeepSeek V4 Flash no Claude Code: Guia de Configuração via Novita AI

Índice

Por que usar DeepSeek V4 Flash no Claude Code
O que é DeepSeek V4 Flash
Obtendo sua chave de API da Novita AI
Instalando o Claude Code
Configurando Variáveis de Ambiente
Iniciando o Claude Code
Trabalhando com Bases de Código Grandes
Selecionando Modos de Raciocínio por Sessão
Conclusão
FAQ
Artigos Recomendados

DeepSeek V4 Flash é um modelo MoE de 284B com uma janela de contexto de 1 milhão de tokens, disponível através do endpoint compatível com Anthropic da Novita AI — o que significa que o Claude Code pode usá-lo diretamente com uma mudança de três linhas nas variáveis de ambiente. A $0,14/M tokens de entrada contra $3/M do Claude Sonnet, a diferença de custo é significativa para equipes que executam sessões contínuas de codificação agêntica.

Por que usar DeepSeek V4 Flash no Claude Code

A economia é o motivo mais imediato. O Claude Code usa por padrão o Claude Sonnet, que custa $3/M tokens de entrada e $15/M tokens de saída. O DeepSeek V4 Flash na Novita AI custa $0,14/M tokens de entrada e $0,28/M tokens de saída — aproximadamente uma redução de 20× na entrada e 50× na saída. Para uma equipe executando Claude Code ao longo de um dia útil de oito horas, essa diferença se acumula rapidamente.

Além do custo, o V4 Flash traz duas capacidades importantes especificamente para codificação agêntica:

Janela de contexto de 1M tokens — O Claude Code pode carregar uma base de código inteira no contexto sem dividir em partes. Refatorações em múltiplos arquivos, depuração entre repositórios e longos históricos de conversa permanecem coerentes sem gerenciamento manual de contexto.
Modos de raciocínio selecionáveis — O modo sem pensamento (non-think) oferece respostas rápidas para tarefas repetitivas; os modos Think e Think Max permitem raciocínio passo a passo para decisões arquiteturais complexas ou sessões difíceis de depuração. Você escolhe por sessão sem trocar de modelo.

A Novita AI expõe um endpoint compatível com Anthropic (/anthropic), então o Claude Code o trata como uma substituição direta. Sem mudanças no SDK, sem plugin necessário — apenas variáveis de ambiente.

O que é DeepSeek V4 Flash

DeepSeek V4 Flash é um modelo Mixture-of-Experts (MoE) da DeepSeek AI. Ele tem 284B parâmetros totais, mas ativa apenas 13B por passo forward, o que mantém a latência e o custo por token próximos a um modelo denso de 13B, enquanto retém a capacidade de conhecimento de uma rede muito maior.

Especificações principais em resumo:

Especificação	Valor
ID do modelo	`deepseek/deepseek-v4-flash`
Parâmetros totais	284B (13B ativados por inferência)
Janela de contexto	1.048.576 tokens
Máx. tokens de saída	393.216
Preço de entrada (Novita AI)	$0,14/M tokens
Preço de saída (Novita AI)	$0,28/M tokens
Preço de leitura de cache	$0,028/M tokens
Modos de raciocínio	Sem pensamento, Think, Think Max
Chamada de funções	Sim
Saídas estruturadas	Sim
Licença	MIT

Os três modos de raciocínio permitem ajustar o custo em relação à qualidade por sessão. O modo sem pensamento é rápido e barato — ideal para scaffolding repetitivo ou geração de código genérico. O modo Think adiciona raciocínio passo a passo para revisão de código, trabalho arquitetural e depuração. O Think Max usa o orçamento máximo de raciocínio e equivale ao V4 Pro na maioria dos benchmarks de codificação.

A Novita AI fornece a janela de contexto completa de 1M tokens e disponibilidade confiável, o que a torna uma escolha prática para cargas de trabalho agênticas em produção.

Obtendo sua chave de API da Novita AI

Cadastre-se em uma conta Novita AI para receber créditos de teste gratuitos. Após fazer login, navegue até a página Gerenciamento de Chaves e clique em Criar Nova Chave.

Copie a chave imediatamente — ela não será mostrada novamente. Mantenha-a em um gerenciador de senhas ou cofre de segredos; você precisará dela no próximo passo.

Instalando o Claude Code

O Claude Code requer Node.js 18 ou superior. Verifique sua versão primeiro:

node --version

Se o Node estiver abaixo de 18, atualize a partir de nodejs.org antes de continuar.

Windows

Abra o Prompt de Comando e execute:

npm install -g @anthropic-ai/claude-code

Mac e Linux

Abra o Terminal e execute:

npm install -g @anthropic-ai/claude-code

A instalação global torna claude disponível a partir de qualquer diretório.

Configurando Variáveis de Ambiente

Estas quatro variáveis redirecionam o Claude Code para o endpoint compatível com Anthropic da Novita AI com DeepSeek V4 Flash como modelo ativo.

Windows

set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<Sua Chave de API Novita>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash

Elas persistem apenas para a sessão atual do Prompt de Comando. Para torná-las permanentes, defina-as através de Propriedades do Sistema → Variáveis de Ambiente.

Mac e Linux

export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Sua Chave de API Novita>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"

Para persistir entre sessões, adicione estas linhas ao seu ~/.bashrc, ~/.zshrc ou perfil de shell equivalente.

ANTHROPIC_SMALL_FAST_MODEL controla o modelo leve que o Claude Code usa para tarefas internas rápidas, como consultas a arquivos e resumos. Definí-lo com o mesmo ID de modelo mantém todo o tráfego em uma única linha de faturamento e evita chamadas inesperadas à API Anthropic.

Iniciando o Claude Code

Navegue até o diretório do seu projeto e inicie o Claude Code:

cd <diretorio-do-seu-projeto>
claude .

O Claude Code abre uma sessão interativa no diretório atual. Você verá o prompt aparecer assim que a conexão com o endpoint da Novita AI for estabelecida. A partir daqui, descreva sua tarefa em linguagem natural — o Claude Code lerá seus arquivos, proporá alterações e as aplicará com sua aprovação.

Trabalhando com Bases de Código Grandes

A janela de contexto de 1M tokens é a vantagem mais prática do V4 Flash em relação a alternativas com contexto menor. Uma base de código de produção de médio porte típica tem entre 100K e 300K tokens quando achatada. O V4 Flash pode armazenar tudo no contexto sem qualquer estratégia de divisão em partes.

Alguns fluxos de trabalho que se beneficiam diretamente:

Refatorações entre arquivos — Peça ao Claude Code para renomear um modelo de dados, alterar um contrato de API ou refatorar uma interface de serviço em todos os arquivos que a referenciam. Com uma janela de contexto completa, ele enxerga todas as dependências simultaneamente, em vez de arquivo por arquivo.

Sessões longas de depuração — Conforme uma sessão de depuração acumula chamadas de ferramentas, leituras de arquivos e rastros de raciocínio, janelas de contexto menores truncam o histórico inicial. O V4 Flash retém a sessão completa, permitindo que o modelo raciocine sobre padrões que viu há 200 chamadas de ferramentas atrás.

Revisões em todo o repositório — Alimente toda a base de código no modo Think ou Think Max do V4 Flash e peça uma revisão de segurança, avaliação arquitetural ou análise de código morto. Isso esgotaria rapidamente um modelo de 128K; cabe confortavelmente na janela do V4 Flash.

Sobrecarga do prompt de sistema — O Claude Code usa um prompt de sistema detalhado que pode consumir de 10K a 20K tokens. Em um modelo de 128K, essa sobrecarga importa. Em uma janela de 1M, é insignificante, deixando quase todo o orçamento de contexto para código real.

Para controle de custos em sessões longas, o modo sem pensamento lida com a maior parte das edições rotineiras de arquivos ao menor custo. Mude para o modo Think quando a tarefa exigir raciocínio de design, e para Think Max em problemas algorítmicos ou de depuração difíceis. O preço de leitura de cache da Novita ($0,028/M) significa que injeções repetidas de prompt de sistema custam muito pouco em escala.

Selecionando Modos de Raciocínio por Sessão

O DeepSeek V4 Flash suporta três modos de raciocínio que você pode controlar por sessão. O modo sem pensamento retorna respostas rápidas e diretas — ideal para geração de código genérico, edições rotineiras e consultas rápidas. O modo Think permite raciocínio passo a passo para revisão de código, refatorações e decisões arquiteturais. O Think Max aloca o orçamento máximo de raciocínio e equivale ao V4 Pro na maioria dos benchmarks de codificação.

A maneira mais simples de direcionar o Claude Code para um raciocínio mais profundo é um prompt de sistema personalizado:

claude --system "Use pensamento estendido para decisões arquiteturais e depuração complexa."

Para controle programático, o endpoint da Novita AI aceita o parâmetro budget_tokens. Definí-lo como 0 desativa o pensamento completamente; qualquer valor positivo ativa o pensamento até aquele orçamento de tokens. Isso é útil em pipelines agênticos onde apenas etapas específicas precisam de raciocínio profundo:

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.novita.ai/anthropic",
    api_key="<Sua Chave de API Novita>",
)

# Think Max — orçamento máximo de raciocínio para problemas difíceis
response = client.messages.create(
    model="deepseek/deepseek-v4-flash",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "Revise esta função em busca de bugs de concorrência sutis."}],
)

Para sessões com foco em custo, comece no modo sem pensamento e mude para Think somente quando encontrar um problema que exija. Como o preço de leitura de cache da Novita é $0,028/M tokens, injeções repetidas de prompt de sistema permanecem baratas mesmo em sessões longas de múltiplas etapas.

Conclusão

O DeepSeek V4 Flash na Novita AI oferece ao Claude Code uma espinha dorsal capaz e econômica — 1M de contexto, raciocínio selecionável e chamada de funções por uma fração do preço do Claude Sonnet. A configuração leva menos de cinco minutos. Depois que as variáveis de ambiente estão no lugar, seu fluxo de trabalho existente com Claude Code funciona inalterado.

Experimente o DeepSeek V4 Flash na Novita AI e veja a documentação da API LLM da Novita AI para opções de configuração adicionais.

FAQ

O Claude Code precisa de algum plugin ou extensão para usar a Novita AI?

Não. O Claude Code lê a variável de ambiente ANTHROPIC_BASE_URL na inicialização e roteia todas as chamadas de API para lá. Nenhum plugin, extensão ou alteração de código é necessária — a mudança é inteiramente através de variáveis de ambiente.

Serei cobrado pela Anthropic ao usar a Novita AI?

Não. Quando ANTHROPIC_BASE_URL aponta para a Novita AI, todo o tráfego e faturamento passam pela sua conta Novita AI. Sua conta Anthropic não é utilizada.

Posso voltar para o Claude Sonnet sem reinstalar?

Sim. Remova a definição de ANTHROPIC_BASE_URL e ANTHROPIC_MODEL — ou abra um novo shell sem essas exportações — e o Claude Code reverte para o endpoint padrão da Anthropic com o Claude Sonnet.

O V4 Flash é adequado para pipelines de CI automatizados?

O V4 Flash suporta chamada de funções e saídas estruturadas, que são as duas capacidades das quais o Claude Code mais depende. É uma escolha prática para pipelines de codificação automatizados, integrações de CI e sessões agênticas longas onde a continuidade de contexto e a previsibilidade de custos são importantes.

O que acontece se a janela de contexto encher?

Com 1.048.576 tokens, a janela de contexto do V4 Flash é grande o suficiente para que a maioria das sessões não a preencha. Se você estiver executando uma sessão extremamente longa — dias de histórico acumulado, repositórios muito grandes — o Claude Code começará a truncar as mensagens mais antigas. Na prática, iniciar uma nova sessão para uma nova tarefa é a maneira mais simples de ficar bem dentro do limite.

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer GPU em nuvem acessível e confiável para construção e escalonamento.

Use DeepSeek V4 Flash no Claude Code: Guia de Configuração via Novita AI

Por que usar DeepSeek V4 Flash no Claude Code

O que é DeepSeek V4 Flash

Obtendo sua chave de API da Novita AI

Instalando o Claude Code

Windows

Mac e Linux

Configurando Variáveis de Ambiente

Windows

Mac e Linux

Iniciando o Claude Code

Trabalhando com Bases de Código Grandes

Selecionando Modos de Raciocínio por Sessão

Conclusão

FAQ

Artigos Recomendados

Product

RESOURCES

Partners

Company

Por que usar DeepSeek V4 Flash no Claude Code

O que é DeepSeek V4 Flash

Obtendo sua chave de API da Novita AI

Instalando o Claude Code

Windows

Mac e Linux

Configurando Variáveis de Ambiente

Windows

Mac e Linux

Iniciando o Claude Code

Trabalhando com Bases de Código Grandes

Selecionando Modos de Raciocínio por Sessão

Conclusão

FAQ

Artigos Recomendados

Posts relacionados

Product

RESOURCES

Partners

Company