Como Usar o DeepSeek V4 Flash no Claude Code Através da Novita AI

Como Usar o DeepSeek V4 Flash no Claude Code Através da Novita AI

O DeepSeek V4 Flash é um modelo MoE de 284B com uma janela de contexto de 1 milhão de tokens, disponível através do endpoint compatível com Anthropic da Novita AI — o que significa que o Claude Code pode usá-lo diretamente com uma alteração de três linhas nas variáveis de ambiente. Com US$ 0,14/M tokens de entrada contra US$ 3/M do Claude Sonnet, a diferença de custo é significativa para equipes que executam sessões contínuas de codificação agentiva.

Por que usar o DeepSeek V4 Flash no Claude Code

A economia é o motivo mais imediato. O Claude Code usa como padrão o Claude Sonnet, que custa US$ 3/M tokens de entrada e US$ 15/M tokens de saída. O DeepSeek V4 Flash na Novita AI custa US$ 0,14/M de entrada e US$ 0,28/M de saída — aproximadamente uma redução de 20x na entrada e 50x na saída. Para uma equipe usando o Claude Code durante um dia de trabalho de oito horas, essa diferença se acumula rapidamente.

Além do custo, o V4 Flash traz duas capacidades que são especialmente relevantes para codificação agentiva:

  • Janela de contexto de 1M de tokens — O Claude Code pode carregar uma base de código inteira no contexto sem precisar dividi-la em partes. Refatorações em múltiplos arquivos, debugging entre repositórios e longos históricos de conversa permanecem coerentes sem gerenciamento manual de contexto.
  • Modos de raciocínio selecionáveis — O modo sem pensamento (non-think) fornece respostas rápidas para tarefas repetitivas; os modos Think e Think Max permitem raciocínio passo a passo para decisões complexas de arquitetura ou sessões difíceis de debugging. Você escolhe por sessão sem trocar de modelo.

A Novita AI expõe um endpoint compatível com Anthropic (/anthropic), então o Claude Code o trata como um substituto direto. Sem alterações de SDK, sem necessidade de plugin — apenas variáveis de ambiente.

O que é o DeepSeek V4 Flash

O DeepSeek V4 Flash é um modelo Mixture-of-Experts (MoE) da DeepSeek AI. Ele tem 284B parâmetros totais, mas ativa apenas 13B por passagem direta, o que mantém a latência e o custo por token próximos a um modelo denso de 13B, enquanto retém a capacidade de conhecimento de uma rede muito maior.

Especificações principais em resumo:

Especificação Valor
ID do modelo deepseek/deepseek-v4-flash
Parâmetros totais 284B (13B ativados por inferência)
Janela de contexto 1.048.576 tokens
Máximo de tokens de saída 393.216
Preço de entrada (Novita AI) US$ 0,14/M tokens
Preço de saída (Novita AI) US$ 0,28/M tokens
Preço de leitura de cache US$ 0,028/M tokens
Modos de raciocínio Non-think, Think, Think Max
Chamada de funções Sim
Saídas estruturadas Sim
Licença MIT

Os três modos de raciocínio permitem ajustar o custo em relação à qualidade por sessão. O modo Non-think é rápido e barato — ideal para tarefas repetitivas de scaffolding ou geração de código padrão. O modo Think adiciona raciocínio passo a passo para revisão de código, trabalho de arquitetura e debugging. O Think Max utiliza o orçamento máximo de raciocínio e se iguala ao V4 Pro na maioria dos benchmarks de codificação.

A Novita AI oferece a janela de contexto completa de 1M de tokens e tempo de atividade confiável, o que a torna uma escolha prática para cargas de trabalho agentivas em produção.

Obtendo sua chave de API da Novita AI

Crie uma conta na Novita AI para receber créditos de teste gratuitos. Após o login, navegue até a página de Gerenciamento de Chaves e clique em Criar Nova Chave.

Copie a chave imediatamente — ela não será mostrada novamente. Mantenha-a em um gerenciador de senhas ou cofre de segredos; você precisará dela no próximo passo.

Instalando o Claude Code

O Claude Code requer Node.js 18 ou superior. Verifique sua versão primeiro:

node --version

Se o Node estiver abaixo de 18, atualize a partir do nodejs.org antes de continuar.

Windows

Abra o Prompt de Comando e execute:

npm install -g @anthropic-ai/claude-code

Mac e Linux

Abra o Terminal e execute:

npm install -g @anthropic-ai/claude-code

A instalação global torna o comando claude disponível a partir de qualquer diretório.

Configurando as Variáveis de Ambiente

Estas quatro variáveis redirecionam o Claude Code para o endpoint compatível com Anthropic da Novita AI, com o DeepSeek V4 Flash como modelo ativo.

Windows

set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<Sua Chave de API Novita>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash

Essas configurações persistem apenas na sessão atual do Prompt de Comando. Para torná-las permanentes, defina-as através de Propriedades do Sistema → Variáveis de Ambiente.

Mac e Linux

export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Sua Chave de API Novita>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"

Para persistir entre sessões, adicione estas linhas ao seu ~/.bashrc, ~/.zshrc ou perfil de shell equivalente.

A variável ANTHROPIC_SMALL_FAST_MODEL controla o modelo leve que o Claude Code usa para tarefas internas rápidas, como buscas em arquivos e resumos. Definir o mesmo ID de modelo mantém todo o tráfego em uma única linha de faturamento e evita chamadas inesperadas à API da Anthropic.

Iniciando o Claude Code

Navegue até o diretório do seu projeto e inicie o Claude Code:

cd <seu-diretório-do-projeto>
claude .

O Claude Code abre uma sessão interativa no diretório atual. Você verá o prompt aparecer assim que a conexão com o endpoint da Novita AI for estabelecida. A partir daí, descreva sua tarefa em linguagem natural — o Claude Code lerá seus arquivos, proporá alterações e as aplicará com sua aprovação.

Trabalhando com Bases de Código Grandes

A janela de contexto de 1M de tokens é a vantagem mais prática do V4 Flash em relação a alternativas com contexto menor. Uma base de código de produção típica de médio porte tem entre 100K e 300K tokens quando achatada. O V4 Flash pode conter tudo isso no contexto sem qualquer estratégia de divisão.

Alguns fluxos de trabalho que se beneficiam diretamente:

Refatorações entre arquivos — Peça ao Claude Code para renomear um modelo de dados, alterar um contrato de API ou refatorar uma interface de serviço em todos os arquivos que a referenciam. Com uma janela de contexto completa, ele vê todas as dependências simultaneamente, em vez de arquivo por arquivo.

Sessões longas de debugging — À medida que uma sessão de debugging acumula chamadas de ferramentas, leituras de arquivos e rastros de raciocínio, janelas de contexto menores truncam o histórico inicial. O V4 Flash retém a sessão completa, permitindo que o modelo raciocine sobre padrões que viu 200 chamadas de ferramentas atrás.

Revisões abrangentes do repositório — Alimente toda a base de código para o modo Think ou Think Max do V4 Flash e peça uma revisão de segurança, avaliação de arquitetura ou análise de código morto. Isso esgotaria rapidamente um modelo de 128K; cabe confortavelmente na janela do V4 Flash.

Sobrecarga do prompt de sistema — O Claude Code usa um prompt de sistema detalhado que pode ter de 10K a 20K tokens. Em um modelo de 128K, essa sobrecarga importa. Em uma janela de 1M, é insignificante, deixando quase todo o orçamento de contexto para o código real.

Para controle de custos em sessões longas, o modo Non-think lida com a maior parte das edições rotineiras de arquivos ao menor custo. Mude para o modo Think quando a tarefa exigir raciocínio de design, e para Think Max em problemas difíceis de algoritmo ou debugging. O preço de leitura de cache da Novita ($0,028/M) significa que injeções repetidas de prompt de sistema custam muito pouco em escala.

Selecionando Modos de Raciocínio por Sessão

O DeepSeek V4 Flash suporta três modos de raciocínio que você pode controlar por sessão. O modo Non-think retorna conclusões rápidas e diretas — ideal para geração de código padrão, edições rotineiras e consultas rápidas. O modo Think ativa raciocínio passo a passo para revisão de código, refatorações e decisões de arquitetura. O Think Max aloca o orçamento máximo de raciocínio e se iguala ao V4 Pro na maioria dos benchmarks de codificação.

A maneira mais simples de incentivar o Claude Code a um raciocínio mais profundo é com um prompt de sistema personalizado:

claude --system "Use pensamento estendido para decisões de arquitetura e depuração complexa."

Para controle programático, o endpoint da Novita AI aceita o parâmetro budget_tokens. Definir como 0 desabilita completamente o pensamento; qualquer valor positivo ativa o pensamento até aquele orçamento de tokens. Isso é útil em pipelines agentivos onde apenas etapas específicas precisam de raciocínio profundo:

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.novita.ai/anthropic",
    api_key="<Sua Chave de API Novita>",
)

# Think Max — orçamento máximo de raciocínio para problemas difíceis
response = client.messages.create(
    model="deepseek/deepseek-v4-flash",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "Revise esta função em busca de bugs sutis de concorrência."}],
)

Para sessões focadas em custo, comece no modo Non-think e mude para Think somente quando encontrar um problema que exija raciocínio. Como o preço de leitura de cache da Novita é de $0,028/M tokens, injeções repetidas de prompt de sistema permanecem baratas mesmo em sessões longas de múltiplas etapas.

Conclusão

O DeepSeek V4 Flash na Novita AI fornece ao Claude Code um backend capaz e econômico — contexto de 1M, raciocínio selecionável e chamada de funções por uma fração do preço do Claude Sonnet. A configuração leva menos de cinco minutos. Depois que as variáveis de ambiente estão no lugar, seu fluxo de trabalho existente com o Claude Code funciona inalterado.

Experimente o DeepSeek V4 Flash na Novita AI e veja a documentação da API LLM da Novita AI para opções de configuração adicionais.

Perguntas Frequentes

O Claude Code precisa de algum plugin ou extensão para usar a Novita AI?

Não. O Claude Code lê a variável de ambiente ANTHROPIC_BASE_URL na inicialização e roteia todas as chamadas de API para lá. Nenhum plugin, extensão ou alteração de código é necessário — a troca é inteiramente através de variáveis de ambiente.

Serei cobrado pela Anthropic ao usar a Novita AI?

Não. Quando ANTHROPIC_BASE_URL aponta para a Novita AI, todo o tráfego e faturamento passam pela sua conta Novita AI. Sua conta na Anthropic não é utilizada.

Posso voltar para o Claude Sonnet sem reinstalar?

Sim. Remova as variáveis ANTHROPIC_BASE_URL e ANTHROPIC_MODEL — ou abra um novo shell sem essas exportações — e o Claude Code reverte para o endpoint padrão da Anthropic com o Claude Sonnet.

O V4 Flash é adequado para pipelines de CI automatizados?

O V4 Flash suporta chamada de funções e saídas estruturadas, que são as duas capacidades que o Claude Code mais utiliza. É uma escolha prática para pipelines de codificação automatizados, integrações com CI e sessões agentivas longas onde continuidade de contexto e previsibilidade de custos são importantes.

O que acontece se a janela de contexto encher?

Com 1.048.576 tokens, a janela de contexto do V4 Flash é grande o suficiente para que a maioria das sessões não a encha. Se você estiver executando uma sessão extremamente longa — dias de histórico acumulado, repositórios muito grandes — o Claude Code começará a truncar as mensagens mais antigas. Na prática, iniciar uma sessão nova para uma tarefa nova é a maneira mais simples de permanecer bem dentro do limite.

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer GPU em nuvem acessível e confiável para construir e escalar.

Artigos Recomendados