Usa DeepSeek V4 Flash en Claude Code: Guía de configuración a través de Novita AI

Tabla de contenido

Por qué usar DeepSeek V4 Flash en Claude Code
¿Qué es DeepSeek V4 Flash?
Obteniendo tu clave API de Novita AI
Instalando Claude Code
Configurando las variables de entorno
Iniciando Claude Code
Trabajando con bases de código grandes
Seleccionando modos de razonamiento por sesión
Conclusión
Preguntas Frecuentes
Artículos Recomendados

DeepSeek V4 Flash es un modelo MoE de 284B con una ventana de contexto de 1 millón de tokens, disponible a través del endpoint compatible con Anthropic de Novita AI, lo que significa que Claude Code puede usarlo directamente con un cambio de tres líneas en las variables de entorno. A $0.14/M tokens de entrada frente a los $3/M de Claude Sonnet, la diferencia de costo es significativa para equipos que ejecutan sesiones continuas de codificación agente.

Por qué usar DeepSeek V4 Flash en Claude Code

La economía es la razón más inmediata. Claude Code usa por defecto Claude Sonnet, que cuesta $3/M tokens de entrada y $15/M tokens de salida. DeepSeek V4 Flash en Novita AI cuesta $0.14/M de entrada y $0.28/M de salida, aproximadamente una reducción de 20× en entrada y 50× en salida. Para un equipo que ejecuta Claude Code durante una jornada laboral de ocho horas, esa diferencia se acumula rápidamente.

Más allá del costo, V4 Flash aporta dos capacidades que son especialmente relevantes para la codificación agente:

Ventana de contexto de 1M tokens — Claude Code puede cargar una base de código completa en contexto sin necesidad de dividirla. Las refactorizaciones multiarchivo, la depuración entre repositorios y los historiales de conversación largos se mantienen coherentes sin gestión manual del contexto.
Modos de razonamiento seleccionables — El modo Non-think ofrece respuestas rápidas para tareas estándar; los modos Think y Think Max permiten un razonamiento paso a paso para decisiones complejas de arquitectura o sesiones de depuración difíciles. Puedes elegir por sesión sin cambiar de modelo.

Novita AI expone un endpoint compatible con Anthropic (/anthropic), por lo que Claude Code lo trata como un reemplazo directo. Sin cambios en el SDK, sin necesidad de complementos, solo variables de entorno.

¿Qué es DeepSeek V4 Flash?

DeepSeek V4 Flash es un modelo Mixture-of-Experts (MoE) de DeepSeek AI. Tiene 284B parámetros totales pero activa solo 13B por paso forward, lo que mantiene la latencia y el costo por token cerca de un modelo denso de 13B mientras retiene la capacidad de conocimiento de una red mucho más grande.

Especificaciones clave de un vistazo:

Especificación	Valor
ID del modelo	`deepseek/deepseek-v4-flash`
Parámetros totales	284B (13B activados por inferencia)
Ventana de contexto	1,048,576 tokens
Máximo de tokens de salida	393,216
Precio de entrada (Novita AI)	$0.14/M tokens
Precio de salida (Novita AI)	$0.28/M tokens
Precio de lectura de caché	$0.028/M tokens
Modos de razonamiento	Non-think, Think, Think Max
Llamada a funciones	Sí
Salidas estructuradas	Sí
Licencia	MIT

Los tres modos de razonamiento te permiten ajustar el costo frente a la calidad por sesión. El modo Non-think es rápido y económico, ideal para andamiaje repetitivo o generación de código boilerplate. El modo Think añade razonamiento paso a paso para revisión de código, trabajo de arquitectura y depuración. Think Max utiliza el presupuesto máximo de razonamiento y se iguala a V4 Pro en la mayoría de los benchmarks de codificación.

Novita AI proporciona la ventana de contexto completa de 1M tokens y un tiempo de actividad confiable, lo que la convierte en una opción práctica para cargas de trabajo agente en producción.

Obteniendo tu clave API de Novita AI

Regístrate en una cuenta de Novita AI para recibir créditos de prueba gratuitos. Después de iniciar sesión, navega a la página de Administración de Claves y haz clic en Crear Nueva Clave.

Copia la clave inmediatamente — no se mostrará de nuevo. Guárdala en un gestor de contraseñas o almacén de secretos; la necesitarás en el siguiente paso.

Instalando Claude Code

Claude Code requiere Node.js 18 o superior. Verifica tu versión primero:

node --version

Si Node está por debajo de 18, actualízalo desde nodejs.org antes de continuar.

Windows

Abre el Símbolo del sistema y ejecuta:

npm install -g @anthropic-ai/claude-code

Mac and Linux

Abre la Terminal y ejecuta:

npm install -g @anthropic-ai/claude-code

La instalación global hace que claude esté disponible desde cualquier directorio.

Configurando las variables de entorno

Estas cuatro variables redirigen Claude Code al endpoint compatible con Anthropic de Novita AI con DeepSeek V4 Flash como modelo activo.

Windows

set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<Your Novita API Key>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash

Estas persisten solo para la sesión actual del Símbolo del sistema. Para hacerlas permanentes, configúralas a través de Propiedades del sistema → Variables de entorno.

Mac and Linux

export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Your Novita API Key>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"

Para que persistan entre sesiones, añade estas líneas a tu ~/.bashrc, ~/.zshrc, o perfil de shell equivalente.

ANTHROPIC_SMALL_FAST_MODEL controla el modelo ligero que Claude Code utiliza para tareas internas rápidas como búsquedas de archivos y resúmenes. Configurarlo con el mismo ID de modelo mantiene todo el tráfico en una sola línea de facturación y evita llamadas inesperadas a la API de Anthropic.

Iniciando Claude Code

Navega al directorio de tu proyecto e inicia Claude Code:

cd <your-project-directory>
claude .

Claude Code abre una sesión interactiva en el directorio actual. Verás aparecer el prompt una vez que se establezca la conexión con el endpoint de Novita AI. Desde aquí, describe tu tarea en lenguaje natural — Claude Code leerá tus archivos, propondrá cambios y los aplicará con tu aprobación.

Trabajando con bases de código grandes

La ventana de contexto de 1M tokens es la ventaja más práctica de V4 Flash sobre alternativas de contexto más pequeño. Una base de código de producción típica de tamaño mediano tiene entre 100K y 300K tokens cuando se aplana. V4 Flash puede mantenerlo todo en contexto sin necesidad de ninguna estrategia de división.

Algunos flujos de trabajo que se benefician directamente:

Refactorizaciones multiarchivo — Pídele a Claude Code que renombre un modelo de datos, cambie un contrato de API o refactorice una interfaz de servicio en todos los archivos que la referencian. Con una ventana de contexto completa, ve todas las dependencias simultáneamente en lugar de archivo por archivo.
Sesiones de depuración largas — A medida que una sesión de depuración acumula llamadas a herramientas, lecturas de archivos y trazas de razonamiento, las ventanas de contexto más pequeñas truncarían el historial temprano. V4 Flash retiene la sesión completa, por lo que el modelo puede razonar sobre patrones que vio hace 200 llamadas a herramientas.
Revisiones a nivel de repositorio — Alimenta toda la base de código al modo Think o Think Max de V4 Flash y pide una revisión de seguridad, evaluación de arquitectura o análisis de código muerto. Esto agotaría rápidamente un modelo de 128K; cabe cómodamente en la ventana de V4 Flash.
Sobrecarga del prompt del sistema — Claude Code utiliza un prompt de sistema detallado que puede tener entre 10K y 20K tokens. En un modelo de 128K, esa sobrecarga importa. En una ventana de 1M es insignificante, dejando casi todo el presupuesto de contexto para código real.

Para controlar costos en sesiones largas, el modo Non-think maneja la mayor parte de las ediciones rutinarias de archivos al menor costo. Cambia al modo Think cuando la tarea requiera razonamiento de diseño, y a Think Max para problemas algorítmicos o de depuración difíciles. El precio de lectura de caché de Novita ($0.028/M) significa que las inyecciones repetidas del prompt del sistema cuestan muy poco a escala.

Seleccionando modos de razonamiento por sesión

DeepSeek V4 Flash admite tres modos de razonamiento que puedes controlar por sesión. El modo Non-think devuelve completaciones rápidas y directas, ideal para generación de boilerplate, ediciones rutinarias y búsquedas rápidas. El modo Think permite razonamiento paso a paso para revisión de código, refactorizaciones y decisiones de arquitectura. Think Max asigna el presupuesto máximo de razonamiento y se iguala a V4 Pro en la mayoría de los benchmarks de codificación.

La forma más sencilla de inclinar Claude Code hacia un razonamiento más profundo es un prompt de sistema personalizado:

claude --system "Use extended thinking for architecture decisions and complex debugging."

Para un control programático, el endpoint de Novita AI acepta el parámetro budget_tokens. Configurarlo en 0 desactiva el pensamiento por completo; cualquier valor positivo habilita el pensamiento hasta ese presupuesto de tokens. Esto es útil en pipelines agente donde solo pasos específicos necesitan razonamiento profundo:

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.novita.ai/anthropic",
    api_key="<Your Novita API Key>",
)

# Think Max — maximum reasoning budget for hard problems
response = client.messages.create(
    model="deepseek/deepseek-v4-flash",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "Review this function for subtle concurrency bugs."}],
)

Para sesiones conscientes del costo, comienza en modo Non-think y cambia a Think solo cuando encuentres un problema que lo requiera. Debido a que el precio de lectura de caché de Novita es de $0.028/M tokens, las inyecciones repetidas del prompt del sistema siguen siendo económicas incluso en sesiones largas de múltiples pasos.

Conclusión

DeepSeek V4 Flash en Novita AI le da a Claude Code una base capaz y rentable: 1M de contexto, razonamiento seleccionable y llamada a funciones a una fracción del precio de Claude Sonnet. La configuración toma menos de cinco minutos. Una vez que las variables de entorno están en su lugar, tu flujo de trabajo existente de Claude Code funciona sin cambios.

Prueba DeepSeek V4 Flash en Novita AI y consulta la documentación de la API LLM de Novita AI para más opciones de configuración.

Preguntas Frecuentes

¿Claude Code necesita algún complemento o extensión para usar Novita AI?

No. Claude Code lee la variable de entorno ANTHROPIC_BASE_URL al inicio y enruta todas las llamadas API allí. No se requiere ningún complemento, extensión ni cambio de código: el cambio es completamente a través de variables de entorno.

¿Se me facturará a través de Anthropic cuando use Novita AI?

No. Cuando ANTHROPIC_BASE_URL apunta a Novita AI, todo el tráfico y la facturación pasan por tu cuenta de Novita AI. Tu cuenta de Anthropic no se utiliza.

¿Puedo volver a Claude Sonnet sin reinstalar?

Sí. Desconfigura ANTHROPIC_BASE_URL y ANTHROPIC_MODEL, o abre un nuevo shell sin esas exportaciones, y Claude Code volverá al endpoint predeterminado de Anthropic con Claude Sonnet.

¿Es V4 Flash adecuado para pipelines CI automatizados?

V4 Flash admite llamada a funciones y salidas estructuradas, que son las dos capacidades de las que Claude Code depende más fuertemente. Es una opción práctica para pipelines de codificación automatizados, integraciones CI y sesiones agente largas donde la continuidad del contexto y la previsibilidad de costos son importantes.

¿Qué sucede si la ventana de contexto se llena?

Con 1,048,576 tokens, la ventana de contexto de V4 Flash es lo suficientemente grande como para que la mayoría de las sesiones no la llenen. Si estás ejecutando una sesión extremadamente larga (días de historial acumulado, repositorios muy grandes), Claude Code comenzará a truncar los mensajes más antiguos. En la práctica, iniciar una sesión nueva para una tarea nueva es la forma más sencilla de mantenerse dentro del límite.

Novita AI es una plataforma en la nube de IA que ofrece a los desarrolladores una forma sencilla de implementar modelos de IA usando nuestra API simple, al mismo tiempo que proporciona GPU en la nube asequible y confiable para construir y escalar.

Usa DeepSeek V4 Flash en Claude Code: Guía de configuración a través de Novita AI

Por qué usar DeepSeek V4 Flash en Claude Code

¿Qué es DeepSeek V4 Flash?

Obteniendo tu clave API de Novita AI

Instalando Claude Code

Windows

Mac and Linux

Configurando las variables de entorno

Windows

Mac and Linux

Iniciando Claude Code

Trabajando con bases de código grandes

Seleccionando modos de razonamiento por sesión

Conclusión

Preguntas Frecuentes

Artículos Recomendados

Product

RESOURCES

Partners

Company

Por qué usar DeepSeek V4 Flash en Claude Code

¿Qué es DeepSeek V4 Flash?

Obteniendo tu clave API de Novita AI

Instalando Claude Code

Windows

Mac and Linux

Configurando las variables de entorno

Windows

Mac and Linux

Iniciando Claude Code

Trabajando con bases de código grandes

Seleccionando modos de razonamiento por sesión

Conclusión

Preguntas Frecuentes

Artículos Recomendados

Publicaciones relacionadas

Product

RESOURCES

Partners

Company