- Por qué usar DeepSeek V4 Flash en Claude Code
- Qué es DeepSeek V4 Flash
- Obtén tu clave de API de Novita AI
- Instalación de Claude Code
- Configuración de las variables de entorno
- Iniciar Claude Code
- Trabajar con bases de código grandes
- Seleccionar modos de razonamiento por sesión
- Conclusión
- Preguntas frecuentes
- Artículos recomendados
DeepSeek V4 Flash es un modelo MoE de 284B con una ventana de contexto de 1 millón de tokens, disponible a través del endpoint compatible con Anthropic de Novita AI. Esto significa que Claude Code puede usarlo directamente con solo cambiar tres variables de entorno. Con $0.14/M tokens de entrada frente a los $3/M de Claude Sonnet, la diferencia de costo es significativa para equipos que realizan sesiones continuas de codificación agéntica.
Por qué usar DeepSeek V4 Flash en Claude Code
El aspecto económico es la razón más inmediata. Claude Code usa por defecto Claude Sonnet, que cuesta $3/M tokens de entrada y $15/M tokens de salida. DeepSeek V4 Flash en Novita AI cuesta $0.14/M de entrada y $0.28/M de salida, aproximadamente 20 veces menos en entrada y 50 veces menos en salida. Para un equipo que usa Claude Code durante una jornada laboral de ocho horas, la diferencia se acumula rápidamente.
Más allá del costo, V4 Flash aporta dos capacidades relevantes para la codificación agéntica:
- Ventana de contexto de 1M de tokens: Claude Code puede cargar un código base completo en el contexto sin necesidad de dividirlo en fragmentos. Las refactorizaciones multiarchivo, la depuración entre repositorios y las historias largas de conversación se mantienen coherentes sin gestión manual del contexto.
- Modos de razonamiento seleccionables: El modo “no pensar” ofrece respuestas rápidas para tareas repetitivas; los modos “Pensar” y “Pensar al máximo” permiten un razonamiento paso a paso para decisiones arquitectónicas complejas o sesiones de depuración difíciles. Puedes elegir por sesión sin cambiar de modelo.
Novita AI expone un endpoint compatible con Anthropic (/anthropic), por lo que Claude Code lo trata como un reemplazo directo. Sin cambios en el SDK, sin necesidad de plugins, solo variables de entorno.
Qué es DeepSeek V4 Flash
DeepSeek V4 Flash es un modelo de mezcla de expertos (MoE) de DeepSeek AI. Tiene 284B parámetros totales, pero solo activa 13B por paso de avance, lo que mantiene la latencia y el costo por token cerca de un modelo denso de 13B, mientras retiene la capacidad de conocimiento de una red mucho más grande.
Especificaciones clave de un vistazo:
| Especificación | Valor |
|---|---|
| ID del modelo | deepseek/deepseek-v4-flash |
| Parámetros totales | 284B (13B activados por inferencia) |
| Ventana de contexto | 1,048,576 tokens |
| Máx. tokens de salida | 393,216 |
| Precio de entrada (Novita AI) | $0.14/M tokens |
| Precio de salida (Novita AI) | $0.28/M tokens |
| Precio de lectura de caché | $0.028/M tokens |
| Modos de razonamiento | No pensar, Pensar, Pensar al máximo |
| Llamada a funciones | Sí |
| Salidas estructuradas | Sí |
| Licencia | MIT |
Los tres modos de razonamiento te permiten ajustar el costo frente a la calidad por sesión. El modo “No pensar” es rápido y económico, ideal para tareas repetitivas de andamiaje o generación de código repetitivo. El modo “Pensar” añade razonamiento paso a paso para revisión de código, trabajo de arquitectura y depuración. “Pensar al máximo” utiliza el presupuesto máximo de razonamiento y iguala a V4 Pro en la mayoría de los benchmarks de codificación.
Novita AI proporciona la ventana de contexto completa de 1M de tokens y una disponibilidad confiable, lo que la convierte en una opción práctica para cargas de trabajo agénticas en producción.
Obtén tu clave de API de Novita AI
Regístrate en una cuenta de Novita AI para recibir créditos de prueba gratuitos. Después de iniciar sesión, ve a la página de Gestión de Claves y haz clic en Crear nueva clave.
Copia la clave inmediatamente; no se mostrará de nuevo. Guárdala en un gestor de contraseñas o en un almacén de secretos; la necesitarás en el siguiente paso.
Instalación de Claude Code
Claude Code requiere Node.js 18 o superior. Verifica tu versión primero:
node --version
Si Node está por debajo de 18, actualízalo desde nodejs.org antes de continuar.
Windows
Abre el Símbolo del sistema y ejecuta:
npm install -g @anthropic-ai/claude-code
Mac y Linux
Abre la Terminal y ejecuta:
npm install -g @anthropic-ai/claude-code
La instalación global hace que claude esté disponible desde cualquier directorio.
Configuración de las variables de entorno
Estas cuatro variables redirigen Claude Code al endpoint compatible con Anthropic de Novita AI, usando DeepSeek V4 Flash como modelo activo.
Windows
set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<Tu Clave de API de Novita>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash
Estas persisten durante la sesión actual del Símbolo del sistema. Para hacerlas permanentes, configúralas a través de Propiedades del sistema → Variables de entorno.
Mac y Linux
export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Tu Clave de API de Novita>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"
Para que persistan entre sesiones, agrega estas líneas a tu archivo ~/.bashrc, ~/.zshrc o perfil de shell equivalente.
ANTHROPIC_SMALL_FAST_MODEL controla el modelo ligero que Claude Code usa para tareas internas rápidas como búsquedas de archivos y resúmenes. Configurarlo con el mismo ID de modelo mantiene todo el tráfico en una sola línea de facturación y evita llamadas inesperadas a la API de Anthropic.
Iniciar Claude Code
Navega a tu directorio de proyecto e inicia Claude Code:
cd <tu-directorio-de-proyecto>
claude .
Claude Code abre una sesión interactiva en el directorio actual. Verás el mensaje aparecer una vez que se establezca la conexión con el endpoint de Novita AI. Desde aquí, describe tu tarea en lenguaje natural: Claude Code leerá tus archivos, propondrá cambios y los aplicará con tu aprobación.
Trabajar con bases de código grandes
La ventana de contexto de 1M de tokens es la ventaja más práctica de V4 Flash frente a alternativas con contexto más pequeño. Una base de código de producción de tamaño medio suele tener entre 100K y 300K tokens cuando se aplana. V4 Flash puede contener todo en contexto sin necesidad de ninguna estrategia de fragmentación.
Algunos flujos de trabajo que se benefician directamente:
Refactorizaciones entre archivos: Pide a Claude Code que renombre un modelo de datos, cambie un contrato de API o refactorice una interfaz de servicio en todos los archivos que la referencian. Con una ventana de contexto completa, ve todas las dependencias simultáneamente, en lugar de archivo por archivo.
Sesiones de depuración largas: A medida que una sesión de depuración acumula llamadas a herramientas, lecturas de archivos y trazas de razonamiento, las ventanas de contexto más pequeñas truncan el historial temprano. V4 Flash retiene la sesión completa, por lo que el modelo puede razonar sobre patrones que vio hace 200 llamadas a herramientas.
Revisiones de todo el repositorio: Alimenta todo el código base al modo “Pensar” o “Pensar al máximo” de V4 Flash y pide una revisión de seguridad, evaluación de arquitectura o análisis de código muerto. Esto agotaría rápidamente un modelo de 128K; cabe cómodamente en la ventana de V4 Flash.
Superposición del prompt del sistema: Claude Code utiliza un prompt de sistema detallado que puede ocupar entre 10K y 20K tokens. En un modelo de 128K, esa superposición importa. En una ventana de 1M es insignificante, dejando casi todo el presupuesto de contexto para el código real.
Para controlar costos en sesiones largas, el modo “No pensar” maneja la mayor parte de las ediciones rutinarias de archivos al menor costo. Cambia al modo “Pensar” cuando la tarea requiera razonamiento de diseño, y a “Pensar al máximo” para problemas difíciles de algoritmos o depuración. El precio de lectura de caché de Novita ($0.028/M) significa que las inyecciones repetidas del prompt del sistema cuestan muy poco a escala.
Seleccionar modos de razonamiento por sesión
DeepSeek V4 Flash admite tres modos de razonamiento que puedes controlar por sesión. El modo “No pensar” devuelve respuestas rápidas y directas, ideal para generación de código repetitivo, ediciones rutinarias y búsquedas rápidas. El modo “Pensar” habilita el razonamiento paso a paso para revisión de código, refactorizaciones y decisiones de arquitectura. “Pensar al máximo” asigna el presupuesto máximo de razonamiento y equipara a V4 Pro en la mayoría de los benchmarks de codificación.
La forma más sencilla de inclinar a Claude Code hacia un razonamiento más profundo es un prompt de sistema personalizado:
claude --system "Usa pensamiento extendido para decisiones de arquitectura y depuración compleja."
Para control programático, el endpoint de Novita AI acepta el parámetro budget_tokens. Configurarlo en 0 desactiva completamente el pensamiento; cualquier valor positivo activa el pensamiento hasta ese presupuesto de tokens. Esto es útil en pipelines agénticos donde solo ciertos pasos necesitan razonamiento profundo:
import anthropic
client = anthropic.Anthropic(
base_url="https://api.novita.ai/anthropic",
api_key="<Tu Clave de API de Novita>",
)
# Pensar al máximo: presupuesto máximo de razonamiento para problemas difíciles
response = client.messages.create(
model="deepseek/deepseek-v4-flash",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 10000},
messages=[{"role": "user", "content": "Revisa esta función para detectar errores sutiles de concurrencia."}],
)
Para sesiones conscientes del costo, comienza en modo “No pensar” y cambia a “Pensar” solo cuando encuentres un problema que lo requiera. Dado que el precio de lectura de caché de Novita es de $0.028/M tokens, las inyecciones repetidas del prompt del sistema se mantienen económicas incluso en sesiones largas de múltiples pasos.
Conclusión
DeepSeek V4 Flash en Novita AI le brinda a Claude Code una base capaz y rentable: 1M de contexto, razonamiento seleccionable y llamada a funciones a una fracción del precio de Claude Sonnet. La configuración toma menos de cinco minutos. Una vez que las variables de entorno están en su lugar, tu flujo de trabajo existente de Claude Code funciona sin cambios.
Prueba DeepSeek V4 Flash en Novita AI y consulta la documentación de la API LLM de Novita AI para más opciones de configuración.
Preguntas frecuentes
¿Claude Code necesita algún plugin o extensión para usar Novita AI?
No. Claude Code lee la variable de entorno ANTHROPIC_BASE_URL al iniciar y enruta todas las llamadas a la API allí. No se requiere ningún plugin, extensión o cambio de código; el cambio se realiza completamente a través de variables de entorno.
¿Se me facturará a través de Anthropic cuando use Novita AI?
No. Cuando ANTHROPIC_BASE_URL apunta a Novita AI, todo el tráfico y la facturación pasan por tu cuenta de Novita AI. Tu cuenta de Anthropic no se utiliza.
¿Puedo volver a Claude Sonnet sin reinstalar?
Sí. Anula la configuración de ANTHROPIC_BASE_URL y ANTHROPIC_MODEL, o abre un nuevo shell sin esas exportaciones, y Claude Code volverá al endpoint predeterminado de Anthropic con Claude Sonnet.
¿Es V4 Flash adecuado para pipelines de CI automatizados?
V4 Flash admite llamada a funciones y salidas estructuradas, que son las dos capacidades de las que Claude Code depende más. Es una opción práctica para pipelines de codificación automatizados, integraciones de CI y sesiones agénticas largas donde la continuidad del contexto y la previsibilidad de costos son importantes.
¿Qué sucede si la ventana de contexto se llena?
Con 1,048,576 tokens, la ventana de contexto de V4 Flash es lo suficientemente grande como para que la mayoría de las sesiones no se llenen. Si estás ejecutando una sesión extremadamente larga (días de historial acumulado, repositorios muy grandes), Claude Code comenzará a truncar los mensajes más antiguos. En la práctica, iniciar una sesión nueva para una tarea nueva es la forma más simple de mantenerse dentro del límite.
Novita AI es una plataforma de nube de IA que ofrece a los desarrolladores una manera sencilla de implementar modelos de IA usando nuestra API simple, al tiempo que proporciona una nube GPU asequible y confiable para construir y escalar.
