DeepSeek-V4-Flash respaldado por Novita AI: contexto de 1M a $0.14/M de tokens
La mayoría de los modelos de código abierto con capacidades de razonamiento imponen un dilema: ventanas de contexto pequeñas, rendimiento lento o precios que superan $1/M de tokens en cuanto se activa el pensamiento extendido. DeepSeek-V4-Flash evita todo eso: 284B de parámetros, solo 13B activados por inferencia, una ventana de contexto nativa de 1 048 576 tokens y tres modos de razonamiento seleccionables. A $0.14/M de tokens de entrada, se sitúa en una categoría donde los modelos con capacidad de razonamiento rara vez compiten.
En resumen: DeepSeek-V4-Flash es un modelo MoE de DeepSeek AI que ofrece contexto de 1M de tokens y profundidad de razonamiento ajustable para desarrolladores que necesitan rendimiento sin la prima de precio de los modelos cerrados. A partir de hoy, está disponible a través de la API de Novita AI.
¿Qué es DeepSeek-V4-Flash?
DeepSeek-V4-Flash es un modelo de lenguaje de mezcla de expertos (MoE) de DeepSeek AI, lanzado como parte de la serie DeepSeek-V4 junto con el modelo más grande DeepSeek-V4-Pro. El modelo tiene 284B de parámetros totales con 13B activados en inferencia, lo que mantiene bajo el costo de cómputo por token y conserva la capacidad de parámetros de un modelo mucho más grande.
Capacidades clave de un vistazo:
- 284B total / 13B parámetros activados — arquitectura MoE, bajo costo de inferencia
- Ventana de contexto de 1 048 576 tokens (1M de tokens) — habilitada por arquitectura de atención híbrida
- Tres modos de razonamiento: Sin pensar (rápido), Pensar (paso a paso), Pensar al máximo (presupuesto máximo de razonamiento)
- Soporte para llamadas a funciones — uso de herramientas, salidas estructuradas, modo JSON
- Entrenado con más de 32T tokens con post-entrenamiento en múltiples etapas (SFT, RL con GRPO, destilación on-policy)
- Licencia MIT — pesos disponibles para descarga en HuggingFace; uso comercial permitido
- Precisión mixta FP4 + FP8 — pesos de expertos MoE en FP4, capas restantes en FP8
Características clave: por qué DeepSeek-V4-Flash destaca
Profundidad de razonamiento seleccionable sin cambiar de modelo
La mayoría de los modelos lo limitan a un único modo de inferencia: razonamiento activado o desactivado. DeepSeek-V4-Flash le ofrece tres modos de operación distintos en el mismo endpoint de API:
| Modo | Características | Ideal para |
|---|---|---|
| Sin pensar | Rápido, sin cadena de pensamiento | Tareas de alto volumen, chat, resúmenes |
| Pensar | Razonamiento paso a paso, equilibrado | Preguntas y respuestas complejas, generación de código, análisis |
| Pensar al máximo | Presupuesto máximo de razonamiento | Competencias de matemáticas, tareas de codificación difíciles, benchmarks |
La diferencia entre modos es significativa: en GPQA Diamond, V4-Flash Sin pensar obtiene 71.2 frente a Pensar con 87.4 y Pensar al máximo con 88.1. En LiveCodeBench, Pensar al máximo alcanza 91.6 frente a 55.2 de Sin pensar. Usted elige costo versus calidad por solicitud, sin necesidad de cambios en la infraestructura.
Arquitectura de atención híbrida para contexto de 1M de tokens
Una ventana nativa de un millón de tokens es más difícil de lo que parece. DeepSeek-V4-Flash lo logra mediante una arquitectura de atención híbrida diseñada específicamente que combina dos mecanismos:
- Atención dispersa comprimida (CSA) — reduce drásticamente el presupuesto de cómputo de atención para secuencias largas
- Atención fuertemente comprimida (HCA) — comprime la huella de caché KV para inferencia con contexto de 1M
El resultado: inferencia sobre entradas de 1M de tokens con un costo manejable de FLOP y memoria. Para cargas de trabajo como análisis de código fuente, revisión de documentos legales o agentes de sesiones largas, esta arquitectura marca la diferencia entre factible y prohibitivo.
Eficiencia MoE: 13B activados a escala de 284B
La relación de activación 284B/13B es donde reside la eficiencia de costo. Solo 13B de parámetros están activos por paso hacia adelante, lo que mantiene la latencia y el costo por token cercanos a un modelo denso de 13B, mientras que el grupo completo de 284B de parámetros proporciona una capacidad de conocimiento comparable a una red densa mucho más grande. La precisión mixta FP4 + FP8 reduce aún más la presión sobre el ancho de banda de memoria en los pesos de los expertos.
Sólido pipeline de post-entrenamiento
DeepSeek-V4-Flash sigue un proceso de post-entrenamiento en dos etapas: primero, cultivo de expertos específicos del dominio mediante SFT y aprendizaje por refuerzo con GRPO; luego, consolidación unificada del modelo mediante destilación on-policy. Esto produce un modelo único con perfiles de capacidad diferenciados en codificación, razonamiento y conocimiento general, no un seguidor de instrucciones genérico.
Rendimiento en benchmarks
La historia de los benchmarks para DeepSeek-V4-Flash se centra en la selección del modo de razonamiento. En modo Sin pensar, se comporta como un modelo eficiente con 13B activados. Si ajusta a Pensar al máximo, alcanza un nivel completamente diferente.

Rendimiento de DeepSeek-V4-Flash en diferentes modos frente a modelos punteros [Fuente: DeepSeek AI / HuggingFace]
Rendimiento en todos los modos de razonamiento
A continuación, las puntuaciones de V4-Flash en benchmarks clave, comparando los tres modos de operación:
| Benchmark | V4-Flash Sin pensar | V4-Flash Pensar | V4-Flash Pensar al máximo |
|---|---|---|---|
| LiveCodeBench (Pass@1) | 55.2 | 88.4 | 91.6 |
| GPQA Diamond (Pass@1) | 71.2 | 87.4 | 88.1 |
| HMMT 2026 Feb (Pass@1) | 40.8 | 91.9 | 94.8 |
| IMOAnswerBench (Pass@1) | 41.9 | 85.1 | 88.4 |
| Codeforces Rating | — | 2816 | 3052 |
| SWE Verified (Resolved) | 73.7 | 78.6 | 79.0 |
| MRCR 1M (MMR) | 37.5 | 76.9 | 78.7 |
| MCPAtlas (Pass@1) | 64.0 | 67.4 | 69.0 |
| MMLU-Pro (EM) | 83.0 | 86.4 | 86.2 |
Última verificación: 2026-04-27. Fuente: Informe técnico de DeepSeek-V4 y tarjeta del modelo en HuggingFace.
Cómo se compara V4-Flash con la competencia
V4-Flash Pensar al máximo (79.0 SWE Verified, 91.6 LiveCodeBench) compite con modelos que se ejecutan a un costo por token mucho más alto. No está en la cima de todos los rankings — V4-Pro Max lidera en la mayoría de los benchmarks de frontera — pero para desarrolladores que miran el costo por tarea en lugar del rendimiento máximo bruto, la compensación es favorable:
| Benchmark | V4-Flash Max | V4-Pro Max | Claude Opus 4.6 Max | Gemini 3.1 Pro High |
|---|---|---|---|---|
| LiveCodeBench (Pass@1) | 91.6 | 93.5 | 88.8 | 91.7 |
| GPQA Diamond (Pass@1) | 88.1 | 90.1 | 91.3 | 94.3 |
| SWE Verified (Resolved) | 79.0 | 80.6 | 80.8 | 80.6 |
| HMMT 2026 Feb (Pass@1) | 94.8 | 95.2 | 96.2 | 94.7 |
| MRCR 1M (MMR) | 78.7 | 83.5 | 92.9 | 76.3 |
Última verificación: 2026-04-27. Las cifras de Claude Opus 4.6 Max y Gemini 3.1 Pro High provienen del informe técnico de DeepSeek-V4 (tabla de comparación de modelos punteros V4-Pro). Estas puntuaciones no se midieron en una comparación directa con V4-Flash en ese informe.
Notablemente, V4-Flash Pensar al máximo en MRCR 1M (78.7) supera a Gemini 3.1 Pro High (76.3) en la tarea de recuperación de contexto largo, el benchmark que se relaciona más directamente con casos de uso de 1M de contexto. En SWE Verified, los cuatro modelos se agrupan entre 79 y 81, lo que sitúa a V4-Flash como competitivo en la categoría de agentes de codificación del mundo real a una fracción del precio de los modelos cerrados.
Cómo usar DeepSeek-V4-Flash a través de Novita AI
Opción 1: Playground (sin código)
Pruebe el modelo directamente en su navegador en la consola de modelos de Novita AI. No necesita clave API para empezar; cambie entre los modos Sin pensar, Pensar y Pensar al máximo a través de la interfaz de chat.
Opción 2: API (Python)
DeepSeek-V4-Flash usa la API compatible con OpenAI. Use el ID de modelo deepseek/deepseek-v4-flash con la URL base de Novita:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="SU_CLAVE_API_DE_NOVITA",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash",
messages=[{"role": "user", "content": "Su mensaje aquí"}]
)
print(response.choices[0].message.content)
Para habilitar el modo Pensar o Pensar al máximo, pase el parámetro reasoning en el cuerpo de la solicitud:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="SU_CLAVE_API_DE_NOVITA",
)
# Modo Pensar al máximo — presupuesto máximo de razonamiento
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash",
messages=[{"role": "user", "content": "Resuelve: x^4 - 5x^2 + 4 = 0"}],
extra_body={"reasoning": {"effort": "high"}} # "low" = Pensar, "high" = Pensar al máximo
)
print(response.choices[0].message.content)
Obtenga su clave API en novita.ai/settings.
Opción 3: Herramientas de terceros
Dado que Novita AI expone un endpoint compatible con OpenAI, DeepSeek-V4-Flash funciona de inmediato con:
- LangChain / LlamaIndex — use
ChatOpenAIconbase_url="https://api.novita.ai/v3/openai" - OpenWebUI — añada como endpoint personalizado compatible con OpenAI
- Continue.dev / Cursor — configure como modelo personalizado con la URL base de Novita
Precios
DeepSeek-V4-Flash tiene un precio consistente en todos los proveedores principales. Todas las cifras son por millón de tokens, a partir del 2026-04-27:
| Proveedor | Entrada ($/M) | Salida ($/M) | Lectura de caché ($/M) | Contexto máximo |
|---|---|---|---|---|
| Novita AI | $0.14 | $0.28 | $0.028 | 1 048 576 tokens |
| DeepSeek Official | $0.14 | $0.28 | $0.028 | 131 072 tokens |
| SiliconFlow | $0.14 | $0.28 | $0.028 | 65 536 tokens |
| DeepInfra | $0.14 | $0.28 | — | 16 384 tokens |
La tarifa por token es la misma en todas partes, pero el contexto máximo varía significativamente. Novita AI ofrece la ventana de contexto completa de 1M de tokens. DeepInfra limita a 16 384 tokens. Si su carga de trabajo implica documentos largos, bases de código o agentes de múltiples turnos, Novita es la opción práctica.
Casos de uso recomendados
Agentes de codificación autónomos
La ventana de contexto de 1M de V4-Flash permite que un agente cargue una base de código completa en el contexto sin necesidad de dividirla. Combinado con 79.0 en SWE Verified en modo Pensar al máximo, maneja refactorizaciones de múltiples archivos y depuración sin perder el estado entre turnos.
Preguntas y respuestas sobre documentos largos y RAG
MRCR 1M (recuperación de contexto en múltiples rondas) con 78.7% en Pensar al máximo: el benchmark mide la precisión de recuperación en una ventana genuina de 1M de tokens. Para indexar documentos legales, artículos académicos o especificaciones técnicas largas, V4-Flash recupera con precisión donde la mayoría de los modelos se degradan después de 32K tokens.
Razonamiento matemático y científico
94.8% en HMMT 2026 febrero (matemáticas de competencia) con Pensar al máximo. El modo de presupuesto de pensamiento le permite ajustar el costo frente a la precisión: use Pensar para problemas estándar y Pensar al máximo para los difíciles. Una sola solicitud no consume un presupuesto de cómputo fijo; usted elige.
APIs de producción con almacenamiento en caché
A $0.028/M de lecturas de caché, los mensajes del sistema repetidos y los esquemas de herramientas prácticamente no cuestan nada a escala. Los productos de chatbot y los envoltorios de API que reinyectan el mismo contexto en cada llamada se benefician del precio de lectura de caché frente al precio de entrada bruta.
Preguntas frecuentes
¿Qué es DeepSeek-V4-Flash?
DeepSeek-V4-Flash es un modelo de lenguaje de mezcla de expertos (MoE) de 284B de parámetros desarrollado por DeepSeek AI, lanzado el 2026-04-23. Activa solo 13B de parámetros por paso hacia adelante, lo que lo hace significativamente más rápido y económico que los modelos densos de capacidad comparable. Soporta una ventana de contexto de 1 048 576 tokens y tres modos de razonamiento: Sin pensar (rápido), Presupuesto de pensamiento y Pensamiento extendido (Pensar al máximo).
¿En qué se diferencia DeepSeek-V4-Flash de DeepSeek-V4-Pro?
V4-Flash es la variante más ligera y rápida, optimizada para velocidad y costo. V4-Pro es el modelo insignia con puntuaciones de benchmark máximas más altas (por ejemplo, 93.5 frente a 91.6 en LiveCodeBench Pensar al máximo). V4-Flash “logra un rendimiento de razonamiento comparable a la versión Pro cuando se le da un presupuesto de pensamiento mayor”: en la práctica, V4-Flash Pensar al máximo reduce casi toda la brecha con V4-Pro Pensar al máximo a un costo menor por token.
¿Qué significa “Flash” en el nombre del modelo?
Flash indica una variante optimizada para velocidad, de manera similar a cómo Google usa el término para Gemini Flash. DeepSeek-V4-Flash prioriza menor latencia y costo sobre la precisión máxima bruta, con los modos de pensamiento disponibles cuando necesita cerrar la brecha de rendimiento.
¿DeepSeek-V4-Flash soporta una ventana de contexto de 1M respaldada por Novita AI?
Sí. Novita AI expone la ventana de contexto completa de 1 048 576 tokens, la más grande disponible entre todos los proveedores actuales para este modelo. Los tokens de finalización máximos en Novita son 393 216.
¿Cómo cambio entre modos de razonamiento a través de la API?
Pase el parámetro extra_body={"reasoning": {"effort": "low"}} para Presupuesto de pensamiento, o "effort": "high" para Pensar al máximo. Omita el parámetro por completo para el modo Sin pensar (rápido). La API es compatible con OpenAI: no se requieren cambios en el SDK.
¿Cuál es el precio de DeepSeek-V4-Flash respaldado por Novita AI?
A partir del 2026-04-27: $0.14/M tokens de entrada, $0.28/M tokens de salida, $0.028/M tokens de lectura de caché. Esto coincide con el precio oficial de DeepSeek y es consistente entre proveedores; el diferenciador en Novita es la ventana de contexto completa de 1M y un tiempo de actividad confiable.
¿DeepSeek-V4-Flash es de código abierto?
Sí. Los pesos del modelo están disponibles en HuggingFace bajo la licencia MIT, confirmado en el repositorio oficial de DeepSeek-V4. Se permite el autoalojamiento y el uso comercial bajo los términos de MIT. Usarlo a través de la API de Novita AI no requiere autoalojamiento en absoluto.
Comience a usar DeepSeek-V4-Flash hoy
DeepSeek-V4-Flash ya está disponible a través de Novita AI con la ventana de contexto completa de 1M, precios competitivos y cero gastos generales de infraestructura. Usted elige el modo de razonamiento; Novita se encarga del resto.
→ Pruebe DeepSeek-V4-Flash respaldado por Novita AI
→ Documentación de la API LLM de Novita AI
