- ¿Qué se considera un LLM de código abierto?
- Mejores LLM de código abierto en 2026
- Auto-alojamiento vs. inferencia API alojada
- Cómo acceder a LLM de código abierto a través de API
- LLM de código abierto para agentes de codificación
- ¿Qué LLM de código abierto deberías usar?
- Conclusión
- FAQ
- Artículos Recomendados
El mejor LLM de código abierto para tu proyecto en 2026 depende de la tarea, no del titular del benchmark. Modelos como DeepSeek V4 Pro, Qwen 3.5, Kimi K2 y GLM-5 ahora igualan o superan a las APIs cerradas en benchmarks específicos, pero la pregunta práctica es más simple: ¿necesitas ejecutar el modelo tú mismo, o necesitas que funcione de manera fiable en producción sin un equipo de operaciones de GPU? Esta guía cubre los principales LLM de código abierto, cómo elegir entre auto-alojamiento y acceso a API alojada, y cómo integrar modelos de código abierto en un agente de codificación usando Novita AI.
¿Qué se considera un LLM de código abierto?
“Open source” abarca un amplio espectro en la práctica. La distinción que más importa operativamente es si puedes ejecutar los pesos del modelo tú mismo, no si el código de entrenamiento es público. Los casos comunes son:
- Pesos completamente abiertos con licencia permisiva (Apache 2.0, MIT): Puedes usar, modificar y servir el modelo comercialmente sin restricciones. Ejemplos: Qwen 3.5 (Apache 2.0), DeepSeek R1 (MIT), GLM-5 (MIT).
- Pesos abiertos con licencia personalizada: Los pesos se pueden descargar, pero el uso comercial, la redistribución o el fine-tuning pueden tener restricciones. El Llama 4 de Meta utiliza una licencia personalizada con umbrales de recuento de usuarios por encima de 700M usuarios mensuales.
- Pesos solo para investigación o restringidos: Los pesos están disponibles pero están limitados a uso no comercial o requieren aprobación. Menos relevante para equipos de producción.
Para la mayoría de las decisiones de producción, el filtro práctico es: ¿puedes servir legalmente este modelo a tus usuarios, y la licencia permite el caso de uso comercial que necesitas?
Mejores LLM de código abierto en 2026
El nivel de pesos abiertos se ha comprimido significativamente. Solo en abril de 2026 se lanzaron siete grandes modelos de código abierto. Estos son los modelos que vale la pena evaluar:
Propósito general y razonamiento
DeepSeek V4 Pro (685B, similar a MIT) es el líder actual en benchmarks para codificación agente. Iguala o supera a los modelos frontera cerrados en SWE-Bench y benchmarks de llamada a funciones, lo que lo convierte en una opción práctica para agentes de codificación que necesitan leer grandes bases de código y ejecutar llamadas a herramientas de varios pasos. Está disponible como API alojada si no tienes la infraestructura para ejecutar un modelo de 685B tú mismo.
Qwen 3.5 (397B MoE, Apache 2.0) es el modelo con licencia totalmente permisiva más potente disponible. Con 397B totales y 17B parámetros activos, logra puntuaciones competitivas en razonamiento y codificación, manteniéndose rentable por token. La licencia Apache 2.0 lo convierte en la opción predeterminada cuando la compatibilidad de licencia es importante.
Kimi K2 (~1T MoE) de Moonshot AI se sitúa en la cima del Artificial Analysis Index entre los modelos abiertos y es particularmente fuerte para el uso de herramientas y tareas de contexto largo. Está disponible a través de API alojada si no deseas alojar un MoE de un billón de parámetros.
DeepSeek R1 (685B, MIT) sigue siendo la opción más potente para matemáticas y razonamiento formal — 79.8% en AIME. Si tu aplicación implica verificación de código, pruebas formales o cadenas de razonamiento estructurado, R1 es el punto de referencia.
GLM-5 (744B, MIT) de Zhipu AI es el primer modelo de pesos abiertos en alcanzar 50 en el AI Intelligence Index y obtiene 85 en el leaderboard de pesos abiertos de BenchLM. Fuerte para flujos de trabajo de corrección de errores autónomos.
Específicos para codificación
Qwen 2.5 Coder 32B (Apache 2.0) alcanza un 92% en HumanEval y se ejecuta en una sola RTX 4090. Si necesitas un modelo de codificación que puedas alojar tú mismo en hardware de consumo, esta es la opción práctica.
Kimi K2 Code es la variante de codificación accesible por API de Kimi K2, optimizada para generación de código y tareas de codificación agente. Disponible en Novita AI con 262K de contexto.
Pequeños y eficientes
Phi-4 14B de Microsoft se ejecuta en 8GB de VRAM y maneja bien el seguimiento de instrucciones, código y razonamiento ligero. Úsalo cuando la latencia y las limitaciones de hardware importen más que la calidad máxima.
Llama 4 Scout de Meta soporta hasta 10M de tokens de contexto y cabe en 16GB de VRAM. La opción adecuada cuando tu carga de trabajo implica procesamiento de documentos largos.
Comparación de modelos de un vistazo
| Modelo | Tamaño | Licencia | Mejor para | Contexto |
|---|---|---|---|---|
| DeepSeek V4 Pro | 685B | Similar a MIT | Codificación agente, SWE-Bench | 1M |
| Qwen 3.5 | 397B MoE | Apache 2.0 | Razonamiento, uso comercial | 128K |
| Kimi K2 | ~1T MoE | Personalizada | Uso de herramientas, contexto largo | 128K |
| DeepSeek R1 | 685B | MIT | Matemáticas, razonamiento formal | 163K |
| GLM-5 | 744B | MIT | Corrección de errores, general | 128K |
| Qwen 2.5 Coder 32B | 32B | Apache 2.0 | Código, auto-alojado | 128K |
| Phi-4 14B | 14B | MIT | Baja VRAM, uso en desarrollo | 128K |
| Llama 4 Scout | ~109B | Personalizada | Documentos de contexto largo | 10M |
Auto-alojamiento vs. inferencia API alojada
Esta es la decisión operativa que determina tu costo real e inversión de tiempo. La versión corta: la inferencia API alojada es más barata y rápida de operar a menos que superes aproximadamente 2–5 millones de tokens por día con tráfico sostenido durante un período de 12 meses.
Cuándo gana la inferencia API alojada
- Tu equipo no tiene experiencia en operaciones con GPU
- Todavía estás prototipando o iterando en la selección del modelo
- Tu volumen de tokens está por debajo del punto de equilibrio del auto-alojamiento
- Necesitas cambiar de modelo rápidamente a medida que aparecen nuevos lanzamientos
- La fiabilidad y el auto-escalado importan más que la optimización de costos
Una API de LLM alojada, especialmente una que sea compatible con OpenAI, te permite agregar un nuevo modelo con un cambio de una línea en tu URL base y el ID del modelo. Evitas la gestión de cold-start, las compensaciones de cuantización, la configuración de lotes y las actualizaciones del framework de servicio.
Cuándo gana el auto-alojamiento
- Tus datos no pueden salir de tu infraestructura (salud, finanzas, legal, industrias reguladas)
- Estás procesando más de 5 millones de tokens por día con tráfico predecible
- Necesitas servir un checkpoint fine-tuneado o adaptado que ningún proveedor alojado ofrece
- Tienes un clúster de GPU existente con capacidad disponible
El auto-alojamiento en H100s con SGLang o vLLM es genuinamente rentable a escala. Benchmarks recientes sitúan a SGLang con un 29% más de rendimiento que vLLM en cargas de trabajo estándar, y hasta 6 veces más rápido en pipelines RAG con prefijos pesados gracias a RadixAttention. Pero esas ganancias solo importan si tienes la capacidad operativa para mantener la pila de servicio a través de actualizaciones de modelo, fallos de hardware y picos de tráfico.
El camino híbrido
La mayoría de los equipos terminan en un híbrido: API alojada para prototipado y acceso flexible a modelos, instancias de GPU para cargas de trabajo que justifiquen capacidad dedicada. La ventaja práctica de permanecer en una sola plataforma de nube de IA es que no necesitas reconstruir los pipelines de autenticación, facturación, observabilidad e implementación cuando pasas de API serverless a endpoint dedicado a instancia de GPU personalizada.
Cómo acceder a LLM de código abierto a través de API
Novita AI proporciona acceso API compatible con OpenAI a un catálogo de modelos de código abierto que incluye DeepSeek V4 Pro, DeepSeek V4 Flash, Kimi K2, Qwen 3.5, GLM-5, MiniMax M3 y otros. La estructura del endpoint es la misma que la de OpenAI, por lo que el código existente que utiliza el SDK openai puede conectarse a los modelos de Novita con cambios mínimos.
Llamada API básica
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="TU_API_KEY_DE_NOVITA",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-pro",
messages=[
{"role": "system", "content": "Eres un asistente útil."},
{"role": "user", "content": "Explica la diferencia entre DeepSeek R1 y V4 Pro."},
],
)
print(response.choices[0].message.content)
Para cambiar de modelo, modifica el parámetro model. No se necesitan otros cambios. Hay una lista completa de IDs de modelos compatibles en novita.ai/docs/model-api/reference/llm/models.html.
TypeScript
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://api.novita.ai/v3/openai",
apiKey: process.env.NOVITA_API_KEY,
});
const response = await client.chat.completions.create({
model: "qwen/qwen3.5-397b-a17b",
messages: [{ role: "user", content: "Escribe una función en Python para parsear JSON." }],
});
console.log(response.choices[0].message.content);
Referencia de precios
Los precios varían según el modelo y se cobran por millón de tokens. DeepSeek V4 Flash a $0.14/MT de entrada y $0.28/MT de salida es la opción de propósito general más rentable. DeepSeek V4 Pro a $1.60/MT de entrada y $3.20/MT de salida es la opción premium para flujos de trabajo agente y de codificación donde la calidad del modelo afecta directamente la tasa de finalización de tareas. Consulta novita.ai/models/llm para conocer los precios actuales, ya que cambian con la incorporación de nuevos modelos.
LLM de código abierto para agentes de codificación
Las configuraciones de agentes de codificación más efectivas en 2026 combinan un LLM de código abierto para razonamiento y generación de código con un entorno de ejecución en sandbox para ejecutar el código. Esta es una arquitectura diferente a una simple llamada API: el agente necesita leer archivos, escribir código, ejecutar comandos, inspeccionar resultados e iterar.
Los dos modos de fallo a evitar son:
- Ejecutar código generado por el agente en tu máquina de desarrollo o servidor de producción — un error si el modelo genera algo destructivo o inesperado
- Configurar tú mismo una VM completa por sesión de agente — rápido de superar, lento de escalar
Novita Agent Sandbox
El Agent Sandbox de Novita proporciona entornos Linux aislados que se inician en menos de 200ms. Cada sandbox tiene un sistema de archivos que el agente puede leer y escribir, un shell en el que el agente puede ejecutar comandos, y aislamiento para que lo que genere el modelo no pueda afectar a otros sandboxes ni a tu infraestructura. Las sesiones persisten entre solicitudes, por lo que el agente puede mantener el estado a lo largo de una tarea de varios pasos.
El SDK de Python es sencillo:
from novita_sandbox.code_interpreter import Sandbox
sandbox = Sandbox.create()
# El agente escribe un archivo
sandbox.files.write("/workspace/app.py", code_content)
# El agente lo ejecuta
result = sandbox.commands.run("python /workspace/app.py")
print(result.stdout)
# Limpiar
sandbox.kill()
Combina esto con cualquier modelo compatible con OpenAI en la API de LLM de Novita, y tendrás un agente de codificación que puede generar, ejecutar, inspeccionar y revisar código sin ninguna infraestructura más allá de tu clave API.
Frameworks de agentes de código abierto
Varios agentes de codificación de código abierto están disponibles como entornos de ejecución integrables en Novita Agent Sandbox:
- OpenClaw en Novita — implementa un agente OpenClaw persistente a través del sandbox de Novita sin límite de sesión. Se conecta automáticamente a la API de LLM y al sandbox de Novita, lo que lo hace práctico para tareas de automatización de larga duración.
- Hermes Agent — un agente autónomo de Nous Research con memoria persistente. Se ejecuta como un proceso de larga duración en lugar de una sesión única.
- Goose — un agente de codificación de código abierto (más de 45K estrellas en GitHub) con Novita como proveedor nativo, lo que le da acceso a más de 200 modelos con una sola credencial.
Para equipos que construyen agentes de codificación personalizados en lugar de implementar un framework existente, Novita Agent Runtime ofrece una capa de andamiaje ligera que maneja el ciclo de vida del sandbox, el enrutamiento de llamadas a herramientas y la persistencia de la sesión.
¿Qué LLM de código abierto deberías usar?
El árbol de decisión es corto:
Para tareas de codificación y agente: Comienza con DeepSeek V4 Pro a través de API. Es el líder actual en rendimiento para SWE-Bench y uso de herramientas de varios pasos. Si el costo es la limitación, DeepSeek V4 Flash maneja tareas de código más simples a una fracción del precio.
Para razonamiento y matemáticas: DeepSeek R1 sigue siendo la referencia para AIME y razonamiento formal. Úsalo cuando la tarea implique resolución de problemas estructurada en lugar de ejecución de código.
Para uso comercial con licencia abierta: Qwen 3.5 bajo Apache 2.0 es la opción más segura cuando tu equipo legal necesita una licencia limpia. La arquitectura MoE de 397B mantiene los costos por token bajos a pesar del gran número de parámetros.
Para codificación auto-alojada en GPUs de consumo: Qwen 2.5 Coder 32B se ejecuta en una sola RTX 4090 y obtiene un 92% en HumanEval. Si necesitas alojar tú mismo un modelo de codificación sin infraestructura GPU de alta gama, esta es la opción práctica.
Para documentos largos: Llama 4 Scout con su ventana de contexto de 10M de tokens maneja cargas de trabajo que requerirían fragmentación en cualquier otro modelo.
Para entornos pequeños: Phi-4 14B cabe en 8GB de VRAM y maneja bien el seguimiento de instrucciones, la generación de código y el razonamiento ligero.
El patrón en todas estas opciones: el acceso a API alojada elimina la sobrecarga operativa y te permite cambiar de modelo a medida que el panorama evoluciona. El auto-alojamiento tiene sentido cuando la soberanía de los datos o la economía de tokens a escala justifican la inversión en operaciones de GPU. La mayoría de los equipos de producción terminan haciendo ambas cosas.
Conclusión
El panorama de los LLM de código abierto en 2026 es fundamentalmente diferente al de hace dos años. Modelos como DeepSeek V4 Pro, Qwen 3.5 y Kimi K2 ya no son “suficientemente buenos para la mayoría de las tareas” — son la primera opción para cargas de trabajo específicas como codificación agente, razonamiento formal y procesamiento de documentos de contexto largo.
La decisión práctica no es qué modelo es el mejor en un leaderboard. Es qué modelo se ajusta a tu modelo operativo: una API alojada si necesitas moverte rápido y evitar operaciones de GPU, auto-alojamiento si tus datos no pueden salir de tu infraestructura o la economía de tus tokens justifica la inversión, y una capa de ejecución en sandbox si tu modelo necesita actuar sobre el código en lugar de solo generarlo.
La API de LLM de Novita AI cubre los principales modelos de código abierto detrás de un endpoint compatible con OpenAI, para que puedas ejecutar el mismo código de integración contra DeepSeek, Qwen, Kimi o GLM sin reconstruir tu pila para cada lanzamiento de modelo. Combínalo con Agent Sandbox cuando la tarea requiera ejecución de código, y tendrás el núcleo de un agente de codificación listo para producción sin gestionar la infraestructura subyacente tú mismo.
FAQ
¿Cuál es el mejor LLM de código abierto en 2026?
DeepSeek V4 Pro y Kimi K2 lideran en benchmarks generales, con DeepSeek V4 Pro específicamente por delante en codificación agente y SWE-Bench. Qwen 3.5 es la opción con licencia permisiva más potente (Apache 2.0). La respuesta correcta depende de tu tarea: codificación, razonamiento, contexto largo o baja VRAM.
¿Cuáles son los mejores LLM de código abierto para uso local?
Qwen 2.5 Coder 32B (una sola RTX 4090), Phi-4 14B (8GB VRAM) y Llama 4 Scout (16GB VRAM, 10M de contexto) son las opciones prácticas para inferencia local. Los modelos de más de 70B generalmente requieren configuraciones de múltiples GPU.
¿Son los modelos de lenguaje grandes de código abierto tan buenos como los modelos cerrados?
Para tareas específicas, sí. DeepSeek V4 Pro iguala o supera a GPT-4.1 en SWE-Bench y benchmarks de codificación. Para tareas abiertas generales, los mejores modelos cerrados todavía tienen una ventaja. La brecha depende en gran medida de la tarea y el benchmark específicos.
¿Cuáles son las noticias de LLM de código abierto hoy?
La cadencia de lanzamientos de LLM de código abierto en 2026 es aproximadamente mensual. Los lanzamientos importantes recientes incluyen GLM-5, Kimi K2, DeepSeek V4 Pro y Qwen 3.5. Para noticias actuales, sigue el blog de Novita AI y consulta el leaderboard de Artificial Analysis para clasificaciones actualizadas.
¿Cómo accedo a modelos LLM de código abierto sin auto-alojamiento?
Usa una API de inferencia alojada. Novita AI proporciona acceso compatible con OpenAI a DeepSeek, Qwen, Kimi, GLM, MiniMax y otros modelos de código abierto. Cambia tu URL base a https://api.novita.ai/v3/openai y el ID del modelo al que desees; no necesitas otros cambios en tu código existente.
¿Cuál es la diferencia entre LLM de código abierto y modelos de lenguaje de código abierto?
Los términos se usan indistintamente en la mayoría de los contextos. Técnicamente, “large language model” se refiere específicamente a modelos de lenguaje basados en transformadores entrenados a escala. “Modelo de lenguaje de código abierto” también puede referirse a modelos más pequeños o modelos fuera de la arquitectura de transformadores, pero en el uso actual ambos términos describen la misma categoría de modelos.
