Nemotron 3 Nano 30B A3B ya está disponible en Novita AI como un LLM sin servidor para finalizaciones de chat compatibles con OpenAI, con el ID de modelo nvidia/nemotron-3-nano-30b-a3b, una ventana de contexto de 256K, un máximo de 32,768 tokens de salida, entrada/salida de texto, llamada a funciones, salidas estructuradas y razonamiento listados en la página del modelo de Novita. A partir del 11 de junio de 2026, Novita lista los precios a $0.05 por millón de tokens de entrada y $0.20 por millón de tokens de salida, lo que lo convierte en una opción práctica cuando necesitas flujos de trabajo de agente de contexto largo, codificación, matemáticas o uso de herramientas sin gestionar la infraestructura del modelo.
¿Qué es Nemotron 3 Nano 30B A3B?
Nemotron 3 Nano 30B A3B es un modelo de NVIDIA listado en la página del modelo Nemotron 3 Nano 30B A3B de Novita AI como un modelo de razonamiento de pesos abiertos y eficiente computacionalmente para IA agéntica. La página lo describe como un modelo Mixture-of-Experts con 30B parámetros totales y 3.5B parámetros activos, utilizando una arquitectura híbrida Mamba-2 y Transformer.
Para los desarrolladores, el punto clave no es solo la arquitectura. Es que el modelo se expone a través de la API LLM sin servidor de Novita AI, por lo que puedes llamarlo mediante el mismo patrón de finalización de chat compatible con OpenAI que usan otros modelos de lenguaje de Novita.
| Campo | Valor actual |
|---|---|
| Nombre para mostrar | Nemotron 3 Nano 30B A3B |
| ID del modelo API | nvidia/nemotron-3-nano-30b-a3b |
| Proveedor/serie mostrado por Novita | Nvidia |
| Categoría | LLM, Sin servidor |
| Endpoint | chat/completions |
| Modalidades de entrada | Texto |
| Modalidades de salida | Texto |
| Ventana de contexto | 256K tokens |
| Máximo de tokens de salida | 32,768 |
| Indicadores de funciones listados | Sin servidor, llamada a funciones, salidas estructuradas, razonamiento |
| Cuantización mostrada por Novita | fp4 |
Esto hace que el modelo sea adecuado para tareas donde necesitas un gran presupuesto de prompt, patrones de uso de herramientas y respuestas con forma JSON, pero aún así deseas una API alojada en lugar de un despliegue autogestionado.
Disponibilidad y precios en Novita AI
El modelo está actualmente listado como un LLM sin servidor NEW en Novita AI. Usa el ID de modelo exacto nvidia/nemotron-3-nano-30b-a3b en las llamadas API.
A partir del 11 de junio de 2026, Novita lista los precios por token como:
| Tipo de token | Precio |
|---|---|
| Tokens de entrada | $0.05 por cada 1M tokens |
| Tokens de salida | $0.20 por cada 1M tokens |
Los precios y la disponibilidad pueden cambiar, por lo que los equipos de producción deben revisar la página del modelo Nemotron 3 Nano 30B A3B y la página de precios de Novita AI antes del lanzamiento o la revisión de adquisiciones.
Novita también expone el modelo a través de una URL base API compatible con OpenAI:
https://api.novita.ai/openai
Para finalizaciones de chat, la ruta del endpoint es:
POST https://api.novita.ai/openai/v1/chat/completions
La autenticación utiliza un token Bearer en el encabezado Authorization. Mantén las claves API en variables de entorno o en tu gestor de secretos; no las codifiques en el código de la aplicación.
¿Cuándo deberían usarlo los desarrolladores?
Usa Nemotron 3 Nano 30B A3B cuando tu aplicación necesite contexto largo, salida de modelo estructurada o razonamiento orientado al uso de herramientas de un modelo de texto sin servidor.
Los buenos casos de evaluación incluyen:
- Agentes de contexto largo que necesitan leer archivos de proyecto más grandes, registros, transcripciones o fragmentos de bases de conocimiento.
- Asistentes de codificación que necesitan suficiente contexto para inspeccionar varios archivos antes de generar un plan o parche.
- Flujos de trabajo de matemáticas, planificación y análisis de múltiples pasos donde el indicador de función de razonamiento del modelo es relevante.
- Flujos de trabajo de agentes que llaman a herramientas a través de la llamada a funciones.
- Tareas de extracción de datos que necesitan respuestas JSON estructuradas en lugar de prosa libre.
Evita asumir que es el mejor modelo para cada tarea. Para prompts cortos sensibles a la latencia, entradas de imagen o audio, objetivos de benchmark estrictos o cargas de trabajo con una preferencia de modelo conocida, pruébalo contra tu conjunto de candidatos existente. La página del modelo verifica la disponibilidad y los indicadores de funciones; no reemplaza tu propia evaluación con prompts de producción.
Guía rápida: llama a la API de Nemotron 3 Nano 30B A3B
La forma más sencilla de empezar es llamar al endpoint de finalizaciones de chat compatible con OpenAI con el ID de modelo verificado.
cURL
export NOVITA_API_KEY="tu_api_key"
curl "https://api.novita.ai/openai/v1/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${NOVITA_API_KEY}" \
-d '{
"model": "nvidia/nemotron-3-nano-30b-a3b",
"messages": [
{
"role": "system",
"content": "Eres un asistente técnico conciso."
},
{
"role": "user",
"content": "Resume los riesgos en este plan de migración de API y devuelve tres elementos de acción."
}
],
"max_tokens": 512,
"temperature": 0.2
}'
Python
Si tu aplicación ya usa el patrón del SDK de OpenAI para Python, configura la URL base compatible con OpenAI de Novita y actualiza el nombre del modelo.
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key=os.environ["NOVITA_API_KEY"],
)
response = client.chat.completions.create(
model="nvidia/nemotron-3-nano-30b-a3b",
messages=[
{"role": "system", "content": "Eres un asistente técnico conciso."},
{
"role": "user",
"content": "Resume los riesgos en este plan de migración de API y devuelve tres elementos de acción.",
},
],
max_tokens=512,
temperature=0.2,
)
print(response.choices[0].message.content)
Para detalles de implementación, consulta la guía de API LLM de Novita AI y la referencia de API de finalizaciones de chat.
Usa llamada a funciones, salidas estructuradas y razonamiento con cuidado
Novita lista la llamada a funciones, las salidas estructuradas y el razonamiento entre los indicadores de funciones del modelo. Estas funciones son más útiles cuando tu aplicación necesita interfaces predecibles entre el modelo y el resto de tu sistema.
Para la llamada a funciones, pasa un array tools con definiciones de funciones. La API de finalizaciones de chat admite herramientas de función con nombres, descripciones, parámetros JSON Schema y una opción strict.
Para salidas estructuradas, usa response_format con json_schema cuando el modelo y el esquema sean compatibles. La referencia de la API indica que las salidas estructuradas estrictas admiten un subconjunto de JSON Schema, así que prueba tu esquema exacto antes de depender de él en producción.
Para el comportamiento de razonamiento, mantén clara la distinción entre la disponibilidad a nivel de modelo y el comportamiento a nivel de solicitud. La página del modelo Nemotron lista el razonamiento como un indicador de función, mientras que la referencia de la API de finalizaciones de chat documenta parámetros de solicitud como separate_reasoning y enable_thinking con notas de compatibilidad específicas del modelo. Antes de usar campos de razonamiento en producción, realiza una pequeña prueba API con este ID de modelo exacto y captura la forma de la respuesta que tu aplicación manejará.
Preguntas frecuentes
¿Está Nemotron 3 Nano 30B A3B disponible en Novita AI?
Sí. El modelo está listado en Novita AI como un LLM sin servidor con el ID de modelo nvidia/nemotron-3-nano-30b-a3b.
¿Cuál es la ventana de contexto de Nemotron 3 Nano 30B A3B?
Novita lista una ventana de contexto de 256K y un máximo de 32,768 tokens de salida para nvidia/nemotron-3-nano-30b-a3b.
¿Cuánto cuesta la API de Nemotron 3 Nano 30B A3B en Novita AI?
A partir del 11 de junio de 2026, Novita lista los precios a $0.05 por millón de tokens de entrada y $0.20 por millón de tokens de salida.
¿El modelo admite llamada a funciones y salidas estructuradas?
La página del modelo de Novita lista la llamada a funciones y las salidas estructuradas como indicadores de funciones para Nemotron 3 Nano 30B A3B. Valida tu esquema de herramientas o esquema JSON exacto contra la API antes de usarlo en producción.
¿Qué endpoint debo usar?
Usa el endpoint de finalizaciones de chat compatible con OpenAI: https://api.novita.ai/openai/v1/chat/completions.
