O Nemotron 3 Nano 30B A3B está disponível na Novita AI como um LLM Serverless para chat completions compatível com OpenAI, com o ID do modelo nvidia/nemotron-3-nano-30b-a3b, uma janela de contexto de 256K, máximo de 32.768 tokens de saída, entrada/saída de texto, function calling, structured outputs e reasoning listados na página do modelo da Novita. Em 11 de junho de 2026, a Novita lista o preço em $0,05 por milhão de tokens de entrada e $0,20 por milhão de tokens de saída, tornando-o uma opção prática quando você precisa de fluxos de trabalho de agente de contexto longo, codificação, matemática ou uso de ferramentas sem gerenciar a infraestrutura do modelo.
O que é o Nemotron 3 Nano 30B A3B?
O Nemotron 3 Nano 30B A3B é um modelo da NVIDIA listado na página do modelo Nemotron 3 Nano 30B A3B da Novita AI como um modelo de raciocínio de pesos abertos e eficiente computacionalmente para IA agentiva. A página descreve-o como um modelo Mixture-of-Experts com 30B de parâmetros totais e 3,5B de parâmetros ativos, usando uma arquitetura híbrida Mamba-2 e Transformer.
Para desenvolvedores, o ponto principal não é apenas a arquitetura. É que o modelo é exposto através da API LLM Serverless da Novita AI, então você pode chamá-lo através do mesmo padrão de chat completions compatível com OpenAI usado por outros modelos de linguagem da Novita.
| Campo | Valor atual |
|---|---|
| Nome de exibição | Nemotron 3 Nano 30B A3B |
| ID do modelo na API | nvidia/nemotron-3-nano-30b-a3b |
| Fornecedor / série mostrado pela Novita | Nvidia |
| Categoria | LLM, Serverless |
| Endpoint | chat/completions |
| Modalidades de entrada | Texto |
| Modalidades de saída | Texto |
| Janela de contexto | 256K tokens |
| Máximo de tokens de saída | 32.768 |
| Flags de recursos listados | Serverless, function calling, structured outputs, reasoning |
| Quantização mostrada pela Novita | fp4 |
Isso torna o modelo adequado para tarefas onde você precisa de um grande orçamento de prompt, padrões de uso de ferramentas e respostas em formato JSON, mas ainda deseja uma API hospedada em vez de uma implantação auto-gerenciada.
Disponibilidade e preços na Novita AI
O modelo está atualmente listado como um LLM Serverless NEW na Novita AI. Use o ID exato do modelo nvidia/nemotron-3-nano-30b-a3b nas chamadas de API.
Em 11 de junho de 2026, a Novita lista os preços por token como:
| Tipo de token | Preço |
|---|---|
| Tokens de entrada | $0,05 por 1M tokens |
| Tokens de saída | $0,20 por 1M tokens |
Preços e disponibilidade podem mudar, então as equipes de produção devem verificar a página do modelo Nemotron 3 Nano 30B A3B e a página de preços da Novita AI antes do lançamento ou revisão de aquisição.
A Novita também expõe o modelo através de uma URL base de API compatível com OpenAI:
https://api.novita.ai/openai
Para chat completions, o caminho do endpoint é:
POST https://api.novita.ai/openai/v1/chat/completions
A autenticação usa um token Bearer no cabeçalho Authorization. Mantenha as chaves de API em variáveis de ambiente ou em seu gerenciador de segredos; não as codifique diretamente no código da aplicação.
Quando os desenvolvedores devem usá-lo?
Use o Nemotron 3 Nano 30B A3B quando sua aplicação precisar de contexto longo, saída estruturada do modelo ou raciocínio orientado a uso de ferramentas a partir de um modelo de texto serverless.
Bons casos de avaliação incluem:
- Agentes de contexto longo que precisam ler arquivos de projeto maiores, logs, transcrições ou blocos de base de conhecimento.
- Assistentes de codificação que precisam de contexto suficiente para inspecionar vários arquivos antes de gerar um plano ou patch.
- Fluxos de trabalho de matemática, planejamento e análise em várias etapas onde o flag de raciocínio do modelo é relevante.
- Fluxos de trabalho de agentes que chamam ferramentas através de function calling.
- Tarefas de extração de dados que precisam de respostas JSON estruturadas em vez de prosa livre.
Evite assumir que é o melhor modelo para todas as tarefas. Para prompts curtos sensíveis à latência, entradas de imagem ou áudio, metas de benchmark rigorosas ou cargas de trabalho com preferência de modelo conhecida, teste-o contra seu conjunto candidato existente. A página do modelo verifica a disponibilidade e os flags de recursos; ela não substitui sua própria avaliação em prompts de produção.
Início rápido: chamar a API do Nemotron 3 Nano 30B A3B
A maneira mais simples de começar é chamar o endpoint de chat completions compatível com OpenAI usando o ID do modelo verificado.
cURL
export NOVITA_API_KEY="sua_chave_api"
curl "https://api.novita.ai/openai/v1/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${NOVITA_API_KEY}" \
-d '{
"model": "nvidia/nemotron-3-nano-30b-a3b",
"messages": [
{
"role": "system",
"content": "Você é um assistente técnico conciso."
},
{
"role": "user",
"content": "Resuma os riscos neste plano de migração de API e retorne três itens de ação."
}
],
"max_tokens": 512,
"temperature": 0.2
}'
Python
Se sua aplicação já usa o padrão do SDK Python da OpenAI, defina a URL base compatível com OpenAI da Novita e atualize o nome do modelo.
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key=os.environ["NOVITA_API_KEY"],
)
response = client.chat.completions.create(
model="nvidia/nemotron-3-nano-30b-a3b",
messages=[
{"role": "system", "content": "Você é um assistente técnico conciso."},
{
"role": "user",
"content": "Resuma os riscos neste plano de migração de API e retorne três itens de ação.",
},
],
max_tokens=512,
temperature=0.2,
)
print(response.choices[0].message.content)
Para detalhes de implementação, consulte o guia da API LLM da Novita AI e a referência da API de chat completions.
Use function calling, structured outputs e reasoning com cuidado
A Novita lista function calling, structured outputs e reasoning entre os flags de recursos do modelo. Esses recursos são mais úteis quando sua aplicação precisa de interfaces previsíveis entre o modelo e o resto do sistema.
Para function calling, passe um array tools com definições de função. A API de chat completions suporta ferramentas de função com nomes, descrições, parâmetros JSON Schema e uma opção strict.
Para structured outputs, use response_format com json_schema quando o modelo e o esquema forem suportados. A referência da API observa que structured outputs estritos suportam um subconjunto de JSON Schema, então teste seu esquema exato antes de depender dele em produção.
Para comportamento de reasoning, mantenha clara a distinção entre disponibilidade no nível do modelo e comportamento no nível da requisição. A página do modelo Nemotron lista reasoning como um flag de recurso, enquanto a referência da API de chat completions documenta parâmetros de requisição como separate_reasoning e enable_thinking com notas de suporte específicas do modelo. Antes de usar campos de reasoning em produção, execute um pequeno teste de API com este ID exato do modelo e capture a forma da resposta que sua aplicação irá tratar.
FAQ
O Nemotron 3 Nano 30B A3B está disponível na Novita AI?
Sim. O modelo está listado na Novita AI como um LLM Serverless com o ID do modelo nvidia/nemotron-3-nano-30b-a3b.
Qual é a janela de contexto do Nemotron 3 Nano 30B A3B?
A Novita lista uma janela de contexto de 256K e máximo de 32.768 tokens de saída para nvidia/nemotron-3-nano-30b-a3b.
Quanto custa a API do Nemotron 3 Nano 30B A3B na Novita AI?
Em 11 de junho de 2026, a Novita lista o preço em $0,05 por milhão de tokens de entrada e $0,20 por milhão de tokens de saída.
O modelo suporta function calling e structured outputs?
A página do modelo da Novita lista function calling e structured outputs como flags de recursos para o Nemotron 3 Nano 30B A3B. Valide seu esquema exato de ferramentas ou esquema JSON contra a API antes de usá-lo em produção.
Qual endpoint devo usar?
Use o endpoint de chat completions compatível com OpenAI: https://api.novita.ai/openai/v1/chat/completions.
