Nemotron 3 Nano 30B A3B est disponible sur Novita AI en tant que LLM serverless pour des complétions de chat compatibles OpenAI, avec l’ID de modèle nvidia/nemotron-3-nano-30b-a3b, une fenêtre de contexte de 256K, 32 768 tokens de sortie maximum, entrée/sortie texte, appel de fonctions, sorties structurées et raisonnement, comme indiqué sur la page du modèle Novita. Depuis le 11 juin 2026, Novita affiche une tarification à 0,05 $ par million de tokens d’entrée et 0,20 $ par million de tokens de sortie, ce qui en fait une option pratique lorsque vous avez besoin de workflows d’agent à long contexte, de codage, de mathématiques ou d’utilisation d’outils, sans avoir à gérer l’infrastructure du modèle.
Qu’est-ce que Nemotron 3 Nano 30B A3B ?
Nemotron 3 Nano 30B A3B est un modèle NVIDIA listé dans la page du modèle Nemotron 3 Nano 30B A3B de Novita AI comme un modèle de raisonnement à poids ouverts et économiquement efficace pour l’IA agentique. La page le décrit comme un modèle Mixture-of-Experts avec 30B paramètres totaux et 3,5B paramètres actifs, utilisant une architecture hybride Mamba-2 et Transformer.
Pour les développeurs, l’essentiel n’est pas seulement l’architecture. C’est que le modèle est exposé via l’API LLM serverless de Novita AI, vous pouvez donc l’appeler en utilisant le même motif de complétion de chat compatible OpenAI que les autres modèles de langage de Novita.
| Champ | Valeur actuelle |
|---|---|
| Nom d’affichage | Nemotron 3 Nano 30B A3B |
| ID du modèle API | nvidia/nemotron-3-nano-30b-a3b |
| Fournisseur / série | Nvidia |
| Catégorie | LLM, Serverless |
| Point d’accès | chat/completions |
| Modalités d’entrée | Texte |
| Modalités de sortie | Texte |
| Fenêtre de contexte | 256K tokens |
| Max tokens de sortie | 32 768 |
| Fonctionnalités listées | Serverless, appel de fonctions, sorties structurées, raisonnement |
| Quantification affichée | fp4 |
Cela rend le modèle adapté aux tâches où vous avez besoin d’un budget de prompt important, de motifs d’utilisation d’outils, et de réponses au format JSON, tout en souhaitant une API hébergée plutôt qu’un déploiement autogéré.
Disponibilité et tarification sur Novita AI
Le modèle est actuellement listé comme un LLM serverless NEW sur Novita AI. Utilisez l’ID de modèle exact nvidia/nemotron-3-nano-30b-a3b dans les appels API.
Depuis le 11 juin 2026, Novita affiche la tarification par token comme suit :
| Type de token | Prix |
|---|---|
| Tokens d’entrée | 0,05 $ par million |
| Tokens de sortie | 0,20 $ par million |
Les prix et la disponibilité peuvent changer. Les équipes de production doivent donc vérifier la page du modèle Nemotron 3 Nano 30B A3B et la page de tarification de Novita AI avant le lancement ou la revue d’approvisionnement.
Novita expose également le modèle via une URL de base d’API compatible OpenAI :
https://api.novita.ai/openai
Pour les complétions de chat, le chemin du point d’accès est :
POST https://api.novita.ai/openai/v1/chat/completions
L’authentification utilise un token Bearer dans l’en-tête Authorization. Conservez les clés API dans des variables d’environnement ou votre gestionnaire de secrets ; ne les codez pas en dur dans le code de l’application.
Quand les développeurs devraient-ils l’utiliser ?
Utilisez Nemotron 3 Nano 30B A3B lorsque votre application a besoin d’un long contexte, de sorties structurées du modèle, ou d’un raisonnement orienté vers l’utilisation d’outils provenant d’un modèle de texte serverless.
Les cas d’évaluation pertinents incluent :
- Agents à long contexte qui doivent lire de grands fichiers projet, logs, transcriptions, ou fragments de bases de connaissances.
- Assistants de codage qui ont besoin de suffisamment de contexte pour inspecter plusieurs fichiers avant de générer un plan ou un correctif.
- Workflows de mathématiques, planification et analyse en plusieurs étapes où la fonctionnalité de raisonnement du modèle est importante.
- Workflows d’agents qui appellent des outils via l’appel de fonctions.
- Tâches d’extraction de données qui nécessitent des réponses JSON structurées plutôt que du texte libre.
Évitez de supposer qu’il s’agit du meilleur modèle pour chaque tâche. Pour les prompts courts sensibles à la latence, les entrées d’image ou audio, les objectifs de benchmark stricts, ou les charges de travail avec une préférence de modèle connue, testez-le par rapport à votre ensemble de candidats existant. La page du modèle vérifie la disponibilité et les fonctionnalités ; elle ne remplace pas votre propre évaluation sur des prompts de production.
Démarrage rapide : appeler l’API Nemotron 3 Nano 30B A3B
La manière la plus simple de commencer est d’appeler le point d’accès de complétion de chat compatible OpenAI avec l’ID de modèle vérifié.
cURL
export NOVITA_API_KEY="your_api_key"
curl "https://api.novita.ai/openai/v1/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${NOVITA_API_KEY}" \
-d '{
"model": "nvidia/nemotron-3-nano-30b-a3b",
"messages": [
{
"role": "system",
"content": "You are a concise technical assistant."
},
{
"role": "user",
"content": "Summarize the risks in this API migration plan and return three action items."
}
],
"max_tokens": 512,
"temperature": 0.2
}'
Python
Si votre application utilise déjà le motif du SDK OpenAI Python, définissez l’URL de base compatible OpenAI de Novita et mettez à jour le nom du modèle.
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key=os.environ["NOVITA_API_KEY"],
)
response = client.chat.completions.create(
model="nvidia/nemotron-3-nano-30b-a3b",
messages=[
{"role": "system", "content": "You are a concise technical assistant."},
{
"role": "user",
"content": "Summarize the risks in this API migration plan and return three action items.",
},
],
max_tokens=512,
temperature=0.2,
)
print(response.choices[0].message.content)
Pour les détails d’implémentation, consultez le guide de l’API LLM Novita AI et la référence de l’API de complétion de chat.
Utilisez l’appel de fonctions, les sorties structurées et le raisonnement avec précaution
Novita liste l’appel de fonctions, les sorties structurées et le raisonnement parmi les fonctionnalités du modèle. Ces fonctionnalités sont les plus utiles lorsque votre application a besoin d’interfaces prévisibles entre le modèle et le reste de votre système.
Pour l’appel de fonctions, passez un tableau tools avec des définitions de fonctions. L’API de complétion de chat prend en charge les outils de fonction avec des noms, descriptions, paramètres JSON Schema et une option strict.
Pour les sorties structurées, utilisez response_format avec json_schema lorsque le modèle et le schéma sont pris en charge. La référence API note que les sorties structurées strictes prennent en charge un sous-ensemble de JSON Schema, donc testez votre schéma exact avant de vous y fier en production.
Pour le comportement de raisonnement, gardez la distinction claire entre la disponibilité au niveau du modèle et le comportement au niveau de la requête. La page du modèle Nemotron liste le raisonnement comme une fonctionnalité, tandis que la référence API de complétion de chat documente des paramètres de requête tels que separate_reasoning et enable_thinking avec des notes de prise en charge spécifiques au modèle. Avant d’utiliser les champs de raisonnement en production, effectuez un petit test API avec cet ID de modèle exact et capturez la forme de la réponse que votre application traitera.
FAQ
Nemotron 3 Nano 30B A3B est-il disponible sur Novita AI ?
Oui. Le modèle est listé sur Novita AI en tant que LLM serverless avec l’ID de modèle nvidia/nemotron-3-nano-30b-a3b.
Quelle est la fenêtre de contexte de Nemotron 3 Nano 30B A3B ?
Novita liste une fenêtre de contexte de 256K et 32 768 tokens de sortie maximum pour nvidia/nemotron-3-nano-30b-a3b.
Combien coûte l’API Nemotron 3 Nano 30B A3B sur Novita AI ?
Depuis le 11 juin 2026, Novita affiche une tarification à 0,05 $ par million de tokens d’entrée et 0,20 $ par million de tokens de sortie.
Le modèle prend-il en charge l’appel de fonctions et les sorties structurées ?
La page du modèle Novita liste l’appel de fonctions et les sorties structurées comme fonctionnalités pour Nemotron 3 Nano 30B A3B. Validez votre schéma d’outil exact ou votre schéma JSON par rapport à l’API avant de l’utiliser en production.
Quel point d’accès dois-je utiliser ?
Utilisez le point d’accès de complétion de chat compatible OpenAI : https://api.novita.ai/openai/v1/chat/completions.
