Nemotron 3 Nano 30B A3B ist auf Novita AI als Serverless LLM für OpenAI-kompatible Chat Completions verfügbar, mit der Modell-ID nvidia/nemotron-3-nano-30b-a3b, einem 256K-Kontextfenster, maximal 32.768 Ausgabe-Token, Texteingabe/-ausgabe, Function Calling, Structured Outputs und Reasoning – alles auf der Novita-Modellseite aufgelistet. Stand 11. Juni 2026 listet Novita einen Preis von 0,05 $ pro Million Eingabe-Token und 0,20 $ pro Million Ausgabe-Token. Damit ist es eine praktische Option, wenn du Agent-Workflows mit langem Kontext, Coding-, Mathe- oder Tool-Usage benötigst, ohne die Modellinfrastruktur verwalten zu müssen.
Was ist Nemotron 3 Nano 30B A3B?
Nemotron 3 Nano 30B A3B ist ein NVIDIA-Modell, das auf der Novita AI Nemotron 3 Nano 30B A3B Modellseite als recheneffizientes, offenes Reasoning-Modell für agentische KI beschrieben wird. Die Seite beschreibt es als Mixture-of-Experts-Modell mit insgesamt 30B Parametern und 3,5B aktiven Parametern, das eine hybride Mamba-2- und Transformer-Architektur verwendet.
Für Entwickler ist der entscheidende Punkt nicht nur die Architektur. Es ist die Tatsache, dass das Modell über die Serverless LLM API von Novita AI bereitgestellt wird, sodass du es mit demselben OpenAI-kompatiblen Chat-Completion-Muster aufrufen kannst, das auch für andere Novita-Sprachmodelle verwendet wird.
| Feld | Aktueller Wert |
|---|---|
| Anzeigename | Nemotron 3 Nano 30B A3B |
| API-Modell-ID | nvidia/nemotron-3-nano-30b-a3b |
| Anbieter / Serie (angezeigt von Novita) | Nvidia |
| Kategorie | LLM, Serverless |
| Endpunkt | chat/completions |
| Eingabe-Modalitäten | Text |
| Ausgabe-Modalitäten | Text |
| Kontextfenster | 256K Token |
| Maximale Ausgabe-Token | 32.768 |
| Aufgeführte Feature-Flags | Serverless, Function Calling, Structured Outputs, Reasoning |
| Quantisierung (angezeigt von Novita) | fp4 |
Damit eignet sich das Modell für Aufgaben, bei denen du ein großes Prompt-Budget, Tool-Use-Muster und JSON-förmige Antworten benötigst, aber dennoch eine gehostete API anstelle einer selbst verwalteten Bereitstellung wünschst.
Verfügbarkeit und Preise auf Novita AI
Das Modell wird derzeit als NEW Serverless LLM auf Novita AI geführt. Verwende in API-Aufrufen die genaue Modell-ID nvidia/nemotron-3-nano-30b-a3b.
Stand 11. Juni 2026 listet Novita folgende Token-Preise:
| Token-Typ | Preis |
|---|---|
| Eingabe-Token | 0,05 $ pro 1 Mio. Token |
| Ausgabe-Token | 0,20 $ pro 1 Mio. Token |
Preise und Verfügbarkeit können sich ändern. Produktionsteams sollten daher vor dem Start oder der Beschaffungsprüfung die Nemotron 3 Nano 30B A3B Modellseite und die Novita AI Preisseite überprüfen.
Novita stellt das Modell auch über eine OpenAI-kompatible API-Basis-URL zur Verfügung:
https://api.novita.ai/openai
Für Chat Completions lautet der Endpunkt-Pfad:
POST https://api.novita.ai/openai/v1/chat/completions
Die Authentifizierung erfolgt über ein Bearer-Token im Authorization-Header. Bewahre API-Schlüssel in Umgebungsvariablen oder deinem Secret Manager auf; hardcore sie nicht in Anwendungscode.
Wann sollten Entwickler es verwenden?
Verwende Nemotron 3 Nano 30B A3B, wenn deine Anwendung langen Kontext, strukturierte Modellausgaben oder Tool-Use-orientiertes Reasoning von einem serverlosen Textmodell benötigt.
Gute Evaluierungsfälle umfassen:
- Langkontext-Agenten, die größere Projektdateien, Logs, Transkripte oder Wissensdatenbank-Ausschnitte lesen müssen.
- Code-Assistenten, die genügend Kontext benötigen, um mehrere Dateien zu prüfen, bevor sie einen Plan oder Patch generieren.
- Mathe-, Planungs- und mehrstufige Analyse-Workflows, bei denen das Reasoning-Feature-Flag des Modells wichtig ist.
- Agenten-Workflows, die Tools über Function Calling aufrufen.
- Datenextraktionsaufgaben, die strukturierte JSON-Antworten anstelle freier Prosa benötigen.
Vermeide die Annahme, dass es für jede Aufgabe das beste Modell ist. Für latenzempfindliche kurze Prompts, Bild- oder Audioeingaben, strenge Benchmark-Ziele oder Workloads mit einer bekannten Modellpräferenz teste es gegen deinen bestehenden Kandidatensatz. Die Modellseite bestätigt die Verfügbarkeit und Feature-Flags; sie ersetzt nicht deine eigene Evaluierung anhand von Produktions-Prompts.
Schnellstart: Nemotron 3 Nano 30B A3B API aufrufen
Der einfachste Einstieg ist der Aufruf des OpenAI-kompatiblen Chat-Completions-Endpunkts mit der bestätigten Modell-ID.
cURL
export NOVITA_API_KEY="dein_api_schluessel"
curl "https://api.novita.ai/openai/v1/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${NOVITA_API_KEY}" \
-d '{
"model": "nvidia/nemotron-3-nano-30b-a3b",
"messages": [
{
"role": "system",
"content": "Du bist ein präziser technischer Assistent."
},
{
"role": "user",
"content": "Fasse die Risiken in diesem API-Migrationsplan zusammen und gib drei Maßnahmen zurück."
}
],
"max_tokens": 512,
"temperature": 0.2
}'
Python
Wenn deine Anwendung bereits das OpenAI Python SDK-Muster verwendet, setze die Novita OpenAI-kompatible Basis-URL und aktualisiere den Modellnamen.
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key=os.environ["NOVITA_API_KEY"],
)
response = client.chat.completions.create(
model="nvidia/nemotron-3-nano-30b-a3b",
messages=[
{"role": "system", "content": "Du bist ein präziser technischer Assistent."},
{
"role": "user",
"content": "Fasse die Risiken in diesem API-Migrationsplan zusammen und gib drei Maßnahmen zurück.",
},
],
max_tokens=512,
temperature=0.2,
)
print(response.choices[0].message.content)
Für Implementierungsdetails siehe die Novita AI LLM API-Anleitung und die Chat-Completions-API-Referenz.
Function Calling, Structured Outputs und Reasoning sorgfältig einsetzen
Novita listet Function Calling, Structured Outputs und Reasoning als Feature-Flags des Modells. Diese Funktionen sind am nützlichsten, wenn deine Anwendung vorhersagbare Schnittstellen zwischen dem Modell und dem Rest deines Systems benötigt.
Für Function Calling übergibst du ein tools-Array mit Funktionsdefinitionen. Die Chat-Completions-API unterstützt Funktionstools mit Namen, Beschreibungen, JSON-Schema-Parametern und einer strict-Option.
Für Structured Outputs verwendest du response_format mit json_schema, wenn das Modell und das Schema unterstützt werden. Die API-Referenz weist darauf hin, dass strenge Structured Outputs eine Teilmenge von JSON Schema unterstützen. Teste daher dein genaues Schema, bevor du dich in der Produktion darauf verlässt.
Für Reasoning-Verhalten musst du den Unterschied zwischen Verfügbarkeit auf Modellebene und Verhalten auf Anfrageebene klar unterscheiden. Die Nemotron-Modellseite listet Reasoning als Feature-Flag, während die Chat-Completions-API-Referenz Anforderungsparameter wie separate_reasoning und enable_thinking mit modellspezifischen Support-Hinweisen dokumentiert. Bevor du Reasoning-Felder in der Produktion verwendest, führe einen kleinen API-Test mit dieser genauen Modell-ID durch und erkenne die Antwortstruktur, die deine Anwendung verarbeiten wird.
FAQ
Ist Nemotron 3 Nano 30B A3B auf Novita AI verfügbar?
Ja. Das Modell wird auf Novita AI als Serverless LLM mit der Modell-ID nvidia/nemotron-3-nano-30b-a3b geführt.
Welches Kontextfenster hat Nemotron 3 Nano 30B A3B?
Novita listet für nvidia/nemotron-3-nano-30b-a3b ein 256K-Kontextfenster und maximal 32.768 Ausgabe-Token.
Wie viel kostet die Nemotron 3 Nano 30B A3B API auf Novita AI?
Stand 11. Juni 2026 listet Novita einen Preis von 0,05 $ pro Million Eingabe-Token und 0,20 $ pro Million Ausgabe-Token.
Unterstützt das Modell Function Calling und Structured Outputs?
Die Novita-Modellseite listet Function Calling und Structured Outputs als Feature-Flags für Nemotron 3 Nano 30B A3B. Validiere dein genaues Tool-Schema oder JSON-Schema vor der Verwendung in der Produktion gegen die API.
Welchen Endpunkt soll ich verwenden?
Verwende den OpenAI-kompatiblen Chat-Completions-Endpunkt: https://api.novita.ai/openai/v1/chat/completions.
