Nemotron 3 Nano 30B A3B auf Novita AI: Start, Preise und Schnellstart

Inhaltsverzeichnis

Was ist Nemotron 3 Nano 30B A3B?
Verfügbarkeit und Preise auf Novita AI
Wann sollten Entwickler es verwenden?
Schnellstart: Nemotron 3 Nano 30B A3B API aufrufen
Function Calling, Structured Outputs und Reasoning sorgfältig einsetzen
FAQ

Nemotron 3 Nano 30B A3B ist auf Novita AI als Serverless LLM für OpenAI-kompatible Chat Completions verfügbar, mit der Modell-ID nvidia/nemotron-3-nano-30b-a3b, einem 256K-Kontextfenster, maximal 32.768 Ausgabe-Token, Texteingabe/-ausgabe, Function Calling, Structured Outputs und Reasoning – alles auf der Novita-Modellseite aufgelistet. Stand 11. Juni 2026 listet Novita einen Preis von 0,05 $ pro Million Eingabe-Token und 0,20 $ pro Million Ausgabe-Token. Damit ist es eine praktische Option, wenn du Agent-Workflows mit langem Kontext, Coding-, Mathe- oder Tool-Usage benötigst, ohne die Modellinfrastruktur verwalten zu müssen.

Was ist Nemotron 3 Nano 30B A3B?

Nemotron 3 Nano 30B A3B ist ein NVIDIA-Modell, das auf der Novita AI Nemotron 3 Nano 30B A3B Modellseite als recheneffizientes, offenes Reasoning-Modell für agentische KI beschrieben wird. Die Seite beschreibt es als Mixture-of-Experts-Modell mit insgesamt 30B Parametern und 3,5B aktiven Parametern, das eine hybride Mamba-2- und Transformer-Architektur verwendet.

Für Entwickler ist der entscheidende Punkt nicht nur die Architektur. Es ist die Tatsache, dass das Modell über die Serverless LLM API von Novita AI bereitgestellt wird, sodass du es mit demselben OpenAI-kompatiblen Chat-Completion-Muster aufrufen kannst, das auch für andere Novita-Sprachmodelle verwendet wird.

Feld	Aktueller Wert
Anzeigename	Nemotron 3 Nano 30B A3B
API-Modell-ID	`nvidia/nemotron-3-nano-30b-a3b`
Anbieter / Serie (angezeigt von Novita)	Nvidia
Kategorie	LLM, Serverless
Endpunkt	`chat/completions`
Eingabe-Modalitäten	Text
Ausgabe-Modalitäten	Text
Kontextfenster	256K Token
Maximale Ausgabe-Token	32.768
Aufgeführte Feature-Flags	Serverless, Function Calling, Structured Outputs, Reasoning
Quantisierung (angezeigt von Novita)	fp4

Damit eignet sich das Modell für Aufgaben, bei denen du ein großes Prompt-Budget, Tool-Use-Muster und JSON-förmige Antworten benötigst, aber dennoch eine gehostete API anstelle einer selbst verwalteten Bereitstellung wünschst.

Verfügbarkeit und Preise auf Novita AI

Das Modell wird derzeit als NEW Serverless LLM auf Novita AI geführt. Verwende in API-Aufrufen die genaue Modell-ID nvidia/nemotron-3-nano-30b-a3b.

Stand 11. Juni 2026 listet Novita folgende Token-Preise:

Token-Typ	Preis
Eingabe-Token	0,05 $ pro 1 Mio. Token
Ausgabe-Token	0,20 $ pro 1 Mio. Token

Preise und Verfügbarkeit können sich ändern. Produktionsteams sollten daher vor dem Start oder der Beschaffungsprüfung die Nemotron 3 Nano 30B A3B Modellseite und die Novita AI Preisseite überprüfen.

Novita stellt das Modell auch über eine OpenAI-kompatible API-Basis-URL zur Verfügung:

https://api.novita.ai/openai

Für Chat Completions lautet der Endpunkt-Pfad:

POST https://api.novita.ai/openai/v1/chat/completions

Die Authentifizierung erfolgt über ein Bearer-Token im Authorization-Header. Bewahre API-Schlüssel in Umgebungsvariablen oder deinem Secret Manager auf; hardcore sie nicht in Anwendungscode.

Wann sollten Entwickler es verwenden?

Verwende Nemotron 3 Nano 30B A3B, wenn deine Anwendung langen Kontext, strukturierte Modellausgaben oder Tool-Use-orientiertes Reasoning von einem serverlosen Textmodell benötigt.

Gute Evaluierungsfälle umfassen:

Langkontext-Agenten, die größere Projektdateien, Logs, Transkripte oder Wissensdatenbank-Ausschnitte lesen müssen.
Code-Assistenten, die genügend Kontext benötigen, um mehrere Dateien zu prüfen, bevor sie einen Plan oder Patch generieren.
Mathe-, Planungs- und mehrstufige Analyse-Workflows, bei denen das Reasoning-Feature-Flag des Modells wichtig ist.
Agenten-Workflows, die Tools über Function Calling aufrufen.
Datenextraktionsaufgaben, die strukturierte JSON-Antworten anstelle freier Prosa benötigen.

Vermeide die Annahme, dass es für jede Aufgabe das beste Modell ist. Für latenzempfindliche kurze Prompts, Bild- oder Audioeingaben, strenge Benchmark-Ziele oder Workloads mit einer bekannten Modellpräferenz teste es gegen deinen bestehenden Kandidatensatz. Die Modellseite bestätigt die Verfügbarkeit und Feature-Flags; sie ersetzt nicht deine eigene Evaluierung anhand von Produktions-Prompts.

Schnellstart: Nemotron 3 Nano 30B A3B API aufrufen

Der einfachste Einstieg ist der Aufruf des OpenAI-kompatiblen Chat-Completions-Endpunkts mit der bestätigten Modell-ID.

cURL

export NOVITA_API_KEY="dein_api_schluessel"

curl "https://api.novita.ai/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${NOVITA_API_KEY}" \
  -d '{
    "model": "nvidia/nemotron-3-nano-30b-a3b",
    "messages": [
      {
        "role": "system",
        "content": "Du bist ein präziser technischer Assistent."
      },
      {
        "role": "user",
        "content": "Fasse die Risiken in diesem API-Migrationsplan zusammen und gib drei Maßnahmen zurück."
      }
    ],
    "max_tokens": 512,
    "temperature": 0.2
  }'

Python

Wenn deine Anwendung bereits das OpenAI Python SDK-Muster verwendet, setze die Novita OpenAI-kompatible Basis-URL und aktualisiere den Modellnamen.

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key=os.environ["NOVITA_API_KEY"],
)

response = client.chat.completions.create(
    model="nvidia/nemotron-3-nano-30b-a3b",
    messages=[
        {"role": "system", "content": "Du bist ein präziser technischer Assistent."},
        {
            "role": "user",
            "content": "Fasse die Risiken in diesem API-Migrationsplan zusammen und gib drei Maßnahmen zurück.",
        },
    ],
    max_tokens=512,
    temperature=0.2,
)

print(response.choices[0].message.content)

Für Implementierungsdetails siehe die Novita AI LLM API-Anleitung und die Chat-Completions-API-Referenz.

Function Calling, Structured Outputs und Reasoning sorgfältig einsetzen

Novita listet Function Calling, Structured Outputs und Reasoning als Feature-Flags des Modells. Diese Funktionen sind am nützlichsten, wenn deine Anwendung vorhersagbare Schnittstellen zwischen dem Modell und dem Rest deines Systems benötigt.

Für Function Calling übergibst du ein tools-Array mit Funktionsdefinitionen. Die Chat-Completions-API unterstützt Funktionstools mit Namen, Beschreibungen, JSON-Schema-Parametern und einer strict-Option.

Für Structured Outputs verwendest du response_format mit json_schema, wenn das Modell und das Schema unterstützt werden. Die API-Referenz weist darauf hin, dass strenge Structured Outputs eine Teilmenge von JSON Schema unterstützen. Teste daher dein genaues Schema, bevor du dich in der Produktion darauf verlässt.

Für Reasoning-Verhalten musst du den Unterschied zwischen Verfügbarkeit auf Modellebene und Verhalten auf Anfrageebene klar unterscheiden. Die Nemotron-Modellseite listet Reasoning als Feature-Flag, während die Chat-Completions-API-Referenz Anforderungsparameter wie separate_reasoning und enable_thinking mit modellspezifischen Support-Hinweisen dokumentiert. Bevor du Reasoning-Felder in der Produktion verwendest, führe einen kleinen API-Test mit dieser genauen Modell-ID durch und erkenne die Antwortstruktur, die deine Anwendung verarbeiten wird.

FAQ

Ist Nemotron 3 Nano 30B A3B auf Novita AI verfügbar?

Ja. Das Modell wird auf Novita AI als Serverless LLM mit der Modell-ID nvidia/nemotron-3-nano-30b-a3b geführt.

Welches Kontextfenster hat Nemotron 3 Nano 30B A3B?

Novita listet für nvidia/nemotron-3-nano-30b-a3b ein 256K-Kontextfenster und maximal 32.768 Ausgabe-Token.

Wie viel kostet die Nemotron 3 Nano 30B A3B API auf Novita AI?

Stand 11. Juni 2026 listet Novita einen Preis von 0,05 $ pro Million Eingabe-Token und 0,20 $ pro Million Ausgabe-Token.

Unterstützt das Modell Function Calling und Structured Outputs?

Die Novita-Modellseite listet Function Calling und Structured Outputs als Feature-Flags für Nemotron 3 Nano 30B A3B. Validiere dein genaues Tool-Schema oder JSON-Schema vor der Verwendung in der Produktion gegen die API.

Welchen Endpunkt soll ich verwenden?

Verwende den OpenAI-kompatiblen Chat-Completions-Endpunkt: https://api.novita.ai/openai/v1/chat/completions.

Nemotron 3 Nano 30B A3B auf Novita AI: Start, Preise und Schnellstart

Was ist Nemotron 3 Nano 30B A3B?

Verfügbarkeit und Preise auf Novita AI

Wann sollten Entwickler es verwenden?

Schnellstart: Nemotron 3 Nano 30B A3B API aufrufen

cURL

Python

Function Calling, Structured Outputs und Reasoning sorgfältig einsetzen

FAQ

Ist Nemotron 3 Nano 30B A3B auf Novita AI verfügbar?

Welches Kontextfenster hat Nemotron 3 Nano 30B A3B?

Wie viel kostet die Nemotron 3 Nano 30B A3B API auf Novita AI?

Unterstützt das Modell Function Calling und Structured Outputs?

Welchen Endpunkt soll ich verwenden?

Product

RESOURCES

Partners

Company

Was ist Nemotron 3 Nano 30B A3B?

Verfügbarkeit und Preise auf Novita AI

Wann sollten Entwickler es verwenden?

Schnellstart: Nemotron 3 Nano 30B A3B API aufrufen

cURL

Python

Function Calling, Structured Outputs und Reasoning sorgfältig einsetzen

FAQ

Ist Nemotron 3 Nano 30B A3B auf Novita AI verfügbar?

Welches Kontextfenster hat Nemotron 3 Nano 30B A3B?

Wie viel kostet die Nemotron 3 Nano 30B A3B API auf Novita AI?

Unterstützt das Modell Function Calling und Structured Outputs?

Welchen Endpunkt soll ich verwenden?

Ähnliche Beiträge

Product

RESOURCES

Partners

Company