Novita AI freut sich, bekannt zu geben, dass GPT OSS – die bahnbrechenden Open-Weight-Sprachmodelle von OpenAI – jetzt über unsere Inference-API verfügbar sind. Die GPT-OSS-Familie umfasst zwei hochmoderne Reasoning-Modelle: gpt-oss-120b und gpt-oss-20b. Beide werden unter der Apache-2.0-Lizenz veröffentlicht.
Laut OpenAI ist diese Veröffentlichung ein bedeutender Schritt in ihrem Engagement für das Open-Source-Ökosystem, im Einklang mit ihrer erklärten Mission, die Vorteile von KI breit zugänglich zu machen. Die Modelle sind für agentische Arbeitsabläufe, Tool-Nutzung und komplexe Reasoning-Aufgaben konzipiert und eignen sich ideal für den Aufbau anspruchsvoller KI-Anwendungen ohne die Einschränkungen proprietärer Systeme.
Novita AI bietet GPT OSS zu den folgenden Preisen an:
gpt-oss-120b: 0,10 $ Input / 0,50 $ Output pro Million Tokens
gpt-oss-20b: 0,05 $ Input / 0,20 $ Output pro Million Tokens
Modellübersicht und Fähigkeiten
GPT-OSS-Modelle sind Mixture-of-Experts (MoEs) mit einem 4-Bit-Quantisierungsschema (MXFP4). Dies ermöglicht schnelle Inferenz bei geringem Ressourcenverbrauch. Beide Modelle unterstützen Chain-of-Thought-Reasoning mit einstellbaren Reasoning-Anstrengungsstufen, Befehlsbefolgung und Tool-Nutzungsmöglichkeiten.
| Modell | Ebenen | Parameter gesamt | Aktive Parameter pro Token | Experten gesamt | Aktive Experten pro Token | Kontextlänge |
|---|---|---|---|---|---|---|
| gpt-oss-120b | 36 | 117B | 5,1B | 128 | 4 | 128k |
| gpt-oss-20b | 24 | 21B | 3,6B | 32 | 4 | 128k |
gpt-oss-120b: Hochleistungs-Reasoning
Das Modell gpt-oss-120b verfügt über 117B Gesamtparameter mit 5,1B aktiven Parametern. Es erreicht eine nahezu gleichwertige Leistung mit OpenAI o4-mini bei Kern-Reasoning-Benchmarks, während es effizient auf optimierter Infrastruktur läuft.
Das Modell übertrifft OpenAI o3‑mini bei Wettbewerbs-Codierung (Codeforces), allgemeiner Problemlösung (MMLU und HLE) und Tool-Aufrufen (TauBench) und erreicht oder übertrifft OpenAI o4-mini.
Testen Sie gpt-oss-120b im Playground
gpt-oss-20b: Effizientes Edge-Reasoning
Das Modell gpt-oss-20b enthält 21B Gesamtparameter mit 3,6B aktiven Parametern. Es ist für effiziente Bereitstellungsszenarien konzipiert. Das 120B-Modell passt auf eine einzelne H100-GPU, während das 20B-Modell in 16 GB Speicher läuft und sich perfekt für Consumer-Hardware und On-Device-Anwendungen eignet.
Trotz seiner geringeren Größe erreicht oder übertrifft es OpenAI o3‑mini in Standard-Benchmarks und schneidet sogar besser ab bei Wettbewerbsmathematik (AIME 2024 & 2025) und gesundheitsbezogenen Abfragen (HealthBench).
Testen Sie gpt-oss-20b im Playground
Kernfunktionen und technische Spezifikationen
Architekturdetails
- 21B und 117B Gesamtparameter mit 3,6B bzw. 5,1B aktiven Parametern
- 4-Bit-Quantisierungsschema im mxfp4-Format, nur auf die MoE-Gewichte angewendet
- Token-Choice-MoE mit SwiGLU-Aktivierungen und Softmax-nach-Topk für die Expertenauswahl
- RoPE-Attention mit 128K Kontextlänge über alle Attention-Ebenen
- Abwechselnde Attention-Ebenen: Vollkontext- und gleitende 128-Token-Fenstermuster
- Gelernte Attention-Sink pro Kopf für verbesserte Langkontext-Leistung
Wichtige Fähigkeiten
Reasoning-Modelle: Text-only-Modelle mit Chain-of-Thought und einstellbaren Reasoning-Anstrengungsstufen („niedrig“, „mittel“, „hoch“)
Tool-Nutzungsunterstützung: Integrierte Unterstützung für Websuche, Python-Codeausführung und benutzerdefinierte Tool-Integration
Strukturierte Ausgaben: Native Unterstützung für JSON, XML und andere strukturierte Datenformate mit Schema-Validierung
Responses-API-Kompatibilität: Volle Kompatibilität mit OpenAIs Responses API, der fortschrittlichsten OpenAI-Schnittstelle für Chat-Modelle, die für flexiblere und intuitivere Interaktionen entwickelt wurde
Apache-2.0-Lizenz: Maximale Flexibilität für kommerzielle und Forschungsnutzung. Laut OpenAI zielen sie darauf ab, dass ihre Werkzeuge sicher, verantwortungsvoll und demokratisch genutzt werden, während die Benutzerkontrolle maximiert wird. Durch die Nutzung von gpt-oss erklären sich die Benutzer damit einverstanden, alle geltenden Gesetze einzuhalten.
Benchmark-Leistung

Sicherheitsbewertungsergebnisse
OpenAI hat umfassende Sicherheitstests im Rahmen ihres Preparedness Framework durchgeführt, einschließlich Tests einer adversariell feinabgestimmten Version von gpt-oss-120b. Ihre Methodik wurde von externen Experten überprüft und markiert einen Fortschritt bei der Festlegung neuer Sicherheitsstandards für Open-Weight-Modelle:
- Skalierbare Fähigkeitsbewertungen: OpenAI bestätigte, dass das Standardmodell ihre indikativen Schwellenwerte für hohe Fähigkeiten in keiner der drei verfolgten Kategorien (biologische und chemische Fähigkeiten, Cyber-Fähigkeiten und KI-Selbstverbesserung) erreicht.
- Adversarielle Feinabstimmungstests: Selbst mit robuster Feinabstimmung unter Verwendung von OpenAIs führendem Training-Stack erreichte gpt-oss-120b keine hohen Fähigkeiten bei biologischem und chemischem Risiko oder Cyber-Risiko.
- Frontier-Risikobewertung: Bei den meisten Bewertungen kommt die Standardleistung bestehender offener Modelle nahe an die adversariell feinabgestimmte Leistung von gpt-oss-120b heran.
- Externe Überprüfung: OpenAIs Safety Advisory Group (SAG) überprüfte diese Tests und kam zu dem Schluss, dass die Modelle die Sicherheitsstandards erfüllen.
API-Zugang über Novita AI
Novita AI bietet umfassenden Zugang zu GPT-OSS-Modellen sowohl über Serverless- als auch über dedizierte Endpunkte mit vollständiger OpenAI-API-Kompatibilität.
Preise und Modelldetails
Modellname: openai/gpt-oss-120b
- Input/Output-Preis (Novita AI):
- Input: 0,10 $ pro Million Tokens
- Output: 0,50 $ pro Million Tokens
- Kontextgröße: 131.072
- Jetzt testen: Testen Sie gpt-oss-120b im Playground
Modellname: openai/gpt-oss-20b
- Input/Output-Preis (Novita AI):
- Input: 0,05 $ pro Million Tokens
- Output: 0,20 $ pro Million Tokens
- Kontextgröße: 131.072
- Max. Output: 32.768
- Jetzt testen: Testen Sie gpt-oss-20b im Playground
Erste Schritte mit Novita AI
Nutzen Sie den Playground (kein Code erforderlich)
- Sofortiger Zugriff: Registrieren Sie sich und experimentieren Sie in Sekunden mit GPT-OSS-Modellen
- Interaktive Oberfläche: Testen Sie komplexe Reasoning-Prompts und visualisieren Sie Chain-of-Thought-Ausgaben in Echtzeit
- Modellvergleich: Vergleichen Sie GPT OSS mit anderen führenden Modellen für Ihren spezifischen Anwendungsfall
Integration über API (für Entwickler) Verbinden Sie GPT OSS mit Ihren Anwendungen über die einheitliche REST-API von Novita AI.
Möglichkeit 1: Direkte API-Integration (Python-Beispiel)
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "openai/gpt-oss-120b"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Wichtige Funktionen:
- OpenAI-kompatible API für nahtlose Integration
- Flexible Parametersteuerung zur Feinabstimmung von Antworten
- Streaming-Unterstützung für Echtzeitantworten
Möglichkeit 2: Multi-Agent-Workflows mit dem OpenAI Agents SDK Erstellen Sie anspruchsvolle Multi-Agent-Systeme mit GPT OSS:
- Plug-and-Play-Integration: Nutzen Sie GPT OSS in jedem OpenAI-Agents-Workflow
- Erweiterte Agentenfähigkeiten: Unterstützung für Übergaben, Routing und Tool-Integration mit überlegener Reasoning-Leistung
- Skalierbare Architektur: Entwerfen Sie Agents, die die vereinheitlichten Reasoning-, Codierungs- und Agentenfähigkeiten von GPT OSS nutzen
Verbindung mit Drittanbieterplattformen
- Entwicklungstools: Nahtlose Integration mit gängigen IDEs und Entwicklungsumgebungen wie Cursor, Trae und Cline über OpenAI-kompatible APIs
- Orchestrierungsframeworks: Verbinden Sie sich mit LangChain, Dify, CrewAI, Langflow und anderen KI-Orchestrierungsplattformen über offizielle Konnektoren
- Hugging-Face-Integration: Novita AI fungiert als offizieller Inference-Anbieter von Hugging Face
Modellarchitektur & Training
Vortraining und Modellentwicklung
Die Modelle wurden mit einer Mischung aus Reinforcement Learning und Techniken trainiert, die von OpenAIs fortschrittlichsten internen Modellen, einschließlich o3 und anderen Grenzsystemen, inspiriert sind. Sie wurden umfassend darauf trainiert, Tool-Nutzung als Teil ihrer Reasoning-Bemühungen zu nutzen.
Post-Training-Optimierung
Reinforcement Learning from Human Feedback (RLHF): Umfassendes Alignment-Training für hilfreiche, harmlose und ehrliche Antworten
Sicherheitstraining: Umfangreiche Sicherheitsbewertungen und adversarielle Tests zur Gewährleistung eines verantwortungsvollen Einsatzes
Reasoning-Kalibrierung: Feinabgestimmte Kontrolle des Reasoning-Aufwands, um eine Optimierung für verschiedene Aufgabekomplexitäten zu ermöglichen
Technische Innovation
Historische Rückkehr zu Open Source: Dies ist OpenAIs erstes Open-Weight-Sprachmodell seit GPT-2, das vor mehr als fünf Jahren veröffentlicht wurde, und stellt einen bedeutenden Schritt in ihrem Engagement für das Open-Source-Ökosystem dar
Fortgeschrittene MoE-Architektur: Anspruchsvolle Mixture-of-Experts-Implementierung mit Token-Choice-Routing und optimierten Expertenauswahlmustern
Effiziente Quantisierung: Native 4-Bit-Quantisierung im mxfp4-Format ermöglicht schnelle Inferenz bei geringem Ressourcenverbrauch; das 120B-Modell passt auf eine einzelne 80-GB-GPU, das 20B-Modell in 16 GB Speicher
Fazit
Die GPT-OSS-Modelle von OpenAI stellen einen Durchbruch in der Open-Source-KI dar und liefern modernste Reasoning-Fähigkeiten unter der Apache-2.0-Lizenz. Über die API-Infrastruktur von Novita AI können Entwickler diese leistungsstarken Modelle über Serverless- und dedizierte Endpunkte mit voller OpenAI-Kompatibilität nutzen.
Ob beim Erstellen von agentischen Workflows, bei der Durchführung von Forschung oder der Entwicklung von Produktionsanwendungen – GPT OSS bietet die Grundlage für KI-Lösungen der nächsten Generation. Mit fortschrittlichem Reasoning, Tool-Nutzungsunterstützung und flexibler Lizenzierung eröffnen diese Modelle beispiellose Möglichkeiten für KI-Innovationen in allen Branchen.
Bereit loszulegen? Erleben Sie GPT-OSS-Modelle sofort im Modell-Playground von Novita AI – ohne Code erforderlich. Registrieren Sie sich noch heute und beginnen Sie mit der Entwicklung mit den fortschrittlichsten Open-Source-Modellen von OpenAI.
Novita AI ist eine KI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, KI-Modelle über unsere einfache API bereitzustellen, und gleichzeitig eine erschwingliche und zuverlässige GPU-Cloud zum Aufbau und zur Skalierung bereitstellt.
