GPT OSS auf Novita AI: Greifen Sie über die API auf Open-Source-Modelle von OpenAI zu

Inhaltsverzeichnis

Modellübersicht und Fähigkeiten
Kernfunktionen und technische Spezifikationen
Benchmark-Leistung
API-Zugang über Novita AI
Modellarchitektur & Training
Fazit

Novita AI freut sich, bekannt zu geben, dass GPT OSS – die bahnbrechenden Open-Weight-Sprachmodelle von OpenAI – jetzt über unsere Inference-API verfügbar sind. Die GPT-OSS-Familie umfasst zwei hochmoderne Reasoning-Modelle: gpt-oss-120b und gpt-oss-20b. Beide werden unter der Apache-2.0-Lizenz veröffentlicht.

Laut OpenAI ist diese Veröffentlichung ein bedeutender Schritt in ihrem Engagement für das Open-Source-Ökosystem, im Einklang mit ihrer erklärten Mission, die Vorteile von KI breit zugänglich zu machen. Die Modelle sind für agentische Arbeitsabläufe, Tool-Nutzung und komplexe Reasoning-Aufgaben konzipiert und eignen sich ideal für den Aufbau anspruchsvoller KI-Anwendungen ohne die Einschränkungen proprietärer Systeme.

Novita AI bietet GPT OSS zu den folgenden Preisen an:

gpt-oss-120b: 0,10 $ Input / 0,50 $ Output pro Million Tokens

gpt-oss-20b: 0,05 $ Input / 0,20 $ Output pro Million Tokens

Modellübersicht und Fähigkeiten

GPT-OSS-Modelle sind Mixture-of-Experts (MoEs) mit einem 4-Bit-Quantisierungsschema (MXFP4). Dies ermöglicht schnelle Inferenz bei geringem Ressourcenverbrauch. Beide Modelle unterstützen Chain-of-Thought-Reasoning mit einstellbaren Reasoning-Anstrengungsstufen, Befehlsbefolgung und Tool-Nutzungsmöglichkeiten.

Modell	Ebenen	Parameter gesamt	Aktive Parameter pro Token	Experten gesamt	Aktive Experten pro Token	Kontextlänge
gpt-oss-120b	36	117B	5,1B	128	4	128k
gpt-oss-20b	24	21B	3,6B	32	4	128k

gpt-oss-120b: Hochleistungs-Reasoning

Das Modell gpt-oss-120b verfügt über 117B Gesamtparameter mit 5,1B aktiven Parametern. Es erreicht eine nahezu gleichwertige Leistung mit OpenAI o4-mini bei Kern-Reasoning-Benchmarks, während es effizient auf optimierter Infrastruktur läuft.

Das Modell übertrifft OpenAI o3‑mini bei Wettbewerbs-Codierung (Codeforces), allgemeiner Problemlösung (MMLU und HLE) und Tool-Aufrufen (TauBench) und erreicht oder übertrifft OpenAI o4-mini.

Testen Sie gpt-oss-120b im Playground

gpt-oss-20b: Effizientes Edge-Reasoning

Das Modell gpt-oss-20b enthält 21B Gesamtparameter mit 3,6B aktiven Parametern. Es ist für effiziente Bereitstellungsszenarien konzipiert. Das 120B-Modell passt auf eine einzelne H100-GPU, während das 20B-Modell in 16 GB Speicher läuft und sich perfekt für Consumer-Hardware und On-Device-Anwendungen eignet.

Trotz seiner geringeren Größe erreicht oder übertrifft es OpenAI o3‑mini in Standard-Benchmarks und schneidet sogar besser ab bei Wettbewerbsmathematik (AIME 2024 & 2025) und gesundheitsbezogenen Abfragen (HealthBench).

Testen Sie gpt-oss-20b im Playground

Kernfunktionen und technische Spezifikationen

Architekturdetails

21B und 117B Gesamtparameter mit 3,6B bzw. 5,1B aktiven Parametern
4-Bit-Quantisierungsschema im mxfp4-Format, nur auf die MoE-Gewichte angewendet
Token-Choice-MoE mit SwiGLU-Aktivierungen und Softmax-nach-Topk für die Expertenauswahl
RoPE-Attention mit 128K Kontextlänge über alle Attention-Ebenen
Abwechselnde Attention-Ebenen: Vollkontext- und gleitende 128-Token-Fenstermuster
Gelernte Attention-Sink pro Kopf für verbesserte Langkontext-Leistung

Wichtige Fähigkeiten

Reasoning-Modelle: Text-only-Modelle mit Chain-of-Thought und einstellbaren Reasoning-Anstrengungsstufen („niedrig“, „mittel“, „hoch“)

Tool-Nutzungsunterstützung: Integrierte Unterstützung für Websuche, Python-Codeausführung und benutzerdefinierte Tool-Integration

Strukturierte Ausgaben: Native Unterstützung für JSON, XML und andere strukturierte Datenformate mit Schema-Validierung

Responses-API-Kompatibilität: Volle Kompatibilität mit OpenAIs Responses API, der fortschrittlichsten OpenAI-Schnittstelle für Chat-Modelle, die für flexiblere und intuitivere Interaktionen entwickelt wurde

Apache-2.0-Lizenz: Maximale Flexibilität für kommerzielle und Forschungsnutzung. Laut OpenAI zielen sie darauf ab, dass ihre Werkzeuge sicher, verantwortungsvoll und demokratisch genutzt werden, während die Benutzerkontrolle maximiert wird. Durch die Nutzung von gpt-oss erklären sich die Benutzer damit einverstanden, alle geltenden Gesetze einzuhalten.

Benchmark-Leistung

Sicherheitsbewertungsergebnisse

OpenAI hat umfassende Sicherheitstests im Rahmen ihres Preparedness Framework durchgeführt, einschließlich Tests einer adversariell feinabgestimmten Version von gpt-oss-120b. Ihre Methodik wurde von externen Experten überprüft und markiert einen Fortschritt bei der Festlegung neuer Sicherheitsstandards für Open-Weight-Modelle:

Skalierbare Fähigkeitsbewertungen: OpenAI bestätigte, dass das Standardmodell ihre indikativen Schwellenwerte für hohe Fähigkeiten in keiner der drei verfolgten Kategorien (biologische und chemische Fähigkeiten, Cyber-Fähigkeiten und KI-Selbstverbesserung) erreicht.
Adversarielle Feinabstimmungstests: Selbst mit robuster Feinabstimmung unter Verwendung von OpenAIs führendem Training-Stack erreichte gpt-oss-120b keine hohen Fähigkeiten bei biologischem und chemischem Risiko oder Cyber-Risiko.
Frontier-Risikobewertung: Bei den meisten Bewertungen kommt die Standardleistung bestehender offener Modelle nahe an die adversariell feinabgestimmte Leistung von gpt-oss-120b heran.
Externe Überprüfung: OpenAIs Safety Advisory Group (SAG) überprüfte diese Tests und kam zu dem Schluss, dass die Modelle die Sicherheitsstandards erfüllen.

API-Zugang über Novita AI

Novita AI bietet umfassenden Zugang zu GPT-OSS-Modellen sowohl über Serverless- als auch über dedizierte Endpunkte mit vollständiger OpenAI-API-Kompatibilität.

Preise und Modelldetails

Modellname: openai/gpt-oss-120b

Input/Output-Preis (Novita AI):
- Input: 0,10 $ pro Million Tokens
- Output: 0,50 $ pro Million Tokens
Kontextgröße: 131.072
Jetzt testen: Testen Sie gpt-oss-120b im Playground

Modellname: openai/gpt-oss-20b

Input/Output-Preis (Novita AI):
- Input: 0,05 $ pro Million Tokens
- Output: 0,20 $ pro Million Tokens
Kontextgröße: 131.072
Max. Output: 32.768
Jetzt testen: Testen Sie gpt-oss-20b im Playground

Erste Schritte mit Novita AI

Nutzen Sie den Playground (kein Code erforderlich)

Sofortiger Zugriff: Registrieren Sie sich und experimentieren Sie in Sekunden mit GPT-OSS-Modellen
Interaktive Oberfläche: Testen Sie komplexe Reasoning-Prompts und visualisieren Sie Chain-of-Thought-Ausgaben in Echtzeit
Modellvergleich: Vergleichen Sie GPT OSS mit anderen führenden Modellen für Ihren spezifischen Anwendungsfall

Integration über API (für Entwickler) Verbinden Sie GPT OSS mit Ihren Anwendungen über die einheitliche REST-API von Novita AI.

Möglichkeit 1: Direkte API-Integration (Python-Beispiel)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "openai/gpt-oss-120b"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Wichtige Funktionen:

OpenAI-kompatible API für nahtlose Integration
Flexible Parametersteuerung zur Feinabstimmung von Antworten
Streaming-Unterstützung für Echtzeitantworten

Möglichkeit 2: Multi-Agent-Workflows mit dem OpenAI Agents SDK Erstellen Sie anspruchsvolle Multi-Agent-Systeme mit GPT OSS:

Plug-and-Play-Integration: Nutzen Sie GPT OSS in jedem OpenAI-Agents-Workflow
Erweiterte Agentenfähigkeiten: Unterstützung für Übergaben, Routing und Tool-Integration mit überlegener Reasoning-Leistung
Skalierbare Architektur: Entwerfen Sie Agents, die die vereinheitlichten Reasoning-, Codierungs- und Agentenfähigkeiten von GPT OSS nutzen

Verbindung mit Drittanbieterplattformen

Entwicklungstools: Nahtlose Integration mit gängigen IDEs und Entwicklungsumgebungen wie Cursor, Trae und Cline über OpenAI-kompatible APIs
Orchestrierungsframeworks: Verbinden Sie sich mit LangChain, Dify, CrewAI, Langflow und anderen KI-Orchestrierungsplattformen über offizielle Konnektoren
Hugging-Face-Integration: Novita AI fungiert als offizieller Inference-Anbieter von Hugging Face

Modellarchitektur & Training

Vortraining und Modellentwicklung

Die Modelle wurden mit einer Mischung aus Reinforcement Learning und Techniken trainiert, die von OpenAIs fortschrittlichsten internen Modellen, einschließlich o3 und anderen Grenzsystemen, inspiriert sind. Sie wurden umfassend darauf trainiert, Tool-Nutzung als Teil ihrer Reasoning-Bemühungen zu nutzen.

Post-Training-Optimierung

Reinforcement Learning from Human Feedback (RLHF): Umfassendes Alignment-Training für hilfreiche, harmlose und ehrliche Antworten

Sicherheitstraining: Umfangreiche Sicherheitsbewertungen und adversarielle Tests zur Gewährleistung eines verantwortungsvollen Einsatzes

Reasoning-Kalibrierung: Feinabgestimmte Kontrolle des Reasoning-Aufwands, um eine Optimierung für verschiedene Aufgabekomplexitäten zu ermöglichen

Technische Innovation

Historische Rückkehr zu Open Source: Dies ist OpenAIs erstes Open-Weight-Sprachmodell seit GPT-2, das vor mehr als fünf Jahren veröffentlicht wurde, und stellt einen bedeutenden Schritt in ihrem Engagement für das Open-Source-Ökosystem dar

Fortgeschrittene MoE-Architektur: Anspruchsvolle Mixture-of-Experts-Implementierung mit Token-Choice-Routing und optimierten Expertenauswahlmustern

Effiziente Quantisierung: Native 4-Bit-Quantisierung im mxfp4-Format ermöglicht schnelle Inferenz bei geringem Ressourcenverbrauch; das 120B-Modell passt auf eine einzelne 80-GB-GPU, das 20B-Modell in 16 GB Speicher

Fazit

Die GPT-OSS-Modelle von OpenAI stellen einen Durchbruch in der Open-Source-KI dar und liefern modernste Reasoning-Fähigkeiten unter der Apache-2.0-Lizenz. Über die API-Infrastruktur von Novita AI können Entwickler diese leistungsstarken Modelle über Serverless- und dedizierte Endpunkte mit voller OpenAI-Kompatibilität nutzen.

Ob beim Erstellen von agentischen Workflows, bei der Durchführung von Forschung oder der Entwicklung von Produktionsanwendungen – GPT OSS bietet die Grundlage für KI-Lösungen der nächsten Generation. Mit fortschrittlichem Reasoning, Tool-Nutzungsunterstützung und flexibler Lizenzierung eröffnen diese Modelle beispiellose Möglichkeiten für KI-Innovationen in allen Branchen.

Bereit loszulegen? Erleben Sie GPT-OSS-Modelle sofort im Modell-Playground von Novita AI – ohne Code erforderlich. Registrieren Sie sich noch heute und beginnen Sie mit der Entwicklung mit den fortschrittlichsten Open-Source-Modellen von OpenAI.

Novita AI ist eine KI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, KI-Modelle über unsere einfache API bereitzustellen, und gleichzeitig eine erschwingliche und zuverlässige GPU-Cloud zum Aufbau und zur Skalierung bereitstellt.

GPT OSS auf Novita AI: Greifen Sie über die API auf Open-Source-Modelle von OpenAI zu