Endpoint GPT-OSS de Novita : Performances de premier ordre

Chez Novita AI, nous nous engageons à offrir aux développeurs un accès rapide, fiable et abordable aux meilleurs modèles d’IA. Lorsqu’OpenAI a publié ses modèles open source, GPT-OSS 120B et 20B, nous les avons hébergés le jour même. Mais déployer un modèle ne suffit pas. C’est pourquoi notre équipe d’ingénierie a consacré une semaine entière à un seul objectif : optimiser nos endpoints GPT-OSS pour offrir une expérience utilisateur exceptionnelle.

Le résultat ? Notre endpoint a été classé parmi les meilleurs performers du secteur, validé par Artificial Analysis, une plateforme indépendante d’analyse des modèles d’IA et des fournisseurs d’hébergement.

Titre : GPT OSS 120B
Source : Hugging Face

Qu’est-ce que GPT-OSS-120B ?

GPT-OSS-120B est l’un des nouveaux modèles à poids ouverts d’OpenAI, publié en août 2025. Il adopte une architecture mixture-of-experts (MoE) avec 117 milliards de paramètres. Il n’active qu’un sous-ensemble de ces paramètres par token, ce qui permet une inférence efficace tout en conservant de solides capacités de raisonnement. Ce modèle prend en charge des fonctionnalités avancées comme l’utilisation d’outils, des fenêtres de contexte étendues et un raisonnement complexe, le tout sous licence Apache 2.0.

Le défi : un exercice d’équilibre

Héberger des LLM comme GPT-OSS 120B nécessite d’équilibrer plusieurs métriques simultanément. Nous devions optimiser plusieurs indicateurs clés en même temps :

Latence : À quelle vitesse le modèle répond-il à une requête utilisateur ? Une faible latence, en particulier pour le premier token, est cruciale pour une bonne expérience utilisateur conversationnelle.
Débit : Combien de tokens par seconde notre endpoint peut-il gérer ? Un débit élevé assure une rapidité qui impacte directement l’expérience utilisateur.
Fenêtre de contexte : Le modèle peut-il traiter des prompts longs et complexes ? Les modèles GPT-OSS disposent d’une fenêtre de contexte massive de 131 072 tokens, et nous devions nous assurer que notre déploiement supporte pleinement ses capacités.
Qualité du modèle : Notre optimisation préserve-t-elle les capacités fondamentales du modèle, telles que l’appel de fonctions (également appelé appel d’outils) et les sorties structurées/JSON ? Nous avons activé le raisonnement et veillé à ce que notre déploiement n’introduise pas d’erreurs ni ne compromette la précision ou les capacités de raisonnement du modèle.

Les résultats : ce que nous avons accompli

Nos efforts ont porté leurs fruits. L’endpoint de Novita a obtenu un classement élevé dans le rapport d’Artificial Analysis GPT-OSS-120B (high) API Provider Performance Benchmarking & Analysis Report. Nous avons été reconnus comme le meilleur performeur sur les benchmarks de raisonnement AIME (American Invitational Mathematics Examination) et GPQA (Graduate-Level Google-Proof Q&A) . Novita a obtenu certains des scores de précision les plus élevés, et pour couronner le tout, nos coûts figuraient parmi les plus bas.

Titre : Classement des performances GPTOSS 120B AIME25x32 par fournisseur LLM
Source : Artificial Analysis

Titre : Classement des performances GPTOSS 120B GPQAx16 par fournisseur LLM
Source : Artificial Analysis

Le rapport a également mis en évidence nos prix compétitifs et notre rapidité :

Fenêtre de contexte : Notre endpoint supporte pleinement l’impressionnante fenêtre de contexte de 131 000 tokens du modèle
Temps de réponse total de bout en bout : 11,11 secondes

Titre : Temps de réponse de bout en bout vs Prix
Source : Artificial Analysis

Prix mixte : 0,20 $ par million de tokens, avec les tokens d’entrée à 0,10 $/M et les tokens de sortie à 0,50 $/M

Titre : Comparaison des prix d’entrée et de sortie
Source : Artificial Analysis

Nous sommes fiers d’apporter ce niveau de performance à la communauté open source et sommes impatients de voir ce que nos utilisateurs construiront grâce à la puissance d’un GPT-OSS optimisé.

Essayez l’endpoint GPT-OSS de Novita