Les grands modèles linguistiques ont toujours été confrontés à un compromis fondamental : plus de paramètres signifient de meilleures performances, mais aussi des coûts plus élevés et une inférence plus lente. Qwen3-Next-80B-A3B rompt totalement cette règle.
Avec 80 milliards de paramètres totaux mais seulement 3 milliards actifs pendant l’inférence, ce modèle MoE ultra-sparse surpasse le Qwen3-32B tout en utilisant moins d’un dixième des ressources d’entraînement. Son architecture révolutionnaire — dotée d’une Attention Hybride, d’une sparsité MoE 1:50 et d’une Prédiction multi-jetons (MTP) — offre une inférence plus de 10 fois plus rapide sur des contextes longs.
Novita AI propose désormais deux variantes de la série Qwen3-Next :
- qwen/qwen3-next-80b-a3b-instruct : 0,15 $ par million de tokens d’entrée, 1,5 $ par million de tokens de sortie
- qwen/qwen3-next-80b-a3b-thinking:0,15 $ par million de tokens d’entrée, 1,5 $ par million de tokens de sortie
Les deux modèles sont prêts à être utilisés via la plateforme Novita AI, que vous fassiez des expériences dans le playground ou que vous les intégriez via API — aucune configuration d’infrastructure n’est requise.
La série Qwen3-Next
La série Qwen3-Next représente des modèles fondateurs de nouvelle génération, optimisés pour des longueurs de contexte extrêmes et une efficacité paramétrique à grande échelle. Cette série révolutionnaire introduit des innovations architecturales conçues pour maximiser les performances tout en minimisant le coût computationnel :

Source : Blog officiel Qwen3-Next
- Attention Hybride : Remplace l’attention standard par la combinaison du Gated DeltaNet et du Gated Attention, permettant une modélisation efficace du contexte.
- MoE à haute sparsité : Atteint un ratio d’activation extrêmement faible de 1:50 dans les couches MoE — réduisant drastiquement le nombre de FLOPs par token tout en préservant la capacité du modèle.
- Prédiction multi-jetons (MTP) : Améliore les performances du modèle en pré-entraînement et accélère l’inférence.
- Autres optimisations : Inclut des techniques telles que la layernorm centrée sur zéro et avec décroissance de poids, le Gated Attention et d’autres améliorations de stabilisation pour un entraînement robuste.
Construit sur cette architecture, Qwen3-Next-80B-A3B dispose de 80 milliards de paramètres totaux avec seulement 3 milliards actifs — atteignant une sparsité et une efficacité extrêmes.
Malgré son ultra-efficacité, il surpasse le Qwen3-32B sur les tâches en aval tout en nécessitant moins d’un dixième du coût d’entraînement. De plus, il offre un débit d’inférence plus de 10 fois supérieur au Qwen3-32B lors du traitement de contextes de plus de 32K tokens.
Benchmarks de performance de Qwen3-Next-80B-A3B
Performance du modèle Instruct

Source : Blog officiel Qwen3-Next
Performance du modèle Thinking

Source : Blog officiel Qwen3-Next
Comment accéder à Qwen3-Next-80B-A3B sur Novita AI
Accédez au modèle révolutionnaire Qwen3-Next-80B-A3B via l’infrastructure de Novita AI — en tirant parti de la sparsité extrême pour une efficacité sans précédent. La plateforme Novita AI élimine la complexité de déploiement tout en permettant de tirer parti de tout le potentiel de cette architecture de nouvelle génération.
Utiliser le Playground (aucun code requis)
Accès instantané : Inscrivez-vous et commencez à expérimenter avec Qwen3-Next-80B-A3B en quelques secondes via l’interface web de Novita AI — aucune configuration d’infrastructure n’est requise.
Test interactif : Découvrez le mécanisme d’Attention Hybride du modèle et les capacités de Prédiction multi-jetons via l’interface intuitive du Playground de Novita AI.
Options de configuration clés :
- max_tokens : Testez les capacités exceptionnelles de gestion de longs contextes de Qwen3-Next
- temperature & top_p : Ajustez la créativité et la diversité des réponses
- System Prompt : Personnalisez le comportement du modèle instantanément
- Function Calling : Testez l’intégration d’outils directement dans le Playground
Comparaison de modèles : Basculez entre les variantes Qwen3-Next-80B-A3B-Instruct et Thinking, ou comparez avec d’autres modèles disponibles sur Novita AI pour évaluer les performances pour vos cas d’usage.
Intégration via API (pour les développeurs)
Connectez Qwen3-Next-80B-A3B à vos applications via l’API REST de Novita AI — en bénéficiant du débit d’inférence 10x supérieur du modèle sur les longs contextes sans avoir à gérer d’infrastructure.
Option 1 : Intégration API directe (exemple Python)
Accédez à l’architecture efficace de Qwen3-Next via le point de terminaison compatible OpenAI de Novita AI :
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="your_api_key_here",
)
model = "qwen/qwen3-next-80b-a3b-instruct"
stream = True # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Fonctionnalités de la plateforme :
- Point de terminaison compatible OpenAI :
/v3/openaipour une intégration transparente - Paramètres flexibles : Contrôlez la génération avec la température, le top-p, les pénalités et plus encore
- Prise en charge du streaming : Choisissez entre des réponses en streaming ou par lots
- Sélection de modèles : Accédez aux variantes instruct et thinking
Option 2 : Workflows multi-agents avec OpenAI Agents SDK
Construisez des systèmes d’agents qui tirent parti de l’efficacité de Qwen3-Next via l’infrastructure de Novita AI :
- Compatibilité avec l’OpenAI Agents SDK : Utilisez l’OpenAI Agents SDK avec le point de terminaison de Novita pour des workflows d’agents
- Capacités d’agents : Concevez des systèmes qui bénéficient de la sparsité extrême et des performances sur longs contextes
- Intégration simple : Pointez le SDK vers
https://api.novita.ai/v3/openai
Intégrations tierces
- Intégration de frameworks : Accédez à Qwen3-Next-80B-A3B via LangChain, Dify et Langflow
- Outils de développement : Compatible avec les outils standards OpenAI, notamment Trae, Claude Code, Qwen Code, Cline et Cursor
- Écosystème Hugging Face : Intégrez dans les Spaces et les pipelines via l’API de Novita AI
Conclusion
Qwen3-Next-80B-A3B représente bien plus qu’un simple modèle efficace — il démontre que l’innovation architecturale peut offrir des capacités à l’échelle de l’entreprise sans coûts à l’échelle de l’entreprise.
Disponible dès maintenant sur Novita AI, les variantes instruct et thinking sont prêtes à être utilisées immédiatement. Accédez à 80 milliards de paramètres d’intelligence avec la vitesse et le coût d’un modèle de 3 milliards de paramètres via le Playground, l’API ou les intégrations tierces de Novita AI.
Découvrez le futur de l’IA efficace dès aujourd’hui avec Qwen3-Next-80B-A3B sur Novita AI.
Novita AI est une plateforme cloud IA leader qui fournit aux développeurs des API faciles à utiliser et une infrastructure GPU abordable et fiable pour construire et mettre à l’échelle des applications IA.
