Qwen3-Next-80B-A3B sur Novita AI : Modèle MoE nouvelle génération à haute sparsité

Table des matières

La série Qwen3-Next
Benchmarks de performance de Qwen3-Next-80B-A3B
Comment accéder à Qwen3-Next-80B-A3B sur Novita AI
Conclusion

Les grands modèles linguistiques ont toujours été confrontés à un compromis fondamental : plus de paramètres signifient de meilleures performances, mais aussi des coûts plus élevés et une inférence plus lente. Qwen3-Next-80B-A3B rompt totalement cette règle.

Avec 80 milliards de paramètres totaux mais seulement 3 milliards actifs pendant l’inférence, ce modèle MoE ultra-sparse surpasse le Qwen3-32B tout en utilisant moins d’un dixième des ressources d’entraînement. Son architecture révolutionnaire — dotée d’une Attention Hybride, d’une sparsité MoE 1:50 et d’une Prédiction multi-jetons (MTP) — offre une inférence plus de 10 fois plus rapide sur des contextes longs.

Novita AI propose désormais deux variantes de la série Qwen3-Next :

qwen/qwen3-next-80b-a3b-instruct : 0,15 $ par million de tokens d’entrée, 1,5 $ par million de tokens de sortie
qwen/qwen3-next-80b-a3b-thinking:0,15 $ par million de tokens d’entrée, 1,5 $ par million de tokens de sortie

Les deux modèles sont prêts à être utilisés via la plateforme Novita AI, que vous fassiez des expériences dans le playground ou que vous les intégriez via API — aucune configuration d’infrastructure n’est requise.

La série Qwen3-Next

La série Qwen3-Next représente des modèles fondateurs de nouvelle génération, optimisés pour des longueurs de contexte extrêmes et une efficacité paramétrique à grande échelle. Cette série révolutionnaire introduit des innovations architecturales conçues pour maximiser les performances tout en minimisant le coût computationnel :

Source : Blog officiel Qwen3-Next

Attention Hybride : Remplace l’attention standard par la combinaison du Gated DeltaNet et du Gated Attention, permettant une modélisation efficace du contexte.
MoE à haute sparsité : Atteint un ratio d’activation extrêmement faible de 1:50 dans les couches MoE — réduisant drastiquement le nombre de FLOPs par token tout en préservant la capacité du modèle.
Prédiction multi-jetons (MTP) : Améliore les performances du modèle en pré-entraînement et accélère l’inférence.
Autres optimisations : Inclut des techniques telles que la layernorm centrée sur zéro et avec décroissance de poids, le Gated Attention et d’autres améliorations de stabilisation pour un entraînement robuste.

Construit sur cette architecture, Qwen3-Next-80B-A3B dispose de 80 milliards de paramètres totaux avec seulement 3 milliards actifs — atteignant une sparsité et une efficacité extrêmes.

Malgré son ultra-efficacité, il surpasse le Qwen3-32B sur les tâches en aval tout en nécessitant moins d’un dixième du coût d’entraînement. De plus, il offre un débit d’inférence plus de 10 fois supérieur au Qwen3-32B lors du traitement de contextes de plus de 32K tokens.

Benchmarks de performance de Qwen3-Next-80B-A3B

Performance du modèle Instruct

Source : Blog officiel Qwen3-Next

Performance du modèle Thinking

Source : Blog officiel Qwen3-Next

Comment accéder à Qwen3-Next-80B-A3B sur Novita AI

Accédez au modèle révolutionnaire Qwen3-Next-80B-A3B via l’infrastructure de Novita AI — en tirant parti de la sparsité extrême pour une efficacité sans précédent. La plateforme Novita AI élimine la complexité de déploiement tout en permettant de tirer parti de tout le potentiel de cette architecture de nouvelle génération.

Utiliser le Playground (aucun code requis)

Accès instantané : Inscrivez-vous et commencez à expérimenter avec Qwen3-Next-80B-A3B en quelques secondes via l’interface web de Novita AI — aucune configuration d’infrastructure n’est requise.

Test interactif : Découvrez le mécanisme d’Attention Hybride du modèle et les capacités de Prédiction multi-jetons via l’interface intuitive du Playground de Novita AI.

Options de configuration clés :

max_tokens : Testez les capacités exceptionnelles de gestion de longs contextes de Qwen3-Next
temperature & top_p : Ajustez la créativité et la diversité des réponses
System Prompt : Personnalisez le comportement du modèle instantanément
Function Calling : Testez l’intégration d’outils directement dans le Playground

Comparaison de modèles : Basculez entre les variantes Qwen3-Next-80B-A3B-Instruct et Thinking, ou comparez avec d’autres modèles disponibles sur Novita AI pour évaluer les performances pour vos cas d’usage.

Intégration via API (pour les développeurs)

Connectez Qwen3-Next-80B-A3B à vos applications via l’API REST de Novita AI — en bénéficiant du débit d’inférence 10x supérieur du modèle sur les longs contextes sans avoir à gérer d’infrastructure.

Option 1 : Intégration API directe (exemple Python)

Accédez à l’architecture efficace de Qwen3-Next via le point de terminaison compatible OpenAI de Novita AI :

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="your_api_key_here",
)

model = "qwen/qwen3-next-80b-a3b-instruct"
stream = True  # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
        "top_k": top_k,
        "repetition_penalty": repetition_penalty,
        "min_p": min_p
    }
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Fonctionnalités de la plateforme :

Point de terminaison compatible OpenAI : /v3/openai pour une intégration transparente
Paramètres flexibles : Contrôlez la génération avec la température, le top-p, les pénalités et plus encore
Prise en charge du streaming : Choisissez entre des réponses en streaming ou par lots
Sélection de modèles : Accédez aux variantes instruct et thinking

Option 2 : Workflows multi-agents avec OpenAI Agents SDK

Construisez des systèmes d’agents qui tirent parti de l’efficacité de Qwen3-Next via l’infrastructure de Novita AI :

Compatibilité avec l’OpenAI Agents SDK : Utilisez l’OpenAI Agents SDK avec le point de terminaison de Novita pour des workflows d’agents
Capacités d’agents : Concevez des systèmes qui bénéficient de la sparsité extrême et des performances sur longs contextes
Intégration simple : Pointez le SDK vers https://api.novita.ai/v3/openai

Intégrations tierces

Intégration de frameworks : Accédez à Qwen3-Next-80B-A3B via LangChain, Dify et Langflow
Outils de développement : Compatible avec les outils standards OpenAI, notamment Trae, Claude Code, Qwen Code, Cline et Cursor
Écosystème Hugging Face : Intégrez dans les Spaces et les pipelines via l’API de Novita AI

Conclusion

Qwen3-Next-80B-A3B représente bien plus qu’un simple modèle efficace — il démontre que l’innovation architecturale peut offrir des capacités à l’échelle de l’entreprise sans coûts à l’échelle de l’entreprise.

Disponible dès maintenant sur Novita AI, les variantes instruct et thinking sont prêtes à être utilisées immédiatement. Accédez à 80 milliards de paramètres d’intelligence avec la vitesse et le coût d’un modèle de 3 milliards de paramètres via le Playground, l’API ou les intégrations tierces de Novita AI.

Découvrez le futur de l’IA efficace dès aujourd’hui avec Qwen3-Next-80B-A3B sur Novita AI.

Novita AI est une plateforme cloud IA leader qui fournit aux développeurs des API faciles à utiliser et une infrastructure GPU abordable et fiable pour construire et mettre à l’échelle des applications IA.

Qwen3-Next-80B-A3B sur Novita AI : Modèle MoE nouvelle génération à haute sparsité

La série Qwen3-Next