Les modèles de langage de pointe Qwen 3 d’Alibaba sont désormais disponibles sur la plateforme d’API de modèles de Novita AI !
Voici la gamme actuelle de Qwen 3 et les prix sur Novita AI :
- Qwen3-235B-A22B: $0.20 / M tokens en entrée, $0.80 / M tokens en sortie
- Qwen3-30B-A3B: $0.10 / M tokens en entrée, $0.45 / M tokens en sortie
- Qwen3-32B: $0.10 / M tokens en entrée, $0.45 / M tokens en sortie
- Qwen3-14B: $0.07 / M tokens en entrée, $0.275 / M tokens en sortie
- Qwen3-8B: $0.035/ M tokens en entrée, $0.138 / M tokens en sortie
- Qwen3-4B: gratuit
- Qwen3-1.7B: gratuit
Alimentez vos chatbots, applications et workflows avec des modèles de langage de pointe—Qwen 3 n’est qu’à un appel API.
Qu’est-ce que Qwen 3 ?
Qwen 3 est la dernière et la plus avancée famille de grands modèles de langage développée par l’équipe Qwen d’Alibaba Cloud. S’appuyant sur l’expérience de QwQ et Qwen2.5, Qwen 3 établit une nouvelle norme pour l’IA open-source avec des améliorations majeures en matière de raisonnement, de multilinguisme et de capacités agentiques.

Principales fonctionnalités de Qwen 3
-
Modèles denses et Mixture-of-Experts (MoE) en différentes tailles : Qwen 3 est disponible en architectures denses et MoE, allant des modèles légers de 0.6B et 1.7B jusqu’aux variantes à grande échelle 32B (dense) et aux variantes phares 30B-A3B et 235B-A22B (MoE).
-
Modes de réflexion hybrides : Le modèle permet de basculer de manière transparente entre le mode pensée (pour un raisonnement logique complexe, étape par étape, les mathématiques et la génération de code) et le mode non-pensée (pour un chat général rapide et efficace).
-
Raisonnement considérablement amélioré : Qwen 3 surpasse les modèles Qwen précédents en mathématiques, génération de code et raisonnement logique de bon sens. Il offre également des budgets de raisonnement plus stables et contrôlables pour différentes tâches.
-
Alignement supérieur sur les préférences humaines : Le modèle excelle dans l’écriture créative, le jeu de rôle, les dialogues multi-tours et le suivi d’instructions, ce qui donne des conversations plus naturelles et engageantes.
-
Capacités agentiques avancées : Qwen 3 est conçu pour les workflows agentiques, prenant en charge une intégration transparente avec des outils externes et un appel de fonction précis dans les deux modes de raisonnement. Cela permet des performances de pointe dans des tâches complexes pilotées par des agents.
-
Support multilingue robuste : Prenant en charge 119 langues et dialectes, Qwen 3 est capable de suivre des instructions multilingues de haute qualité et de traduire, ouvrant la porte à des applications véritablement mondiales.

Benchmarks et performances
La série Qwen 3 démontre des performances de premier plan dans une suite complète de benchmarks IA, excellant en codage, mathématiques, raisonnement général et compréhension multilingue.
Modèle phare : Qwen3-235B-A22B
Le modèle phare, Qwen3-235B-A22B, obtient régulièrement les meilleurs ou presque meilleurs résultats par rapport aux modèles les plus avancés disponibles aujourd’hui, tels que DeepSeek-R1, OpenAI-01, OpenAI-o3-mini, Grok-3 Beta et Gemini-2.5-Pro.

Source : Qwen
- Raisonnement complexe : Résultats de premier plan sur ArenaHard (95,6), surpassant ou égalant tous les concurrents.
- Mathématiques : Résultats de premier plan sur AIME’24 (85,7) et AIME’25 (81,5), bien en avance sur la plupart des modèles commerciaux et open-source.
- Codage : Performance exceptionnelle sur LiveCodeBench (70,7) et CodeForces Elo (2056), confirmant sa force dans les tâches logicielles et algorithmiques.
- Capacités multilingues et générales : Qwen3-235B-A22B obtient de bons résultats sur LiveBench et MultiF, démontrant une compréhension robuste du monde réel et multilingue.
Autres modèles plus petits
Les innovations architecturales de Qwen 3 se traduisent également par des performances exceptionnelles pour des modèles de plus petite taille :

Source : Qwen
- Qwen3-32B (Dense) : Fournit des résultats juste derrière le modèle phare, surpassant toujours la plupart des modèles alternatifs dans toutes les catégories.
- Qwen3-30B-A3B (MoE) : Surpasse QwQ-32B, malgré l’utilisation d’un dixième seulement des paramètres activés—démontrant l’efficacité et le passage à l’échelle intelligent de Qwen.
- Qwen3-4B (Dense) : Même ce modèle compact peut rivaliser avec les performances de modèles beaucoup plus grands comme Qwen2.5-72B-Instruct, en particulier sur les tâches de raisonnement et multilingues.
Comment accéder à Qwen 3 sur Novita AI
Démarrer avec Qwen 3 est rapide, simple et sans risque sur Novita AI. Grâce au programme de parrainage, vous recevrez 10 $ de crédits gratuits—assez pour explorer pleinement la puissance de Qwen 3, construire des prototypes et même lancer votre premier cas d’utilisation sans aucun coût initial.
Utiliser le Playground (aucun codage requis)
- Accès instantané : Inscrivez-vous, réclamez vos crédits gratuits et commencez à expérimenter avec Qwen 3 et d’autres modèles de premier plan en quelques secondes.
- Interface interactive : Testez des prompts, le raisonnement en chaîne de pensée et visualisez les résultats en temps réel.
- Comparaison de modèles : Basculez facilement entre Qwen 3, Llama 4, DeepSeek et plus encore pour trouver la solution idéale pour vos besoins.
Intégrer via l’API (pour les développeurs)
Connectez Qwen 3 de manière transparente à vos applications, workflows ou chatbots avec l’API REST unifiée de Novita AI—pas besoin de gérer les poids du modèle ou l’infrastructure. Novita AI propose des SDK multi-langages (Python, Node.js, cURL, etc.) et des contrôles avancés des paramètres pour les utilisateurs expérimentés.
Option 1 : Intégration directe de l’API (exemple Python)
Pour commencer, utilisez simplement l’extrait de code ci-dessous :
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "qwen/qwen3-235b-a22b-fp8"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Fonctionnalités clés :
- Point d’accès unifié :
/v3/openaiprend en charge le format de l’API Chat Completions d’OpenAI. - Contrôles flexibles : Ajustez la température, top-p, les pénalités, etc. pour des résultats personnalisés.
- Streaming et traitement par lots : Choisissez votre mode de réponse préféré.
Option 2 : Workflows multi-agents avec le SDK OpenAI Agents
Construisez des systèmes multi-agents avancés en intégrant Novita AI avec le SDK OpenAI Agents :
- Prêt à l’emploi : Utilisez les LLM de Novita AI dans n’importe quel workflow OpenAI Agents.
- Prend en charge les transferts, le routage et l’utilisation d’outils : Concevez des agents capables de déléguer, trier ou exécuter des fonctions, tous alimentés par les modèles de Novita AI.
- Intégration Python : Pointez simplement le SDK vers l’endpoint de Novita (
https://api.novita.ai/v3/openai) et utilisez votre clé API.
Connecter l’API Qwen 3 sur des plateformes tierces
- Hugging Face : Utilisez Qwen 3 dans Spaces, pipelines ou avec la bibliothèque Transformers via les endpoints de Novita AI.
- Frameworks d’agents et d’orchestration : Connectez facilement Novita AI avec des plateformes partenaires comme Continue, AnythingLLM, LangChain, Dify et Langflow via des connecteurs officiels et des guides d’intégration étape par étape.
- API compatible OpenAI : Profitez d’une migration et d’une intégration sans tracas avec des outils tels que Cline et Cursor, conçus pour le standard de l’API OpenAI.
Bonnes pratiques pour des performances optimales de Qwen 3
- Paramètres d’échantillonnage
Mode Pensée
enable_thinking=True
Temperature : 0.6
TopP : 0.95
TopK : 20
MinP : 0
Astuce : Évitez le décodage glouton pour éviter une performance dégradée ou des sorties répétitives.
Mode Non-Pensée
enable_thinking=False
Temperature : 0.7
TopP : 0.8
TopK : 20
MinP : 0
Contrôle des répétitions
Pour les frameworks pris en charge, ajustez presence_penalty entre 0 et 2 pour réduire les répétitions.
Remarque : Des valeurs plus élevées peuvent provoquer un mélange de langues ou une légère baisse des performances du modèle.
- Recommandations sur la longueur de sortie
- Pour la plupart des requêtes, réglez la longueur de sortie à 32 768 tokens.
- Pour les tâches de benchmarking complexes (comme les compétitions de mathématiques ou de programmation), augmentez la longueur de sortie maximale à 38 912 tokens pour des réponses plus complètes.
- Normalisation du format de sortie
- Problèmes mathématiques : Incluez ceci dans votre prompt : “Veuillez raisonner étape par étape et placez votre réponse finale dans \oxed{}.”
- Questions à choix multiples : Normalisez les réponses en utilisant un champ JSON : “Veuillez indiquer votre choix dans le champ answer avec uniquement la lettre du choix, par exemple "answer": "C".”
- Gestion de l’historique de conversation
- Dans les conversations multi-tours, incluez uniquement la sortie finale dans l’historique du chat. Omettez tout contenu de « pensée » intermédiaire.
- Si vous utilisez un modèle de chat Jinja2, cela est géré automatiquement. Pour les autres frameworks, assurez-vous de suivre cette pratique manuellement.
En suivant ces recommandations, vous vous assurerez que Qwen 3 fournit systématiquement des résultats précis et de haute qualité dans tous les cas d’utilisation.
Conclusion
Qwen 3 offre des performances de premier ordre pour le codage, le raisonnement et les tâches multilingues—quelle que soit la taille du projet. Prêt à le voir en action ?
Essayez la démo de Qwen 3 sur Novita AI dès maintenant et réclamez vos crédits gratuits !
Novita AI est une plateforme cloud IA qui offre aux développeurs un moyen simple de déployer des modèles IA via notre API simple, tout en fournissant un cloud GPU abordable et fiable pour construire et passer à l’échelle.
