Qwen3.5-397B-A17B offre une intelligence multimodale de pointe avec seulement 17B de paramètres actifs par jeton — ce qui en fait le moyen le plus efficace pour les développeurs d’accéder à d’excellentes capacités pour les tâches vision-langage et les workflows agentiques. Sur Novita AI, vous bénéficiez d’un accès API compatible OpenAI à partir de 0,60 $ / 3,60 $ par million de jetons, avec un SLA de disponibilité de 99,5 % et aucune gestion d’infrastructure.
Réponse rapide : Qwen3.5-397B-A17B est idéal pour les applications multimodales de production nécessitant une compréhension vision-langage, des workflows agentiques et un support multilingue. Avec l’API serverless de Novita, vous êtes opérationnel en moins de 2 minutes sans provisionnement de GPU.
Architecture du modèle Qwen3.5-397B-A17B
Qwen3.5-397B-A17B combine plusieurs innovations architecturales révolutionnaires en un modèle de fondation multimodal natif qui traite le texte, les images et la vidéo via un apprentissage unifié précoce (early-fusion).
| Composant | Spécification |
|---|---|
| Paramètres totaux | 403B |
| Paramètres actifs | 17B par jeton |
| Architecture MoE | 512 experts, 10 routés + 1 partagé actif |
| Mécanisme d’attention | Gated DeltaNet + Attention globale |
| Fenêtre de contexte | 262 144 jetons (native) |
| Support multimodal | Texte, Image, Vidéo |
| Langues | 201 langues/dialectes |
Le modèle utilise une structure de 60 couches avec 15 blocs, chacun contenant 3 couches Gated DeltaNet + MoE suivies d’une couche Gated Attention + MoE. Les couches Gated DeltaNet gèrent 64 têtes d’attention linéaires pour les valeurs et 16 pour les paires requête-clé, réduisant considérablement la complexité quadratique de l’attention traditionnelle. L’attention gated traditionnelle (32 têtes pour les requêtes, 2 pour les clés-valeurs) n’apparaît qu’une fois tous les quatre blocs, optimisant le débit de décodage. Cette conception atteint un gain de vitesse de 8,6x à un contexte de 32K et de 19x à un contexte de 256K par rapport à Qwen3-Max, ce qui la rend pratique pour les applications en temps réel nécessitant un traitement de longs contextes.
Essayez dès maintenant Qwen3.5-397B-A17B
Benchmarks de Qwen3.5-397B-A17B
| Benchmark | Score | Position relative | Ce que cela suggère |
|---|---|---|---|
| MultiChallenge | 67,6 | Au-dessus de GPT 5.2 et Gemini 3 Pro | Forte coordination multi-étapes |
| NOVA-63 | 59,1 | Premier plan | Raisonnement cross-lingue robuste |
| PolyMATH | 73,3 | Juste en dessous de Gemini 3 Pro | Raisonnement symbolique cross-langue fort |
| WMT24++ | 78,9 | Premier plan | Alignement sémantique fiable |
| MMLU-ProX | 84,7 | Premier plan | Raisonnement factuel cross-langue stable |
| BrowseComp | 69,0 / 78,6 | Premier plan | Force de récupération + synthèse |
| SecCodeBench | 68,3 | Juste en dessous de GPT 5.2 | Raisonnement sur la sécurité du code |
| LongBench v2 | 63,2 | 3e | Stabilité d’intégration des longs contextes |
Les avantages relatifs les plus forts de Qwen3.5 apparaissent dans l’intégration de tâches complexes et le raisonnement multilingue, où il atteint ou mène le haut du classement, y compris en surpassant GPT5.2 et Gemini-3 Pro sur MultiChallenge et NOVA-63. Il reste constamment compétitif dans les domaines de la connaissance multilingue, de la traduction, de la synthèse basée sur la navigation et du codage sécurisé. Globalement, il correspond au profil d’un modèle de coordination multi-étapes et cross-langue avec une large généralisation plutôt qu’une dominance ponctuelle sur un seul domaine.
Points forts de Qwen3.5-397B-A17B
1. Applications multimodales & vision-langage
Le modèle surpasse GPT-4 et Gemini 3 Pro dans les tâches de suivi d’instructions et de raisonnement visuel. Idéal pour la compréhension de documents, les systèmes de questions-réponses visuelles, les pipelines d’analyse vidéo et les applications RAG multimodales.
2. Workflows agentiques & utilisation d’outils
Compétitif avec les meilleurs modèles dans les tâches d’utilisation d’outils agentiques. La précision du suivi d’instructions du modèle le rend bien adapté aux systèmes autonomes, à l’orchestration d’API et aux workflows complexes multi-étapes.
3. Inférence à haut débit
Avec un décodage plus rapide que Qwen3-Max, le modèle gère efficacement les charges de travail de production à haute concurrence. Parfait pour les chatbots orientés clients, l’analyse vidéo en temps réel et les pipelines de traitement par lots.
4. Déploiement multilingue mondial
Le support natif de 201 langues avec des scores WMT24++ élevés en fait le choix de prédilection pour les applications internationales nécessitant une compréhension et une traduction multilingues.
Exécution de Qwen3.5-397B-A17B sur Novita AI
Novita AI fournit un accès API serverless compatible OpenAI sans aucune gestion d’infrastructure. Vous êtes opérationnel pour des charges de travail de production en moins de 2 minutes.

Novita est répertorié comme l’un des principaux fournisseurs sur Hugging Face.
Tarifs & analyse des coûts
| Niveau | Coût d’entrée | Coût de sortie | Idéal pour |
|---|---|---|---|
| Novita AI | 0,60 $ / 1M tokens | 3,60 $ / 1M tokens | Inférence en production, SLA haute disponibilité |
Exemple de coût : Traitement de 10 000 requêtes multimodales (en moyenne 1K tokens d’entrée + 500 tokens de sortie chacune) = 24 $ au total (6 $ d’entrée + 18 $ de sortie). Avec un débit de 50 tokens/seconde du modèle, prévoyez environ 10 secondes par requête en moyenne.
Étape 1 : Connectez-vous et accédez à la bibliothèque de modèles
Connectez-vous à votre compte et cliquez sur le bouton Model Library.

Étape 2 : Choisissez votre modèle
Parcourez les options disponibles et sélectionnez le modèle qui correspond à vos besoins.

Étape 3 : Commencez votre essai gratuit
Démarrez votre essai gratuit pour explorer les capacités du modèle sélectionné.

Essayez dès maintenant Qwen3.5-397B-A17B
Étape 4 : Obtenez votre clé API
Pour vous authentifier auprès de l’API, nous vous fournirons une nouvelle clé API. Rendez-vous dans la page « Settings » et copiez la clé API comme indiqué sur l’image.

Étape 5 : Installez l’API
Après l’installation, importez les bibliothèques nécessaires dans votre environnement de développement. Initialisez l’API avec votre clé API pour commencer à interagir avec le LLM de Novita AI. Voici un exemple d’utilisation de l’API de chat completions pour les utilisateurs Python.
from openai import OpenAI
client = OpenAI(
api_key="<Votre clé API>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="qwen/qwen3.5-397b-a17b",
messages=[
{"role": "system", "content": "Vous êtes un assistant utile."},
{"role": "user", "content": "Bonjour, comment allez-vous ?"}
],
max_tokens=64000,
temperature=0.7
)
print(response.choices[0].message.content)
Connectez facilement Novita AI avec des plateformes partenaires comme Claude Code, Trae, Continue, Codex, OpenCode, AnythingLLM, LangChain, Dify, Langflow, et OpenClaw grâce à des intégrations API et des guides de configuration étape par étape.
Entrées multimodales (image et vidéo) de Qwen3.5-397B-A17B

Essayez dès maintenant Qwen3.5-397B-A17B
Pourquoi choisir Novita AI pour Qwen3.5-397B-A17B
| Avantage | Détails |
|---|---|
| Rentabilité | 0,60 $ / 3,60 $ par million de jetons avec facturation transparente à l’utilisation, sans engagement minimum |
| Zéro gestion d’infrastructure | L’API serverless gère la mise à l’échelle automatique, l’équilibrage de charge, le provisionnement GPU — vous écrivez le code, Novita s’occupe des opérations |
| Compatible OpenAI | Remplacement direct — modifiez l’URL de base, conservez le code existant. Même SDK, même format API |
| Fiabilité de niveau production | SLA de disponibilité de 99,5 %, clusters GPU redondants, infrastructure de niveau entreprise |
| Conformité mondiale | Conforme SOC 2, chiffrement des données en transit et au repos, pas d’apprentissage sur les données clients |
| Mises à jour rapides des modèles | Nouveaux modèles ajoutés quelques jours après leur sortie — accédez toujours aux dernières capacités d’IA |
Essayez dès maintenant Qwen3.5-397B-A17B
Conseils d’optimisation des performances
1. Gestion de la fenêtre de contexte
Respectez la fenêtre de contexte native de 262K pour une vitesse optimale. L’extension RoPE YaRN à 1 million de jetons ajoute une latence supplémentaire — ne l’utilisez que pour les tâches nécessitant explicitement un contexte ultra-long.
2. Gestion de la verbosité
Étant donné la forte verbosité du modèle, définissez toujours une limite max_tokens. Pour des sorties concises, ajoutez des instructions explicites : « Réponds en 3 points » ou utilisez une température < 0,5.
3. Traitement par lots
Tirez parti de la mise à l’échelle automatique serverless de Novita pour les charges de travail par lots. Traitez plusieurs requêtes simultanément — la plateforme gère l’équilibrage de charge sur les clusters GPU automatiquement.
4. Prétraitement multimodal
Pour les entrées image/vidéo, assurez-vous que les URLs sont accessibles publiquement ou utilisez l’encodage base64. Compressez les grandes vidéos avant les appels API pour réduire le temps de transfert.
5. Gestion des erreurs et tentatives
Implémentez un backoff exponentiel pour les limites de débit. Novita garantit un SLA de disponibilité de 99,5 %, mais gérez toujours les erreurs transitoires avec élégance dans le code de production.
En résumé : Pour les développeurs qui construisent des applications multimodales, des workflows agentiques ou des systèmes multilingues, Qwen3.5-397B-A17B sur Novita AI offre le meilleur équilibre entre capacité, rapidité et coût. Commencez avec l’API compatible OpenAI — vous êtes opérationnel en 2 minutes avec une infrastructure prête pour la production.
Questions fréquentes
Qwen3.5-397B-A17B est-il adapté aux tâches de long contexte ?
Oui. Qwen3.5-397B-A17B prend en charge une fenêtre de contexte native de 262K, ce qui lui permet de traiter efficacement les longs documents, les pipelines de récupération et les tâches complexes multi-étapes.
Comment exécuter Qwen3.5-397B-A17B sur Novita AI ?
Vous pouvez déployer Qwen3.5-397B-A17B sur Novita AI via une API compatible OpenAI en générant une clé API, en sélectionnant le modèle sur la plateforme et en l’appelant avec un code standard de chat completions.
À quoi sert le mieux Qwen3.5-397B-A17B ?
Qwen3.5-397B-A17B est conçu pour les applications multimodales telles que la compréhension de documents, le raisonnement visuel, les tâches multilingues et les workflows agentiques qui nécessitent un bon suivi des instructions.
Novita AI est une plateforme cloud d’IA et d’agents qui aide les développeurs et les startups à construire, déployer et mettre à l’échelle des modèles et des applications agentiques avec haute performance, fiabilité et rentabilité.
Lecture recommandée
