Utilisez Qwen3.6-27B lorsque vous voulez une référence dense Qwen3.6 de base et une comparaison simple entre modèles. Utilisez Qwen3.6-35B-A3B lorsque le coût d’entrée et de sortie est assez important pour tester d’abord l’option MoE sparse. Sur Novita AI, les deux modèles sont disponibles en tant que LLM Serverless via le endpoint chat/completions, et affichent actuellement la même fenêtre de contexte de 262 144 tokens et un maximum de 65 536 tokens de sortie. Le choix ne porte pas sur la longueur du contexte. Il porte sur l’architecture, le prix par token, les besoins de modalité et les performances de chaque modèle sur vos propres prompts.
Qwen3.6 27B vs 35B-A3B : comparaison rapide
| Catégorie | Qwen3.6-27B | Qwen3.6-35B-A3B | Ce que cela signifie |
|---|---|---|---|
| ID du modèle sur Novita AI | qwen/qwen3.6-27b |
qwen/qwen3.6-35b-a3b |
Gardez les ID de modèle configurables pour pouvoir tester les deux sans modifier le code. |
| Disponibilité sur Novita AI | LLM Serverless | LLM Serverless | Les deux sont disponibles via Novita AI sans auto-hébergement. |
| Famille de endpoints | chat/completions |
chat/completions |
Vous pouvez les comparer sans changer le chemin d’API. |
| Architecture sur Novita AI | Modèle dense natif vision-langage | Modèle natif vision-langage avec architecture MoE sparse | Commencez par le modèle dense pour une base propre ; testez 35B-A3B lorsque l’architecture sparse et le coût entrent en jeu. |
| Fonctionnalités listées par Novita AI | Serverless, appel de fonctions, sorties structurées, raisonnement | Serverless, appel de fonctions, sorties structurées, raisonnement | Les deux nécessitent une validation par tâche avant utilisation en production. |
| Fenêtre de contexte listée par Novita AI | 262 144 tokens | 262 144 tokens | La longueur du contexte ne sépare pas ces deux modèles. |
| Tokens de sortie max listés par Novita AI | 65 536 tokens | 65 536 tokens | Les longues complétions sont possibles, mais le budget de sortie nécessite des garde-fous. |
| Modalités d’entrée listées par Novita AI | Texte, image, vidéo | Texte, image, vidéo | Ne considérez aucun des modèles comme textuel uniquement. Testez vos entrées médias réelles avant de basculer. |
| Modalité de sortie listée par Novita AI | Texte | Texte | Les deux sont listés pour une sortie textuelle. |
| Prix listé par Novita AI | 0,60 $ / M tokens d’entrée, 3,60 $ / M tokens de sortie | 0,248 $ / M tokens d’entrée, 1,485 $ / M tokens de sortie | 35B-A3B a des prix d’entrée et de sortie plus bas dans l’instantané vérifié. |
| Meilleur premier test | Base de modèle dense, analyse technique, réponses structurées longues | Tâches à forte consommation d’entrée sensibles au coût, routage, extraction, expériences comparatives | Exécutez les deux sur vos propres prompts avant de choisir un modèle par défaut. |
Qwen3.6-27B sur Novita AI
Qwen3.6-27B sur Novita AI est listé avec l’ID qwen/qwen3.6-27b. Sa page produit sur Novita AI le décrit comme un modèle dense natif vision-langage et liste les entrées texte, image et vidéo avec sortie texte.
C’est la référence la plus propre lorsque vous voulez comparer le comportement de Qwen3.6 sans ajouter l’architecture MoE sparse à la discussion. Utilisez-le en premier si votre équipe a besoin d’un point de référence stable pour l’analyse technique, les réponses structurées, les prompts de type référentiel ou les workflows d’assistant développeur longs.
La contrepartie est le prix. Dans la liste actuelle de Novita AI, Qwen3.6-27B a un prix par token d’entrée et de sortie plus élevé que Qwen3.6-35B-A3B. Cela n’en fait pas le mauvais choix. Cela signifie que vous devez comparer le coût par réponse acceptée, et pas seulement le coût par million de tokens.
Qwen3.6-35B-A3B sur Novita AI
Qwen3.6-35B-A3B sur Novita AI est listé avec l’ID qwen/qwen3.6-35b-a3b. Sa page produit sur Novita AI le décrit comme un modèle natif vision-langage construit sur une architecture hybride combinant attention linéaire et un framework sparse mixture-of-experts. Novita AI le qualifie également de MoE et liste les entrées texte, image et vidéo avec sortie texte.
C’est le modèle à tester lorsque l’économie unitaire est centrale dans la décision. Ses prix d’entrée et de sortie listés sont inférieurs à ceux de Qwen3.6-27B dans l’instantané actuel de Novita AI. C’est donc un candidat naturel pour le routage à haut volume, l’extraction, la classification et autres charges de travail où la taille des entrées ou le volume de requêtes détermine le coût.
Ne transformez pas cela en une affirmation de qualité générale. Qwen3.6-35B-A3B doit encore passer vos vérifications de qualité, de formatage, de latence et de taux de nouvelles tentatives avant de devenir le modèle par défaut en production.
Comparaison des prix sur Novita AI
Novita AI liste actuellement ces prix pour les deux variantes de Qwen3.6 :
| Modèle | Prix d’entrée | Prix de sortie | Conclusion sur le coût |
|---|---|---|---|
| Qwen3.6-27B | 0,60 $ / M tokens | 3,60 $ / M tokens | Utiliser comme base de modèle dense et comparer la qualité des réponses acceptées au coût. |
| Qwen3.6-35B-A3B | 0,248 $ / M tokens | 1,485 $ / M tokens | Des prix unitaires plus bas le rendent attractif pour les tests à volume élevé. |
Ne vous arrêtez pas au tableau des prix. Une tarification par token plus basse n’est utile que si le modèle fournit des réponses exploitables. Des sorties plus longues, des nouvelles tentatives ou des appels de correction peuvent rapidement modifier la facture réelle.
Utilisez cette simple grille lors de vos tests :
| Question | Pourquoi c’est important |
|---|---|
| Combien de tokens d’entrée une requête typique utilise-t-elle ? | La recherche, la revue de code et l’analyse de documents peuvent être lourdes en entrée. |
| Combien de tokens de sortie le modèle produit-il ? | Les longues explications, correctifs et rapports structurés peuvent dominer le coût. |
| À quelle fréquence les nouvelles tentatives se produisent-elles ? | Le taux de nouvelles tentatives peut annuler un avantage de prix unitaire. |
| Le modèle suit-il le format de sortie requis ? | Du JSON invalide ou du Markdown mal formé peut ajouter des appels de correction. |
| La latence correspond-elle à l’objectif produit ? | Un prix par token plus bas ne garantit pas la bonne expérience utilisateur. |
Pour une estimation en production, calculez le coût à partir des logs plutôt que d’un prompt échantillon :
estimated_request_cost =
(input_tokens / 1,000,000 * current_input_price)
+
(output_tokens / 1,000,000 * current_output_price)
Comparez ensuite uniquement les tâches réussies. Une réponse bon marché mais échouée reste du gaspillage. Le coût par réponse acceptée est le chiffre qui doit être pris en compte dans une décision de production.
Quand utiliser Qwen3.6-27B
Utilisez Qwen3.6-27B lorsque vous voulez une base de modèle dense avant d’optimiser le coût. Cela est utile lorsque l’équipe définit encore la grille d’évaluation ou lorsque vous souhaitez un modèle de référence pour les tests de régression de prompts.
Les premiers tests appropriés incluent :
- analyse technique sur des prompts longs
- explications structurées pour les développeurs
- prompts de type référentiel où la cohérence compte
- expériences multimodales d’entrée nécessitant une sortie texte
- tests comparatifs où la simplicité de l’architecture compte
Le guide Qwen3.6-27B sur Novita AI existant couvre déjà le chemin de configuration du 27B. Utilisez cette page pour le contexte API propre au 27B, puis servez-vous de cette comparaison lorsque la décision est de savoir si vous devez conserver le 27B ou tester le 35B-A3B par défaut.
Quand utiliser Qwen3.6-35B-A3B
Utilisez Qwen3.6-35B-A3B lorsque le prix par token inférieur pourrait modifier l’économie de votre flux de travail. Il mérite un test précoce lorsque l’ensemble de prompts est volumineux, le nombre de requêtes élevé, ou que l’application peut tolérer une évaluation côte à côte avant le déploiement.
Les premiers tests appropriés incluent :
- classification à haut volume
- extraction à partir de grands lots de textes ou de prompts adossés à des médias
- routage et tri de prompts
- réponses courtes sur un contexte structuré
- charges de travail où le coût de la réponse acceptée compte plus que la simplicité du modèle
La contrepartie est simple : le prix n’a d’importance qu’une fois la réponse validée. Si le 35B-A3B nécessite plus de nouvelles tentatives, des sorties plus longues ou des appels de correction supplémentaires pour votre charge de travail, le prix unitaire inférieur ne se traduira pas par un coût de production inférieur.
Que vérifier avant de basculer
Exécutez les deux modèles côte à côte avant de modifier le trafic de production. Utilisez les mêmes prompts, instructions système, exigences de sortie et grille de notation.
| Domaine de test | Ce qu’il faut mesurer | Pourquoi c’est important |
|---|---|---|
| Précision de la tâche | Si la réponse est correcte par rapport à votre source de vérité | Le prix unitaire n’importe que si la qualité est acceptable. |
| Fiabilité du formatage | Validité JSON, structure Markdown ou cohérence des blocs de code | Les appels de correction ajoutent du coût et de la latence. |
| Comportement sur entrées longues | Si la réponse utilise des faits pertinents issus de tout le prompt | Les deux modèles listent un grand contexte, mais la rétention réelle nécessite des tests. |
| Comportement multimodal | Si les entrées image ou vidéo produisent des réponses textuelles exploitables | Les deux pages listent entrées texte, image et vidéo, mais votre flux multimédia nécessite une validation. |
| Longueur de sortie | Tokens de complétion par réponse acceptée | Le coût de sortie peut dominer dans les workflows d’assistant développeur. |
| Latence | Temps jusqu’au premier token et temps de réponse complet | La tarification ne vous dit pas si le produit semblera rapide. |
| Type d’échec | Refus, réponses vides, hallucinations ou sorties mal formées | Différents modèles échouent de différentes manières. |
Construisez un jeu de prompts avec 20 à 50 exemples. Incluez des prompts faciles, difficiles, longs, sensibles au formatage, des prompts multimodaux si votre produit les utilise, et quelques cas qui cassent déjà votre configuration actuelle.
Ne réécrivez pas les prompts et ne changez pas de modèle en même temps. Si la qualité bouge, vous devez savoir ce qui en est la cause.
Notes d’utilisation de l’API Novita
Les deux modèles utilisent le flux API LLM compatible OpenAI de Novita AI. La documentation de l’API LLM de Novita indique l’URL de base compatible OpenAI :
https://api.novita.ai/openai
Pour les complétions de chat, utilisez le chemin de endpoint documenté :
https://api.novita.ai/openai/v1/chat/completions
Les ID de modèle à comparer sont :
qwen/qwen3.6-27b
qwen/qwen3.6-35b-a3b
Si votre application utilise déjà le SDK OpenAI, gardez le premier test petit : définissez l’URL de base de Novita AI, transmettez votre clé API Novita et rendez l’ID du modèle configurable. Changez d’abord le modèle, puis ajustez les prompts.
Exemple Python
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key=os.environ["NOVITA_API_KEY"],
)
model = os.environ.get("NOVITA_MODEL", "qwen/qwen3.6-27b")
response = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": "You are a concise technical assistant.",
},
{
"role": "user",
"content": "Create a checklist for comparing two LLM API models before production migration.",
},
],
max_tokens=700,
)
print(response.choices[0].message.content)
Exemple cURL
curl "https://api.novita.ai/openai/v1/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${NOVITA_API_KEY}" \
-d '{
"model": "qwen/qwen3.6-35b-a3b",
"messages": [
{
"role": "user",
"content": "Compare a dense LLM and an A3B-style LLM for an input-heavy extraction workload."
}
],
"max_tokens": 700
}'
Notes de vérification pour la production
Avant de basculer le trafic, vérifiez à nouveau les pages des modèles en direct et les limites de votre compte. Les valeurs du catalogue de modèles peuvent changer, et la bonne réponse de production dépend à la fois des données du modèle listé et de vos propres logs.
Vérifiez ces éléments avant le déploiement :
- ID de modèles actuels
- disponibilité Serverless
- famille de endpoints
- modalités d’entrée et de sortie
- fenêtre de contexte et tokens de sortie max
- prix d’entrée et de sortie actuels
- comportement d’appel de fonctions et de sortie structurée sur votre format de requête
- taux de latence, de nouvelles tentatives, de longueur de sortie et de réponses acceptées
Dans la mesure du possible, gardez le rollback comme un changement de configuration d’ID de modèle.
FAQ
Quelle est la principale différence entre Qwen3.6-27B et Qwen3.6-35B-A3B ?
Qwen3.6-27B est listé comme un modèle dense natif vision-langage. Qwen3.6-35B-A3B est listé comme un modèle natif vision-langage avec architecture MoE sparse. Sur Novita AI, les deux modèles partagent actuellement la même famille de endpoints, la même fenêtre de contexte, les mêmes tokens de sortie max, les mêmes modalités d’entrée et la même modalité de sortie. La différence pratique réside donc dans l’architecture et le prix par token indiqué.
Qwen3.6-35B-A3B est-il disponible sur Novita AI ?
Oui. Novita AI liste Qwen3.6-35B-A3B comme LLM Serverless avec l’ID qwen/qwen3.6-35b-a3b et le endpoint chat/completions.
Qwen3.6-27B est-il disponible sur Novita AI ?
Oui. Novita AI liste Qwen3.6-27B comme LLM Serverless avec l’ID qwen/qwen3.6-27b et le endpoint chat/completions.
Quel modèle a la plus grande fenêtre de contexte ?
Novita AI liste actuellement à la fois Qwen3.6-27B et Qwen3.6-35B-A3B avec une fenêtre de contexte de 262 144 tokens et un maximum de 65 536 tokens de sortie.
Ces modèles peuvent-ils traiter des entrées image ou vidéo ?
Oui. Les pages de modèles actuelles de Novita AI listent le texte, l’image et la vidéo comme modalités d’entrée pour Qwen3.6-27B et Qwen3.6-35B-A3B. Les deux pages listent le texte comme modalité de sortie.
Quel modèle est le moins cher ?
Novita AI liste actuellement Qwen3.6-35B-A3B avec un prix par token d’entrée et de sortie inférieur à celui de Qwen3.6-27B. Comparez néanmoins le coût par réponse acceptée, car les nouvelles tentatives, la longueur des sorties et les échecs de formatage peuvent modifier le coût total du flux.
Dois-je remplacer Qwen3.6-27B par Qwen3.6-35B-A3B ?
Seulement après une évaluation côte à côte. Si 35B-A3B correspond à vos exigences de qualité et de fiabilité, ses prix plus bas en font un candidat sérieux. Si 27B produit de meilleures réponses acceptées pour votre tâche, conservez-le ou utilisez-le pour les flux où il est gagnant.
Les benchmarks prouvent-ils quel modèle est le meilleur ?
Aucune affirmation de benchmark n’est nécessaire pour cette décision. Utilisez votre propre jeu de prompts, mesures de latence, taux de réponses acceptées et logs de tokens pour choisir le modèle adapté à votre produit.
Articles recommandés
