Comment accéder à Qwen 3 localement ou via API : Un guide complet

Table des matières

Qu’est-ce que Qwen 3 ?
Architecture de la série Qwen 3
Benchmarks de la série Qwen 3
Comment accéder à Qwen 3 localement ?
Comment accéder à Qwen 3 via une API
Quelles méthodes vous conviennent ?

Parrainez vos amis sur Novita AI et vous gagnerez tous les deux 10 $ de crédits API LLM — jusqu’à 500 $ de récompenses au total.

Pour soutenir la communauté des développeurs, Qwen2.5-7B, Qwen 3 0.6B, Qwen 3 1.7B, Qwen 3 4B sont actuellement disponibles gratuitement sur Novita AI.

Qwen 3 est une famille de modèles de langage open source puissante et polyvalente développée par Alibaba. Avec une architecture de pointe et un raisonnement à double mode, elle est conçue pour servir à la fois les appareils en périphérie et les besoins des grandes entreprises. Cet article explore ses capacités, ses types de modèles et comment l’utiliser — soit localement, soit via une API.

Qu’est-ce que Qwen 3 ?

Qwen 3 est la famille de modèles de langage open source 2025 d’Alibaba, dotée de modes « réflexion » et « non-réflexion » interchangeables pour des performances de raisonnement et multilingues améliorées dans plus de 119 langues. La gamme de modèles Qwen 3 comprend :

Modèles denses :
Modèles Mixture-of-Experts (MoE) :
- Qwen 3 30B A3B
- Qwen 3 235B A22B

Open source et compatible commercial

Licence Apache 2.0, poids disponibles librement pour la recherche et l’utilisation commerciale. ### Noyau Transformer efficace

Décodeur seul avec Grouped‑Query‑Attention pour des économies de mémoire KV en contexte long jusqu’à 128 000 tokens. ### Modes « Réflexion / Non-réflexion » doubles

Chaîne de pensée détaillée quand c’est nécessaire, réponses directes rapides quand la vitesse compte. ### Corpus massif de 36 000 milliards de tokens

119 langues avec des données STEM et de code étendues pour des compétences de raisonnement et de programmation renforcées. ### Pré-entraînement en trois étapes

Compétences de base → enrichissement STEM → adaptation au contexte long de 32 000 tokens. ### Post-entraînement en quatre étapes

Long CoT SFT → RL de raisonnement → fusion de modes → alignement RLHF général. ### Suivi d’instructions multilingue

Performant en anglais et en chinois, robuste dans plus de 100 langues pour des applications mondiales. ### Préparation aux outils / agents

Schéma d’appel de fonction intégré pour décider et formater les invocations d’outils externes. ### Modalité texte entrée / texte sortie

Optimisé pour les tâches linguistiques aujourd’hui ; des variantes visuelles sont prévues pour les versions futures.

Architecture de la série Qwen 3

Benchmarks de la série Qwen 3

Les modèles à paramètres élevés comme Qwen-23B et Qwen-14B respectent systématiquement les règles, les modèles plus grands et les versions activant le raisonnement obtenant de meilleurs scores. Ces écarts dans les modèles à faible paramétrage peuvent provenir de limitations dans leurs capacités de raisonnement, car ils manquent de la capacité à exploiter pleinement les mécanismes de raisonnement, ce qui entraîne des performances sous-optimales.

Comment accéder à Qwen 3 localement ?

Configuration matérielle requise

Modèle	GPU recommandée	VRAM	vCPUs	RAM	Stockage
Qwen3-0.6B	RTX 3060 / T4	8 Go	4	8 Go	20 Go
Qwen3-1.7B	RTX 3060 / A5000	12–24 Go	6–8	16 Go	30 Go
Qwen3-4B	A100 40 Go / RTX 3090	24–40 Go	12+	24 Go	40 Go
Qwen3-8B	A100 80 Go / H100	40–80 Go	16+	48 Go	60 Go
Qwen3-14B	2× A100 80 Go / 1× H100	80 Go+	24+	64 Go	80 Go
Qwen3-30B (MoE)	2× H100 / 4× A100	160 Go	48+	128 Go	160 Go
Qwen3-32B	2× H100 / 4× A100	160 Go	64	160 Go	200 Go
Qwen3-235B (MoE)	8× H100 / 8× A100	640 Go	128+	512 Go	500+ Go

Guide d’installation étape par étape

# Step 1: Install Python and Create a Virtual Environment
# Ensure Python (>=3.8) is installed. Then create and activate a virtual environment.
python3 -m venv llama_env
source llama_env/bin/activate  # On Windows, use `llama_env\Scripts\activate`

# Step 2: Install Required Libraries
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118  # For GPU optimization
pip install bitsandbytes  # Efficient GPU memory utilization

# Step 3: Install the Hugging Face CLI and Log In
pip install huggingface-cli
huggingface-cli login  # Follow the prompts to authenticate

# Step 4: Request Access to Llama-3.3 70B
# Visit the Hugging Face model page for Llama-3.3 70B and request access.
# URL: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

# Step 5: Download the Model Files
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct

# Step 6: Load the Model Locally
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Model ID and local directory path
model_id = "meta-llama/Llama-3.3-70B-Instruct"
local_model_dir = "./Llama-3.3-70B-Instruct"

# Load the model with GPU optimization
model = AutoModelForCausalLM.from_pretrained(
    local_model_dir,
    device_map="auto",          # Automatically map model layers to GPU(s)
    torch_dtype=torch.bfloat16  # Use bfloat16 for efficient memory usage
)

# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(local_model_dir)

# Step 7: Run Inference
# Define input text
input_text = "Explain the theory of relativity in simple terms."

# Tokenize the input
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")  # Send inputs to GPU

# Generate a response
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_length=100,  # Set maximum response length
        temperature=0.7,  # Adjust creativity (lower = less creative, higher = more creative)
        top_k=50,         # Top-k sampling for diversity
    )

# Decode the output tokens
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Response:", response)

Comment accéder à Qwen 3 via une API

Novita AI propose une plateforme d’inférence abordable, fiable et simple avec l’API Llama 3.3 70B évolutive, permettant aux développeurs de créer des applications d’IA. Essayez la démo de l’API Novita AI Llama 3.3 70B dès aujourd’hui !

Option 1 : Intégration directe de l’API (exemple Python)

Essayez Qwen3 à prix très bas dès maintenant !

Fonctionnalités clés :

Point d’accès unifié : /v3/openai compatible avec le format de l’API Chat Completions d’OpenAI.
Contrôles flexibles : Ajustez la température, top-p, les pénalités, etc., pour des résultats sur mesure.
Streaming et traitement par lots : Choisissez le mode de réponse qui vous convient.

Option 2 : Flux de travail multi-agents avec l’OpenAI Agents SDK

Créez des systèmes multi-agents avancés en intégrant Novita AI avec l’OpenAI Agents SDK :

Prêt à l’emploi : Utilisez les LLM de Novita AI dans n’importe quel flux de travail OpenAI Agents.
Prend en charge les transferts, le routage et l’utilisation d’outils : Concevez des agents capables de déléguer, de trier ou d’exécuter des fonctions, le tout alimenté par les modèles de Novita AI.
Intégration Python : Pointez simplement le SDK vers le point d’accès de Novita (https://api.novita.ai/v3/openai) et utilisez votre clé API.

Connectez l’API Qwen 3 sur des plateformes tierces

Hugging Face : Utilisez Qwen 3 dans Spaces, les pipelines ou avec la bibliothèque Transformers via les points d’accès Novita AI.

Frameworks d’agents et d’orchestration : Connectez facilement Novita AI aux plateformes partenaires comme Continue, AnythingLLM, LangChain, Dify et Langflow grâce à des connecteurs officiels et des guides d’intégration pas à pas.
API compatible OpenAI : Profitez d’une migration et d’une intégration sans effort avec des outils comme Cline et Cursor, conçus pour la norme de l’API OpenAI.

Quelles méthodes vous conviennent ?

Comparaison entre accès local et accès API


Aspect	Accès local
Passage à l’échelle	Limite ; nécessite des mises à niveau manuelles.
Flexibilité	Flexibilité élevée ; contrôle total des réglages.
Utilisabilité	Nécessite une expertise technique.
Coût	Coût initial élevé, coûts récurrents faibles. Idéal pour une utilisation à long terme.

Recommandations pour différents groupes d’utilisateurs

Chercheurs → Privilégient l’accès local pour un contrôle total et une flexibilité expérimentale.
Développeurs → Utilisez l’API pour des tests rapides et la création d’applications ; optez pour le local pour un entraînement personnalisé.
Entreprises → L’API est idéale pour une intégration facile ; le local convient aux équipes ayant des besoins stables.
Petites équipes et particuliers → L’API est plus économique et plus facile à démarrer.
Utilisateurs non techniques → Optez définitivement pour l’API — aucune configuration complexe nécessaire.

Que vous soyez chercheur, développeur ou équipe commerciale, Qwen 3 s’adapte à vos besoins. L’accès local offre contrôle et personnalisation, tandis que les API offrent une évolutivité immédiate et une barrière d’entrée faible. La conception de Qwen 3 garantit des capacités multilingues, de raisonnement et d’augmentation par outils solides pour des tâches réelles.

Questions fréquentes

Qu’est-ce qui différencie Qwen 3 des autres LLM ?

Il prend en charge des modes de pensée doubles, un suivi d’instructions multilingue performant et un contexte long (128 000 tokens), avec des poids ouverts et une licence compatible commerciale.

Puis-je exécuter Qwen 3 sur mon PC ?

Seuls les plus petits modèles (ex. 0.6B) sont adaptés aux GPU grand public. Les modèles plus grands nécessitent des configurations A100/H100.

L’accès par API est-il plus facile ?

Oui ! Novita AI et Hugging Face proposent des API Qwen 3 à faible coût et prêtes à l’emploi — parfaites pour une intégration rapide et une faible latence.

Novita AI est la plateforme cloud tout-en-un qui propulse vos ambitions en IA. API intégrées, sans serveur, instances GPU — les outils rentables dont vous avez besoin. Éliminez l’infrastructure, commencez gratuitement et faites de votre vision IA une réalité.

Comment accéder à Qwen 3 localement ou via API : Un guide complet