Points clés
Multimodal + Compréhension de longues vidéos
Prend en charge les images, les documents et les longues vidéos
Adapté à l’éducation, aux médias, à la surveillance
Localisation précise + Sortie structurée
Détecte les objets avec précision
Extrait des données structurées de factures, formulaires, graphiques
Utile dans les secteurs de la finance, du droit, de la logistique
Vous pouvez commencer un essai gratuit sur l’API Novita AI de manière très pratique !
Qwen2.5-VL-72B-Instruct est un puissant modèle de vision-langage (LVLM) de 72 milliards de paramètres, affiné pour les tâches de suivi d’instructions. Il prend en charge les entrées textuelles et visuelles (images et vidéos), ce qui le rend idéal pour le raisonnement multimodal, la compréhension de documents, l’analyse vidéo et l’interaction agentique.
Qu’est-ce que Qwen2.5-VL-72B ?
Un exemple pour montrer la capacité de Qwen2.5-VL-72B
Entrée : Donnez la requête : « l’utilisateur expérimente la fonctionnalité de génération d’images », à quel moment le contenu décrit se produit-il dans la vidéo ? Utilisez les secondes pour le format du temps.
Sortie : Le contenu décrit se produit de la 28e à la 50e seconde de la vidéo. Pendant ce segment, l’utilisateur interagit avec la fonctionnalité de génération d’images, demandant et recevant une peinture de scène artistique double d’une montagne de jour et de nuit. L’utilisateur ajoute ensuite un oiseau à l’image générée, démontrant ainsi la fonctionnalité de l’outil de génération d’images.
Aperçu de Qwen2.5-VL-72B
| Catégorie | Élément | Détails |
|---|---|---|
| Infos de base | Date de sortie | 28 janvier 2025 |
| Taille du modèle | 73,4 milliards de paramètres | |
| Open source | Oui (publié par Qwen) | |
| Architecture | Composants principaux | Résolution dynamique et entraînement à taux d’images variable\SwiGLU + RMSNorm + Attention par fenêtre\Échantillonnage FPS dynamique |
| Support linguistique | Langues prises en charge | Excelle dans les documents multilingues et la reconnaissance de texte de scène |
| Multimodal | Capacité | Entrées visuelles (images et vidéos) et textuelles |
| Contexte | Fenêtre de contexte | Configurable jusqu’à 64K tokens pour les longues vidéos |
| Précision | Type de tenseur | BF16 |
| Benchmarks | MMMU (Image) | 70,2 (Qwen2.5-VL-72B) vs 70,3 (GPT-4o) |
| MVBench (Vidéo) | 70,4 (Qwen2.5-VL-72B) vs 64,6 (GPT-4o) | |
| AITZ_EM (Agent) | 83,2 (Qwen2.5-VL-72B) vs 35,3 (GPT-4o) |
Comment accéder à Qwen2.5-VL-72B en local ?
Configuration matérielle requise pour Qwen2.5-VL-72B
| Catégorie | Élément | Détails |
|---|---|---|
| Matériel | Nvidia A100 (80 Go) | 8 GPU × 80 Go = 640 Go de VRAM totale |
| Nvidia H100 (80 Go) | 8 GPU × 80 Go = 640 Go de VRAM totale | |
| RTX 4090 (24 Go) | 24 GPU × 24 Go = 576 Go de VRAM totale | |
| Nvidia L40S (48 Go) | 8 GPU × 48 Go = 384 Go de VRAM totale |
Installer Qwen2.5-VL-72B localement
1. Installer les dépendances
bashCopyEdit<code># Installer la dernière version de Hugging Face Transformers depuis la source (requis pour Qwen2.5-VL)<br>pip install git+https://github.com/huggingface/transformers accelerate<br><br># Installer la boîte à outils utilitaire de vision (recommandé avec decord pour un chargement rapide des vidéos)<br>pip install 'qwen-vl-utils[decord]==0.0.8'</code>
2. Utiliser Qwen2.5-VL pour la réponse à des questions visuelles
import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq
from qwen_vl_utils import load_image, load_video, build_multimodal_inputs
# 🔧 Nom du modèle (peut aussi être un chemin local)
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"
# Charger le tokenizer et le modèle
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_name, trust_remote_code=True).eval()
# Charger une image (peut être un chemin local, une URL ou du base64)
image = load_image("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg")
# Définir la requête
query = "Que se passe-t-il dans l'image ?"
# Construire les entrées pour le modèle
inputs = build_multimodal_inputs(tokenizer, query=query, images=[image])
# Inférence
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=128)
# Décoder et afficher la réponse
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Réponse :", response)
3. Exemple d’entrée vidéo
video = load_video("chemin_ou_url_vers_video.mp4")
query = "Résume le contenu de la vidéo."
inputs = build_multimodal_inputs(tokenizer, query=query, videos=[video])
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=128)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Réponse :", response)
Comment accéder à Qwen2.5-VL-72B via l’API Novita ?
Étape 1 : Connectez-vous et accédez à la bibliothèque de modèles
Connectez-vous à votre compte et cliquez sur le bouton Model Library.

Essayez maintenant la démo de Qwen2-VL-72B-Instruct !
Étape 2 : Commencez votre essai gratuit
Commencez votre essai gratuit pour explorer les capacités du modèle sélectionné.

Étape 3 : Obtenez votre clé API
Pour vous authentifier avec l’API, nous vous fournirons une nouvelle clé API. En entrant dans la page « Settings », vous pouvez copier la clé API comme indiqué sur l’image.

Étape 4 : Installez l’API
Installez l’API à l’aide du gestionnaire de paquets spécifique à votre langage de programmation.

Après l’installation, importez les bibliothèques nécessaires dans votre environnement de développement. Initialisez l’API avec votre clé API pour commencer à interagir avec Novita AI LLM. Voici un exemple d’utilisation de l’API de complétion de chat pour les utilisateurs Python.
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<VOTRE_CLÉ_API_Novita_AI>",
)
model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # ou False
max_tokens = 2048
system_content = """Sois un assistant utile"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Salut !",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Utiliser Qwen2.5-VL-72B via un GPU Cloud
Étape 1 : Créer un compte
Si vous êtes nouveau sur Novita AI, commencez par créer un compte sur notre site web. Une fois inscrit, rendez-vous dans l’onglet « GPUs » pour explorer les ressources disponibles et commencer votre parcours.

Étape 2 : Explorer les templates et les serveurs GPU
Commencez par sélectionner un template qui correspond aux besoins de votre projet, comme PyTorch, TensorFlow ou CUDA. Choisissez la version qui correspond à vos besoins, par exemple PyTorch 2.2.1 ou CUDA 11.8.0. Ensuite, sélectionnez la configuration du serveur GPU A100, qui offre des performances puissantes pour gérer des charges de travail exigeantes avec une VRAM, une RAM et une capacité de disque importantes.

Essayez les GPU haute performance de Novita AI
Étape 3 : Personnaliser votre déploiement
Après avoir sélectionné un template et un GPU, personnalisez les paramètres de déploiement en ajustant des paramètres comme la version du système d’exploitation (par exemple, CUDA 11.8). Vous pouvez également modifier d’autres configurations pour adapter l’environnement aux exigences spécifiques de votre projet.

Étape 4 : Lancer une instance
Une fois que vous avez finalisé le template et les paramètres de déploiement, cliquez sur « Launch Instance » pour configurer votre instance GPU. Cela démarrera la configuration de l’environnement, vous permettant de commencer à utiliser les ressources GPU pour vos tâches d’IA.

Qwen2.5-VL-72B-Instruct offre des performances de pointe sur un large éventail de tâches de vision-langage. Que vous automatisiez des workflows dans le secteur financier ou que vous analysiez des vidéos en temps réel, il allie profondeur, échelle et flexibilité. Grâce à un accès open source et à plusieurs voies de déploiement (GPU local, instances cloud ou API), Qwen2.5-VL permet aux développeurs et aux entreprises de construire des systèmes d’IA plus intelligents et plus performants.
Questions fréquemment posées
Puis-je déployer Qwen2.5-VL-72B-Instruct localement ?
Oui. Vous pouvez l’exécuter sur des machines disposant d’une VRAM suffisante (par exemple, 8×A100 ou 24×4090 GPU).
Comment utiliser Qwen2.5-VL-72B-Instruct via une API ?
Vous pouvez accéder à Qwen2.5-VL-72B-Instruct via la bibliothèque de modèles de Novita AI, commencer un essai gratuit et obtenir une clé API pour une intégration rapide.
Quelle est la différence entre Qwen2.5-VL-72B et Qwen2.5-VL-72B-Instruct ?
Le modèle de base gère les tâches générales de vision-langage ; la version « Instruct » est affinée pour suivre les instructions des utilisateurs avec plus de précision.
Novita AI est une plateforme cloud d’IA qui offre aux développeurs un moyen simple de déployer des modèles d’IA via notre API facile à utiliser, tout en fournissant un GPU cloud abordable et fiable pour construire et passer à l’échelle.
Lecture recommandée
- Qwen2.5-VL : un modèle de vision-langage puissant mais gourmand en RAM
- Qwen 2.5 72b vs Llama 3.3 70b : quel modèle correspond à vos besoins ?
- Qwen 2.5 vs Llama 3.2 90B : une analyse comparative des capacités de codage et de raisonnement d’image
API simples et GPU évolutif
Novita AI est une plateforme cloud d’IA qui offre aux développeurs un moyen simple de déployer des modèles d’IA via notre API facile à utiliser, tout en fournissant un GPU cloud abordable et fiable pour construire et passer à l’échelle.
