Tutoriel : Comment accéder à Qwen2.5-VL-72B en local, via API, sur GPU Cloud

Table des matières

Qu’est-ce que Qwen2.5-VL-72B ?
Comment accéder à Qwen2.5-VL-72B en local ?
Comment accéder à Qwen2.5-VL-72B via l’API Novita ?
Utiliser Qwen2.5-VL-72B via un GPU Cloud
Questions fréquemment posées
API simples et GPU évolutif

Points clés

Multimodal + Compréhension de longues vidéos
Prend en charge les images, les documents et les longues vidéos
Adapté à l’éducation, aux médias, à la surveillance

Localisation précise + Sortie structurée
Détecte les objets avec précision
Extrait des données structurées de factures, formulaires, graphiques
Utile dans les secteurs de la finance, du droit, de la logistique

Vous pouvez commencer un essai gratuit sur l’API Novita AI de manière très pratique !

Qwen2.5-VL-72B-Instruct est un puissant modèle de vision-langage (LVLM) de 72 milliards de paramètres, affiné pour les tâches de suivi d’instructions. Il prend en charge les entrées textuelles et visuelles (images et vidéos), ce qui le rend idéal pour le raisonnement multimodal, la compréhension de documents, l’analyse vidéo et l’interaction agentique.

Qu’est-ce que Qwen2.5-VL-72B ?

Un exemple pour montrer la capacité de Qwen2.5-VL-72B

Entrée : Donnez la requête : « l’utilisateur expérimente la fonctionnalité de génération d’images », à quel moment le contenu décrit se produit-il dans la vidéo ? Utilisez les secondes pour le format du temps.

https://videopress.com/v/jVcvFOlu?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Sortie : Le contenu décrit se produit de la 28e à la 50e seconde de la vidéo. Pendant ce segment, l’utilisateur interagit avec la fonctionnalité de génération d’images, demandant et recevant une peinture de scène artistique double d’une montagne de jour et de nuit. L’utilisateur ajoute ensuite un oiseau à l’image générée, démontrant ainsi la fonctionnalité de l’outil de génération d’images.

Aperçu de Qwen2.5-VL-72B

Catégorie	Élément	Détails
Infos de base	Date de sortie	28 janvier 2025
	Taille du modèle	73,4 milliards de paramètres
	Open source	Oui (publié par Qwen)
Architecture	Composants principaux	Résolution dynamique et entraînement à taux d’images variable\SwiGLU + RMSNorm + Attention par fenêtre\Échantillonnage FPS dynamique
Support linguistique	Langues prises en charge	Excelle dans les documents multilingues et la reconnaissance de texte de scène
Multimodal	Capacité	Entrées visuelles (images et vidéos) et textuelles
Contexte	Fenêtre de contexte	Configurable jusqu’à 64K tokens pour les longues vidéos
Précision	Type de tenseur	BF16
Benchmarks	MMMU (Image)	70,2 (Qwen2.5-VL-72B) vs 70,3 (GPT-4o)
	MVBench (Vidéo)	70,4 (Qwen2.5-VL-72B) vs 64,6 (GPT-4o)
	AITZ_EM (Agent)	83,2 (Qwen2.5-VL-72B) vs 35,3 (GPT-4o)

Comment accéder à Qwen2.5-VL-72B en local ?

Configuration matérielle requise pour Qwen2.5-VL-72B

Catégorie	Élément	Détails
Matériel	Nvidia A100 (80 Go)	8 GPU × 80 Go = 640 Go de VRAM totale
	Nvidia H100 (80 Go)	8 GPU × 80 Go = 640 Go de VRAM totale
	RTX 4090 (24 Go)	24 GPU × 24 Go = 576 Go de VRAM totale
	Nvidia L40S (48 Go)	8 GPU × 48 Go = 384 Go de VRAM totale

Installer Qwen2.5-VL-72B localement

1. Installer les dépendances

bashCopyEdit<code># Installer la dernière version de Hugging Face Transformers depuis la source (requis pour Qwen2.5-VL)<br>pip install git+https://github.com/huggingface/transformers accelerate<br><br># Installer la boîte à outils utilitaire de vision (recommandé avec decord pour un chargement rapide des vidéos)<br>pip install 'qwen-vl-utils[decord]==0.0.8'</code>

2. Utiliser Qwen2.5-VL pour la réponse à des questions visuelles

import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq
from qwen_vl_utils import load_image, load_video, build_multimodal_inputs

# 🔧 Nom du modèle (peut aussi être un chemin local)
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"

# Charger le tokenizer et le modèle
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_name, trust_remote_code=True).eval()

# Charger une image (peut être un chemin local, une URL ou du base64)
image = load_image("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg")

# Définir la requête
query = "Que se passe-t-il dans l'image ?"

# Construire les entrées pour le modèle
inputs = build_multimodal_inputs(tokenizer, query=query, images=[image])

# Inférence
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

# Décoder et afficher la réponse
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Réponse :", response)

3. Exemple d’entrée vidéo

video = load_video("chemin_ou_url_vers_video.mp4")
query = "Résume le contenu de la vidéo."

inputs = build_multimodal_inputs(tokenizer, query=query, videos=[video])

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Réponse :", response)

Comment accéder à Qwen2.5-VL-72B via l’API Novita ?

Étape 1 : Connectez-vous et accédez à la bibliothèque de modèles

Connectez-vous à votre compte et cliquez sur le bouton Model Library.

Essayez maintenant la démo de Qwen2-VL-72B-Instruct !

Étape 2 : Commencez votre essai gratuit

Commencez votre essai gratuit pour explorer les capacités du modèle sélectionné.

Étape 3 : Obtenez votre clé API

Pour vous authentifier avec l’API, nous vous fournirons une nouvelle clé API. En entrant dans la page « Settings », vous pouvez copier la clé API comme indiqué sur l’image.

Étape 4 : Installez l’API

Installez l’API à l’aide du gestionnaire de paquets spécifique à votre langage de programmation.

Après l’installation, importez les bibliothèques nécessaires dans votre environnement de développement. Initialisez l’API avec votre clé API pour commencer à interagir avec Novita AI LLM. Voici un exemple d’utilisation de l’API de complétion de chat pour les utilisateurs Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<VOTRE_CLÉ_API_Novita_AI>",
)

model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # ou False
max_tokens = 2048
system_content = """Sois un assistant utile"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Salut !",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Utiliser Qwen2.5-VL-72B via un GPU Cloud

Étape 1 : Créer un compte

Si vous êtes nouveau sur Novita AI, commencez par créer un compte sur notre site web. Une fois inscrit, rendez-vous dans l’onglet « GPUs » pour explorer les ressources disponibles et commencer votre parcours.

Étape 2 : Explorer les templates et les serveurs GPU

Commencez par sélectionner un template qui correspond aux besoins de votre projet, comme PyTorch, TensorFlow ou CUDA. Choisissez la version qui correspond à vos besoins, par exemple PyTorch 2.2.1 ou CUDA 11.8.0. Ensuite, sélectionnez la configuration du serveur GPU A100, qui offre des performances puissantes pour gérer des charges de travail exigeantes avec une VRAM, une RAM et une capacité de disque importantes.

Essayez les GPU haute performance de Novita AI

Étape 3 : Personnaliser votre déploiement

Après avoir sélectionné un template et un GPU, personnalisez les paramètres de déploiement en ajustant des paramètres comme la version du système d’exploitation (par exemple, CUDA 11.8). Vous pouvez également modifier d’autres configurations pour adapter l’environnement aux exigences spécifiques de votre projet.

Étape 4 : Lancer une instance

Une fois que vous avez finalisé le template et les paramètres de déploiement, cliquez sur « Launch Instance » pour configurer votre instance GPU. Cela démarrera la configuration de l’environnement, vous permettant de commencer à utiliser les ressources GPU pour vos tâches d’IA.

Qwen2.5-VL-72B-Instruct offre des performances de pointe sur un large éventail de tâches de vision-langage. Que vous automatisiez des workflows dans le secteur financier ou que vous analysiez des vidéos en temps réel, il allie profondeur, échelle et flexibilité. Grâce à un accès open source et à plusieurs voies de déploiement (GPU local, instances cloud ou API), Qwen2.5-VL permet aux développeurs et aux entreprises de construire des systèmes d’IA plus intelligents et plus performants.

Questions fréquemment posées

Puis-je déployer Qwen2.5-VL-72B-Instruct localement ?

Oui. Vous pouvez l’exécuter sur des machines disposant d’une VRAM suffisante (par exemple, 8×A100 ou 24×4090 GPU).

Comment utiliser Qwen2.5-VL-72B-Instruct via une API ?

Vous pouvez accéder à Qwen2.5-VL-72B-Instruct via la bibliothèque de modèles de Novita AI, commencer un essai gratuit et obtenir une clé API pour une intégration rapide.

Quelle est la différence entre Qwen2.5-VL-72B et Qwen2.5-VL-72B-Instruct ?

Le modèle de base gère les tâches générales de vision-langage ; la version « Instruct » est affinée pour suivre les instructions des utilisateurs avec plus de précision.

Novita AI est une plateforme cloud d’IA qui offre aux développeurs un moyen simple de déployer des modèles d’IA via notre API facile à utiliser, tout en fournissant un GPU cloud abordable et fiable pour construire et passer à l’échelle.

Lecture recommandée

API simples et GPU évolutif

Novita AI est une plateforme cloud d’IA qui offre aux développeurs un moyen simple de déployer des modèles d’IA via notre API facile à utiliser, tout en fournissant un GPU cloud abordable et fiable pour construire et passer à l’échelle.

Inscrivez-vous / CONNECTEZ-VOUS

Tutoriel : Comment accéder à Qwen2.5-VL-72B en local, via API, sur GPU Cloud

Points clés

Qu’est-ce que Qwen2.5-VL-72B ?

Un exemple pour montrer la capacité de Qwen2.5-VL-72B

Aperçu de Qwen2.5-VL-72B

Comment accéder à Qwen2.5-VL-72B en local ?

Configuration matérielle requise pour Qwen2.5-VL-72B

Installer Qwen2.5-VL-72B localement

1. Installer les dépendances

2. Utiliser Qwen2.5-VL pour la réponse à des questions visuelles

3. Exemple d’entrée vidéo

Comment accéder à Qwen2.5-VL-72B via l’API Novita ?

Étape 1 : Connectez-vous et accédez à la bibliothèque de modèles

Étape 2 : Commencez votre essai gratuit

Étape 3 : Obtenez votre clé API

Étape 4 : Installez l’API

Utiliser Qwen2.5-VL-72B via un GPU Cloud

Étape 1 : Créer un compte

Étape 2 : Explorer les templates et les serveurs GPU

Étape 3 : Personnaliser votre déploiement

Étape 4 : Lancer une instance

Questions fréquemment posées

Lecture recommandée

API simples et GPU évolutif

Product

RESOURCES

Partners

Company

Points clés

Qu’est-ce que Qwen2.5-VL-72B ?

Un exemple pour montrer la capacité de Qwen2.5-VL-72B

Aperçu de Qwen2.5-VL-72B

Comment accéder à Qwen2.5-VL-72B en local ?

Configuration matérielle requise pour Qwen2.5-VL-72B

Installer Qwen2.5-VL-72B localement

1. Installer les dépendances

2. Utiliser Qwen2.5-VL pour la réponse à des questions visuelles

3. Exemple d’entrée vidéo

Comment accéder à Qwen2.5-VL-72B via l’API Novita ?

Étape 1 : Connectez-vous et accédez à la bibliothèque de modèles

Étape 2 : Commencez votre essai gratuit

Étape 3 : Obtenez votre clé API

Étape 4 : Installez l’API

Utiliser Qwen2.5-VL-72B via un GPU Cloud

Étape 1 : Créer un compte

Étape 2 : Explorer les templates et les serveurs GPU

Étape 3 : Personnaliser votre déploiement

Étape 4 : Lancer une instance

Questions fréquemment posées

Lecture recommandée

API simples et GPU évolutif

Articles associés

Product

RESOURCES

Partners

Company