Tutoriel : Comment accéder à Qwen2.5-VL-72B en local, via API, sur GPU Cloud

Tutoriel : Comment accéder à Qwen2.5-VL-72B en local, via API, sur GPU Cloud

Points clés

Multimodal + Compréhension de longues vidéos
Prend en charge les images, les documents et les longues vidéos
Adapté à l’éducation, aux médias, à la surveillance

Localisation précise + Sortie structurée
Détecte les objets avec précision
Extrait des données structurées de factures, formulaires, graphiques
Utile dans les secteurs de la finance, du droit, de la logistique

Vous pouvez commencer un essai gratuit sur l’API Novita AI de manière très pratique !

Qwen2.5-VL-72B-Instruct est un puissant modèle de vision-langage (LVLM) de 72 milliards de paramètres, affiné pour les tâches de suivi d’instructions. Il prend en charge les entrées textuelles et visuelles (images et vidéos), ce qui le rend idéal pour le raisonnement multimodal, la compréhension de documents, l’analyse vidéo et l’interaction agentique.

Qu’est-ce que Qwen2.5-VL-72B ?

Un exemple pour montrer la capacité de Qwen2.5-VL-72B

Entrée : Donnez la requête : « l’utilisateur expérimente la fonctionnalité de génération d’images », à quel moment le contenu décrit se produit-il dans la vidéo ? Utilisez les secondes pour le format du temps.

https://videopress.com/v/jVcvFOlu?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Sortie : Le contenu décrit se produit de la 28e à la 50e seconde de la vidéo. Pendant ce segment, l’utilisateur interagit avec la fonctionnalité de génération d’images, demandant et recevant une peinture de scène artistique double d’une montagne de jour et de nuit. L’utilisateur ajoute ensuite un oiseau à l’image générée, démontrant ainsi la fonctionnalité de l’outil de génération d’images.

Aperçu de Qwen2.5-VL-72B

Catégorie Élément Détails
Infos de base Date de sortie 28 janvier 2025
Taille du modèle 73,4 milliards de paramètres
Open source Oui (publié par Qwen)
Architecture Composants principaux Résolution dynamique et entraînement à taux d’images variable\SwiGLU + RMSNorm + Attention par fenêtre\Échantillonnage FPS dynamique
Support linguistique Langues prises en charge Excelle dans les documents multilingues et la reconnaissance de texte de scène
Multimodal Capacité Entrées visuelles (images et vidéos) et textuelles
Contexte Fenêtre de contexte Configurable jusqu’à 64K tokens pour les longues vidéos
Précision Type de tenseur BF16
Benchmarks MMMU (Image) 70,2 (Qwen2.5-VL-72B) vs 70,3 (GPT-4o)
MVBench (Vidéo) 70,4 (Qwen2.5-VL-72B) vs 64,6 (GPT-4o)
AITZ_EM (Agent) 83,2 (Qwen2.5-VL-72B) vs 35,3 (GPT-4o)

Comment accéder à Qwen2.5-VL-72B en local ?

Configuration matérielle requise pour Qwen2.5-VL-72B

Catégorie Élément Détails
Matériel Nvidia A100 (80 Go) 8 GPU × 80 Go = 640 Go de VRAM totale
Nvidia H100 (80 Go) 8 GPU × 80 Go = 640 Go de VRAM totale
RTX 4090 (24 Go) 24 GPU × 24 Go = 576 Go de VRAM totale
Nvidia L40S (48 Go) 8 GPU × 48 Go = 384 Go de VRAM totale

Installer Qwen2.5-VL-72B localement

1. Installer les dépendances

bashCopyEdit<code># Installer la dernière version de Hugging Face Transformers depuis la source (requis pour Qwen2.5-VL)<br>pip install git+https://github.com/huggingface/transformers accelerate<br><br># Installer la boîte à outils utilitaire de vision (recommandé avec decord pour un chargement rapide des vidéos)<br>pip install 'qwen-vl-utils[decord]==0.0.8'</code>

2. Utiliser Qwen2.5-VL pour la réponse à des questions visuelles

import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq
from qwen_vl_utils import load_image, load_video, build_multimodal_inputs

# 🔧 Nom du modèle (peut aussi être un chemin local)
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"

# Charger le tokenizer et le modèle
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_name, trust_remote_code=True).eval()

# Charger une image (peut être un chemin local, une URL ou du base64)
image = load_image("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg")

# Définir la requête
query = "Que se passe-t-il dans l'image ?"

# Construire les entrées pour le modèle
inputs = build_multimodal_inputs(tokenizer, query=query, images=[image])

# Inférence
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

# Décoder et afficher la réponse
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Réponse :", response)

3. Exemple d’entrée vidéo

video = load_video("chemin_ou_url_vers_video.mp4")
query = "Résume le contenu de la vidéo."

inputs = build_multimodal_inputs(tokenizer, query=query, videos=[video])

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Réponse :", response)

Comment accéder à Qwen2.5-VL-72B via l’API Novita ?

Étape 1 : Connectez-vous et accédez à la bibliothèque de modèles

Connectez-vous à votre compte et cliquez sur le bouton Model Library.

Connectez-vous et accédez à la bibliothèque de modèles

Essayez maintenant la démo de Qwen2-VL-72B-Instruct !

Étape 2 : Commencez votre essai gratuit

Commencez votre essai gratuit pour explorer les capacités du modèle sélectionné.

Étape 3 : Obtenez votre clé API

Pour vous authentifier avec l’API, nous vous fournirons une nouvelle clé API. En entrant dans la page « Settings », vous pouvez copier la clé API comme indiqué sur l’image.

obtenir la clé API

Étape 4 : Installez l’API

Installez l’API à l’aide du gestionnaire de paquets spécifique à votre langage de programmation.

Après l’installation, importez les bibliothèques nécessaires dans votre environnement de développement. Initialisez l’API avec votre clé API pour commencer à interagir avec Novita AI LLM. Voici un exemple d’utilisation de l’API de complétion de chat pour les utilisateurs Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<VOTRE_CLÉ_API_Novita_AI>",
)

model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # ou False
max_tokens = 2048
system_content = """Sois un assistant utile"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Salut !",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

Utiliser Qwen2.5-VL-72B via un GPU Cloud

Étape 1 : Créer un compte

Si vous êtes nouveau sur Novita AI, commencez par créer un compte sur notre site web. Une fois inscrit, rendez-vous dans l’onglet « GPUs » pour explorer les ressources disponibles et commencer votre parcours.

Capture d’écran du site Novita AI

Étape 2 : Explorer les templates et les serveurs GPU

Commencez par sélectionner un template qui correspond aux besoins de votre projet, comme PyTorch, TensorFlow ou CUDA. Choisissez la version qui correspond à vos besoins, par exemple PyTorch 2.2.1 ou CUDA 11.8.0. Ensuite, sélectionnez la configuration du serveur GPU A100, qui offre des performances puissantes pour gérer des charges de travail exigeantes avec une VRAM, une RAM et une capacité de disque importantes.

capture d’écran du site Novita AI utilisant un GPU cloud

Essayez les GPU haute performance de Novita AI

Étape 3 : Personnaliser votre déploiement

Après avoir sélectionné un template et un GPU, personnalisez les paramètres de déploiement en ajustant des paramètres comme la version du système d’exploitation (par exemple, CUDA 11.8). Vous pouvez également modifier d’autres configurations pour adapter l’environnement aux exigences spécifiques de votre projet.

capture d’écran du site Novita AI utilisant un GPU cloud

Étape 4 : Lancer une instance

Une fois que vous avez finalisé le template et les paramètres de déploiement, cliquez sur « Launch Instance » pour configurer votre instance GPU. Cela démarrera la configuration de l’environnement, vous permettant de commencer à utiliser les ressources GPU pour vos tâches d’IA.

capture d’écran du site Novita AI utilisant un GPU cloud

Qwen2.5-VL-72B-Instruct offre des performances de pointe sur un large éventail de tâches de vision-langage. Que vous automatisiez des workflows dans le secteur financier ou que vous analysiez des vidéos en temps réel, il allie profondeur, échelle et flexibilité. Grâce à un accès open source et à plusieurs voies de déploiement (GPU local, instances cloud ou API), Qwen2.5-VL permet aux développeurs et aux entreprises de construire des systèmes d’IA plus intelligents et plus performants.

Questions fréquemment posées

Puis-je déployer Qwen2.5-VL-72B-Instruct localement ?

Oui. Vous pouvez l’exécuter sur des machines disposant d’une VRAM suffisante (par exemple, 8×A100 ou 24×4090 GPU).

Comment utiliser Qwen2.5-VL-72B-Instruct via une API ?

Vous pouvez accéder à Qwen2.5-VL-72B-Instruct via la bibliothèque de modèles de Novita AI, commencer un essai gratuit et obtenir une clé API pour une intégration rapide.

Quelle est la différence entre Qwen2.5-VL-72B et Qwen2.5-VL-72B-Instruct ?

Le modèle de base gère les tâches générales de vision-langage ; la version « Instruct » est affinée pour suivre les instructions des utilisateurs avec plus de précision.

Novita AI est une plateforme cloud d’IA qui offre aux développeurs un moyen simple de déployer des modèles d’IA via notre API facile à utiliser, tout en fournissant un GPU cloud abordable et fiable pour construire et passer à l’échelle.

Lecture recommandée

API simples et GPU évolutif

Novita AI est une plateforme cloud d’IA qui offre aux développeurs un moyen simple de déployer des modèles d’IA via notre API facile à utiliser, tout en fournissant un GPU cloud abordable et fiable pour construire et passer à l’échelle.

Inscrivez-vous / CONNECTEZ-VOUS