- Bon, je pense que c'est tout. Maintenant, je mets tout en forme Markdown correct, sans rien ajouter d'autre, juste la traduction. </think>
- title: "GLM 4.5V vs Qwen 2.5-VL : quel VLM open source choisir pour votre application IA ?" description: "Découvrez les différences entre GLM 4.5V et Qwen 2.5-VL, deux modèles vision-langage de pointe pour le développement IA." locale: fr translationKey: "glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application" pubDate: "2025-09-06 19:00:00" updatedDate: "2025-09-05 00:40:23" wpSlug: "glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application" canonical: "/glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application/" author: "Novita AI" categories: ["Novita AI"] tags: ["Comparaison de modèles IA"] cover: "/uploads/2025/08/Frame-1618873257-1.webp" isSticky: false readingMinutes: 7 wordpressId: 16432
- GLM 4.5V et Qwen 2.5-VL : principales différences architecturales
- GLM 4.5V et Qwen 2.5-VL : comparaison des benchmarks
- Forces et faiblesses de GLM 4.5V et Qwen 2.5-VL
- GLM 4.5V vs Qwen 2.5-VL : lequel est meilleur pour la résumé de texte, les chatbots, le NLP basé sur les images ?
- Novita AI : un fournisseur d'API GLM 4.5V plus rentable et stable
- Construisez un outil de reconnaissance d'image simple avec MCP et GLM.
` intégrés aux tâches visuelles|Le raisonnement est interne ; aucune exposition explicite de chaîne de pensée| |Approche d’affinage|Apprentissage par renforcement avec échantillonnage curriculaire (RLCS) sur plusieurs domaines : STEM, interfaces graphiques, vidéos, documents|Affinage par RLHF/RLAIF (non entièrement divulgué), appliqué au moins au modèle 32B, probablement hérité dans la version 72B| |Capacités multimodales|Entraîné pour des tâches agent : raisonnement sur des images, exécution d’actions (ex. interaction avec interface graphique, utilisation d’outils)|Fort sur les sorties structurées : OCR en JSON, analyse de mise en page (HTML QwenVL), détection d’objets avec coordonnées|
En résumé, l’entraînement de GLM 4.5V a mis l’accent sur la qualité et le raisonnement (données curated + raisonnement explicite + RL multi-domaines), tandis que l’entraînement de Qwen 2.5-VL a mis l’accent sur la largeur et la vision (couverture de données variée + entraînement visuel dynamique + alignement RL partiel).
Puis la sous-section ### GLM 4.5v et Qwen 2.5-VL : comparaison de la latence d’inférence GLM 4.5V utilise une architecture Mélange d’experts (MoE), ce qui signifie qu’une petite portion (~12B paramètres) est active par jeton pendant l’inférence, malgré la taille totale du modèle qui dépasse les 100B.
Cette conception lui permet de fonctionner plus efficacement, offrant des vitesses similaires à un modèle dense de 12B à 20B, plutôt que de se comporter comme un modèle dense de 72B+ en termes de latence et de débit.
GLM 4.5V gère les longs contextes (jusqu’à 128K jetons) avec une croissance de latence plus faible, ce qui le rend particulièrement adapté aux tâches impliquant des documents longs ou des conversations multi-tours.
GLM prend en charge un mode spécial /nothink, qui désactive le raisonnement étape par étape quand il n’est pas nécessaire, permettant des sorties plus rapides et plus concises.
Dans l’ensemble, GLM 4.5V offre une excellente efficacité d’inférence sur longs contextes et une bonne scalabilité, mais nécessite du matériel performant et un déploiement intelligent pour atteindre son plein potentiel.
Puis ## GLM 4.5V et Qwen 2.5-VL : comparaison des benchmarks
L’image on garde le chemin :
Puis la citation :
GLM-4.5V est actuellement en tête des performances globales sur les benchmarks, en particulier pour les tâches multimodales complexes et sur longs contextes,
mais Qwen2.5-VL reste très compétitif et était auparavant la référence à battre.
Les deux modèles surpassent la plupart des autres LLM open source et sont de sérieux concurrents même face aux géants propriétaires dans le domaine vision-langage.
Puis ## Forces et faiblesses de GLM 4.5V et Qwen 2.5-VL
Image gardée :
Puis le lien : Essayez GLM4.5V et Qwen 2.5VL dès maintenant !
Puis ## GLM 4.5V vs Qwen 2.5-VL : lequel est meilleur pour la résumé de texte, les chatbots, le NLP basé sur les images ?
Résumé de texte : GLM-4.5V gagne
Pour résumer des documents longs, des rapports ou du contenu multimodale, GLM-4.5V a un net avantage. Sa fenêtre de contexte de 128K jetons lui permet de traiter des livres entiers ou des journaux de conversation longs sans troncature. Il peut résumer tout en analysant ou en raisonnant sur le contenu, grâce à son mode de chaîne de pensée intégré.
Qwen 2.5-VL est également excellent pour la résumé, en particulier pour des articles courts ou des documents de longueur standard. Il produit des résumés propres, concis et bien formatés, et est plus rapide pour des tâches de longueur modérée. Cependant, pour des résumés intensifs, notamment impliquant du texte + des images, GLM est plus capable.
Chatbots : dépend des besoins
Pour des chatbots nécessitant raisonnement approfondi, mémoire longue et achèvement de tâches étape par étape, GLM-4.5V est plus puissant. Il prend en charge l’utilisation d’outils et des conversations longues sans oublier le contexte. Son raisonnement structuré (avec le mode <think>) permet une meilleure gestion des requêtes complexes.
Pour des chatbots visuels, notamment ceux impliquant captures d’écran, images ou analyse de mise en page, Qwen 2.5-VL excelle. Il comprend bien les images, fournit des réponses structurées (ex. en JSON) et prend en charge le dialogue visuel multi-tours. Il est également légèrement plus aligné « prêt à l’emploi » pour des interactions fluides et polies.
Tâches de NLP basées sur les images : Qwen2.5-VL est en tête
Pour des tâches impliquant l’extraction de données structurées à partir d’images, comme l’OCR, la compréhension de formulaires ou la reconnaissance de mise en page, Qwen 2.5-VL est le modèle le plus performant.
- Il prend en charge la détection de boîtes englobantes, produit des mises en page structurées en HTML ou JSON, et peut analyser des documents visuels complexes.
- Son OCR multilingue et sa capacité à raisonner sur le contenu d’images le rendent très pratique pour le NLP visuel orienté métier.
GLM-4.5V peut également gérer ces tâches, mais décrit généralement le contenu visuel en texte libre plutôt qu’en formats structurés, ce qui peut nécessiter plus de post-traitement.
Puis ## Novita AI : un fournisseur d’API GLM 4.5V plus rentable et stable
L’API GLM-4.5V de Novita AI offre un contexte de 65,5K jetons, avec un tarif de 0,60 $ par millier de jetons en entrée, 1,80 $ par millier de jetons en sortie, et prend en charge l’appel de fonctions et les sorties structurées.
Étape 1 : Connectez-vous et accédez à la bibliothèque de modèles Connectez-vous à votre compte et cliquez sur le bouton Bibliothèque de modèles.

Essayez GLM4.5V et Qwen 2.5VL dès maintenant !
Étape 2 : Choisissez votre modèle Parcourez les options disponibles et sélectionnez le modèle qui correspond à vos besoins.

Étape 3 : Démarrez votre essai gratuit Commencez votre essai gratuit pour explorer les capacités du modèle sélectionné.

Étape 4 : Récupérez votre clé API Pour vous authentifier auprès de l’API, nous vous fournirons une nouvelle clé API. En vous rendant sur la page « Paramètres », vous pouvez copier la clé API comme indiqué sur l’image.

Étape 5 : Installez l’API Installez l’API à l’aide du gestionnaire de paquets spécifique à votre langage de programmation.
Après l’installation, importez les bibliothèques nécessaires dans votre environnement de développement. Initialisez l’API avec votre clé API pour commencer à interagir avec Novita AI LLM. Voici un exemple d’utilisation de l’API de complétion de chat pour les utilisateurs Python.
Puis le bloc de code : on ne le traduit pas, on garde tel quel, bien sûr. Vérifier qu’il n’y a pas de texte à traduire dans le code, oui c’est du code, on laisse.
Puis ## Construisez un outil de reconnaissance d’image simple avec MCP et GLM. Si vous souhaitez exploiter les capacités de GLM — comme la construction d’un outil de reconnaissance d’image simple pour démontrer son intégration de reconnaissance visuelle et de raisonnement — vous pouvez utiliser la fonctionnalité MCP prise en charge par Novita AI. Voici un exemple de code :
Bloc de code aussi, on ne touche pas.
Puis la citation :
Si vous souhaitez obtenir plus de détails, vous pouvez consulter cet article : Comment construire votre premier serveur MCP avec Novita AI !
Puis le paragraphe de conclusion : Après avoir comparé ces modèles, il est clair que GLM 4.5V et Qwen 2.5-VL sont extrêmement puissants. Le « meilleur » modèle dépend vraiment du cas d’usage spécifique et des contraintes. Nous concluons par une FAQ courte répondant à quelques questions pratiques restantes :
Quelles sont les principales améliorations architecturales de GLM-4.5V ? Seules les versions plus petites (≤13B) peuvent fonctionner sur un seul GPU ; les modèles de taille complète nécessitent des configurations multi-GPU ou une inférence cloud.
Ces modèles prennent-ils en charge des langues autres que l’anglais et le chinois ? Leur point fort principal est l’anglais et le chinois, mais ils peuvent gérer d’autres langues avec une qualité variable.
Puis-je affiner ces modèles pour ma tâche ? Oui, les deux peuvent être affinés ou adaptés à l’aide de techniques comme LoRA, mais les modèles de grande taille nécessitent une puissance de calcul importante.
Puis la citation de bas de page :
Novita AI est la plateforme cloud tout-en-un qui concrétise vos ambitions IA. APIs intégrées, serverless, instances GPU — les outils rentables dont vous avez besoin. Éliminez l’infrastructure, commencez gratuitement et faites de votre vision IA une réalité.
Puis #### Lectures recommandées
- Tutoriel : Comment accéder à Qwen2.5-VL-72B localement, via API, sur GPU cloud
- GPT OSS 120B vs Qwen3 235B Thinking 2507 : Chat ou Code ?
- Qwen3 Embedding 8B : Recherche puissante, personnalisation flexible et multilingue
Attends, il faut vérifier que tous les termes techniques sont gardés : MoE, ViT, RMSNorm, SwiGLU, RLCS, RLHF, RLAIF, LoRA, MCP, API, tous les noms de modèles (GLM 4.5V, Qwen 2.5-VL, etc.) sont gardés, les liens sont intact, les chemins d’images sont gardés, les blocs de code ne sont pas modifiés. Les paramètres de code comme stream, max_tokens, etc. sont gardés. Les noms de produits comme Novita AI sont gardés. Les URLs sont intactes.
Vérifier les traductions : est-ce que c’est correct pour un public de développeurs francophones ? Oui, les termes techniques sont utilisés correctement : “modèles vision-langage”, “Mélange d’experts”, “encodeur visuel”, “fenêtre de contexte”, “latence d’inférence”, “appel de fonctions”, “sorties structurées”, “affinage”, “LoRA”, “MCP”, etc. C’est adapté.
Attends, le titre original est “GLM 4.5V vs Qwen 2.5-VL: Which Open VLM Should You Use for Your AI Application?” traduit par “GLM 4.5V vs Qwen 2.5-VL : quel VLM open source choisir pour votre application IA ?” c’est correct. La description : “Explore the differences between GLM 4.5V vs Qwen 2.5 VL, two advanced vision-language models in AI development.” traduite par “Découvrez les différences entre GLM 4.5V et Qwen 2.5-VL, deux modèles vision-langage de pointe pour le développement IA.” c’est bon.
Les catégories et tags : categories reste [“Novita AI”] car c’est un nom propre, tags traduit en [“Comparaison de modèles IA”] c’est correct.
Vérifier les tableaux : tous les termes sont corrects. Par exemple “Mixture-of-Experts (MoE)” devient “Mélange d’experts (MoE)”, on garde l’acronyme. “Dense Transformer” reste “Transformer dense” c’est correct. “Vision Transformer (ViT)” reste pareil, acronyme gardé. “Window Attention” devient “attention fenêtrée”, c’est le terme utilisé en français. “RMSNorm”, “SwiGLU” sont des noms propres de techniques, on garde. “Context Length” devient “Longueur de contexte”, correct. “Text Tokens” devient “Jetons de texte”, correct. “Visual Data” devient “Données visuelles”, etc.
La partie sur le mode /nothink : on garde le nom du mode, c’est un paramètre, on ne traduit pas. Les balises
Les liens sont tous intact, les chemins d’images sont gardés, les blocs de code ne sont pas modifiés. La FAQ est traduite correctement.
Attends, il y a une petite faute dans l’original : “GLM 4.5v” minuscule v, mais on garde la casse comme dans l’original ? Oui, l’utilisateur a dit de ne pas modifier les noms de modèles, donc on garde GLM 4.5V comme dans l’original, même si parfois c’est écrit avec v minuscule, on garde la casse d’origine.
Autre vérification : le paragraphe “Try GLM4.5V and Qwen 2.5VL Now!” devient “Essayez GLM4.5V et Qwen 2.5VL dès maintenant !” c’est correct, on garde les noms de modèles.
Le code Python : on ne touche pas, bien sûr. Les commentaires dans le code ? Attends, le code a des commentaires en anglais ? Par exemple “# Run using stdio transport” : est-ce qu’on traduit ? Non, l’utilisateur a dit de ne pas traduire les blocs de code, donc on laisse tel quel. Oui, la consigne dit “Do not translate code blocks, inline code, model names, product names, URLs, file paths, API parameters, or Markdown link URLs.” Donc les commentaires dans le code font partie du bloc de code, on ne les traduit pas.
Autre point : le champ translationKey : l’utilisateur a dit “Set translationKey to the provided slug if it is missing.” Le slug est donné, donc on l’ajoute dans le frontmatter, ce qu’on a fait.
Locale est mis à fr, c’est correct.
Bon, je pense que c’est tout. Maintenant, je mets tout en forme Markdown correct, sans rien ajouter d’autre, juste la traduction.
title: “GLM 4.5V vs Qwen 2.5-VL : quel VLM open source choisir pour votre application IA ?” description: “Découvrez les différences entre GLM 4.5V et Qwen 2.5-VL, deux modèles vision-langage de pointe pour le développement IA.” locale: fr translationKey: “glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application” pubDate: “2025-09-06 19:00:00” updatedDate: “2025-09-05 00:40:23” wpSlug: “glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application” canonical: “/glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application/” author: “Novita AI” categories: [“Novita AI”] tags: [“Comparaison de modèles IA”] cover: “/uploads/2025/08/Frame-1618873257-1.webp” isSticky: false readingMinutes: 7 wordpressId: 16432
GLM 4.5V et Qwen 2.5-VL sont deux modèles vision-langage (VLM) open source de pointe qui ont récemment émergé de la communauté IA chinoise. Les deux modèles visent à faire progresser l’état de l’art en IA multimodale, en combinant la compréhension du langage naturel et l’analyse de contenu visuel. Dans cet article de blog, nous comparons GLM 4.5V et Qwen 2.5-VL sur plusieurs dimensions importantes pour les développeurs
GLM 4.5V et Qwen 2.5-VL : principales différences architecturales
| Fonctionnalité | GLM 4.5V | Qwen 2.5-VL |
|---|---|---|
| Type d’architecture | Mélange d’experts (MoE), 355B paramètres totaux, ~32B actifs par jeton (Air : 106B totaux / 12B actifs) | Transformer dense, l’ensemble des 72B paramètres sont actifs pour chaque jeton |
| Efficacité vs Capacité | Capacité élevée avec un coût d’inférence plus faible grâce à l’activation partielle des experts | Stable mais coût computationnel élevé, tous les paramètres sont utilisés par entrée |
| Encodeur visuel | Basé sur Vision Transformer (ViT), implémentation standard | ViT avec attention fenêtrée, RMSNorm et SwiGLU pour un traitement haute résolution plus efficace |
| Longueur de contexte | Jusqu’à 128K jetons (131K dans certaines configurations) | Jusqu’à 32K jetons |
GLM 4.5V et Qwen 2.5-VL : données d’entraînement
1. Échelle des données
| Catégorie | GLM 4.5V | Qwen 2.5-VL |
|---|---|---|
| Jetons de texte | ~23 billions de jetons au total – 15T général – 8T raisonnement/codage/tâches agent |
Estimé à ~18T+ de jetons pour la variante 72B (basé sur l’extrapolation des séries Qwen précédentes) |
2. Types de données
| Catégorie | GLM 4.5V | Qwen 2.5-VL |
|---|---|---|
| Texte | Texte multilingue, code, texte web, prompts de raisonnement, données de tâches agent | Texte multilingue général, instructions, probablement prompts alignés sur les préférences |
| Données visuelles | Paires image-texte nettoyées et recapturées Diagrammes académiques, graphiques, images mathématiques Captures d’écran d’interface, PDF, notes manuscrites, OCR multilingue |
Données visuelles variées Inclut des formulaires scannés, factures, présentations, étiquettes de boîtes englobantes, texte OCR |
| Données vidéo | Vidéos longues avec supervision du raisonnement | Vidéos avec résolution dynamique et échantillonnage d’images |
3. Fonctionnalités supplémentaires et techniques d’entraînement
| Catégorie | GLM 4.5V | Qwen 2.5-VL |
|---|---|---|
| Support du raisonnement | Entraîné avec des prompts de chaîne de pensée <think>...</think> intégrés aux tâches visuelles |
Le raisonnement est interne ; aucune exposition explicite de chaîne de pensée |
| Approche d’affinage | Apprentissage par renforcement avec échantillonnage curriculaire (RLCS) sur plusieurs domaines : STEM, interfaces graphiques, vidéos, documents | Affinage par RLHF/RLAIF (non entièrement divulgué), appliqué au moins au modèle 32B, probablement hérité dans la version 72B |
| Capacités multimodales | Entraîné pour des tâches agent : raisonnement sur des images, exécution d’actions (ex. interaction avec interface graphique, utilisation d’outils) | Fort sur les sorties structurées : OCR en JSON, analyse de mise en page (HTML QwenVL), détection d’objets avec coordonnées |
En résumé, l’entraînement de GLM 4.5V a mis l’accent sur la qualité et le raisonnement (données sélectionnées + raisonnement explicite + RL multi-domaines), tandis que l’entraînement de Qwen 2.5-VL a mis l’accent sur la largeur et la vision (couverture de données variée + entraînement visuel dynamique + alignement RL partiel).
GLM 4.5v et Qwen 2.5-VL : comparaison de la latence d’inférence
GLM 4.5V utilise une architecture Mélange d’experts (MoE), ce qui signifie qu’une petite portion (~12B paramètres) est active par jeton pendant l’inférence, malgré la taille totale du modèle qui dépasse les 100B.
Cette conception lui permet de fonctionner plus efficacement, offrant des vitesses similaires à un modèle dense de 12B à 20B, plutôt que de se comporter comme un modèle dense de 72B+ en termes de latence et de débit.
GLM 4.5V gère les longs contextes (jusqu’à 128K jetons) avec une croissance de latence plus faible, ce qui le rend particulièrement adapté aux tâches impliquant des documents longs ou des conversations multi-tours.
GLM prend en charge un mode spécial /nothink, qui désactive le raisonnement étape par étape quand il n’est pas nécessaire, permettant des sorties plus rapides et plus concises.
Dans l’ensemble, GLM 4.5V offre une excellente efficacité d’inférence sur longs contextes et une bonne scalabilité, mais nécessite du matériel performant et un déploiement intelligent pour atteindre son plein potentiel.
GLM 4.5V et Qwen 2.5-VL : comparaison des benchmarks

GLM-4.5V est actuellement en tête des performances globales sur les benchmarks, en particulier pour les tâches multimodales complexes et sur longs contextes,
mais Qwen2.5-VL reste très compétitif et était auparavant la référence à battre.
Les deux modèles surpassent la plupart des autres LLM open source et sont de sérieux concurrents même face aux géants propriétaires dans le domaine vision-langage.
Forces et faiblesses de GLM 4.5V et Qwen 2.5-VL

Essayez GLM4.5V et Qwen 2.5VL dès maintenant !
GLM 4.5V vs Qwen 2.5-VL : lequel est meilleur pour la résumé de texte, les chatbots, le NLP basé sur les images ?
Résumé de texte : GLM-4.5V gagne
Pour résumer des documents longs, des rapports ou du contenu multimodale, GLM-4.5V a un net avantage. Sa fenêtre de contexte de 128K jetons lui permet de traiter des livres entiers ou des journaux de conversation longs sans troncature. Il peut résumer tout en analysant ou en raisonnant sur le contenu, grâce à son mode de chaîne de pensée intégré.
Qwen 2.5-VL est également excellent pour la résumé, en particulier pour des articles courts ou des documents de longueur standard. Il produit des résumés propres, concis et bien formatés, et est plus rapide pour des tâches de longueur modérée. Cependant, pour des résumés intensifs, notamment impliquant du texte + des images, GLM est plus capable.
Chatbots : dépend des besoins
Pour des chatbots nécessitant raisonnement approfondi, mémoire longue et achèvement de tâches étape par étape, GLM-4.5V est plus puissant. Il prend en charge l’utilisation d’outils et des conversations longues sans oublier le contexte. Son raisonnement structuré (avec le mode <think>) permet une meilleure gestion des requêtes complexes.
Pour des chatbots visuels, notamment ceux impliquant captures d’écran, images ou analyse de mise en page, Qwen 2.5-VL excelle. Il comprend bien les images, fournit des réponses structurées (ex. en JSON) et prend en charge le dialogue visuel multi-tours. Il est également légèrement plus aligné « prêt à l’emploi » pour des interactions fluides et polies.
Tâches de NLP basées sur les images : Qwen2.5-VL est en tête
Pour des tâches impliquant l’extraction de données structurées à partir d’images, comme l’OCR, la compréhension de formulaires ou la reconnaissance de mise en page, Qwen 2.5-VL est le modèle le plus performant.
- Il prend en charge la détection de boîtes englobantes, produit des mises en page structurées en HTML ou JSON, et peut analyser des documents visuels complexes.
- Son OCR multilingue et sa capacité à raisonner sur le contenu d’images le rendent très pratique pour le NLP visuel orienté métier.
GLM-4.5V peut également gérer ces tâches, mais décrit généralement le contenu visuel en texte libre plutôt qu’en formats structurés, ce qui peut nécessiter plus de post-traitement.
Novita AI : un fournisseur d’API GLM 4.5V plus rentable et stable
L’API GLM-4.5V de Novita AI offre un contexte de 65,5K jetons, avec un tarif de 0,60 $ par millier de jetons en entrée, 1,80 $ par millier de jetons en sortie, et prend en charge l’appel de fonctions et les sorties structurées.
Étape 1 : Connectez-vous et accédez à la bibliothèque de modèles
Connectez-vous à votre compte et cliquez sur le bouton Bibliothèque de modèles.

Essayez GLM4.5V et Qwen 2.5VL dès maintenant !
Étape 2 : Choisissez votre modèle
Parcourez les options disponibles et sélectionnez le modèle qui correspond à vos besoins.

Étape 3 : Démarrez votre essai gratuit
Commencez votre essai gratuit pour explorer les capacités du modèle sélectionné.

Étape 4 : Récupérez votre clé API
Pour vous authentifier auprès de l’API, nous vous fournirons une nouvelle clé API. En vous rendant sur la page « Paramètres », vous pouvez copier la clé API comme indiqué sur l’image.

Étape 5 : Installez l’API
Installez l’API à l’aide du gestionnaire de paquets spécifique à votre langage de programmation.
Après l’installation, importez les bibliothèques nécessaires dans votre environnement de développement. Initialisez l’API avec votre clé API pour commencer à interagir avec Novita AI LLM. Voici un exemple d’utilisation de l’API de complétion de chat pour les utilisateurs Python.
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key="session_rDfpD7GWNXFvnoIbmYNFkVlStqevDItFJac__3tAuw3ZiENHe3wm498Kv9rZEc5JhZgEJ7c9To5Y3EmZZewMbw==",
)
model = "zai-org/glm-4.5v"
stream = True # or False
max_tokens = 32768
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Construisez un outil de reconnaissance d’image simple avec MCP et GLM.
Si vous souhaitez exploiter les capacités de GLM — comme la construction d’un outil de reconnaissance d’image simple pour démontrer son intégration de reconnaissance visuelle et de raisonnement — vous pouvez utiliser la fonctionnalité MCP prise en charge par Novita AI. Voici un exemple de code :
import os
import sys
from mcp.server.fastmcp import FastMCP
import requests
import uvicorn
from starlette.applications import Starlette
from starlette.routing import Mount
base_url = "https://api.novita.ai/v3"
headers = {
"Content-Type": "application/json",
"Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}"
}
mcp = FastMCP("Novita_API")
@mcp.tool()
def list_models() -> str:
"""
List all available models from the Novita API.
"""
url = base_url + "/openai/models"
response = requests.request("GET", url, headers=headers)
data = response.json()["data"]
text = ""
for i, model in enumerate(data, start=1):
text += f"Model id: {model['id']}\
"
text += f"Model description: {model['description']}\
"
text += f"Model type: {model['model_type']}\
\
"
return text
@mcp.tool()
def get_model(model_id: str, message) -> str:
"""
Provide a model ID and a message to get a response from the Novita API.
"""
url = base_url + "/openai/chat/completions"
payload = {
"model": model_id,
"messages": [
{
"content": message,
"role": "user",
}
],
"max_tokens": 200,
"response_format": {
"type": "text",
},
}
response = requests.request("POST", url, json=payload, headers=headers)
content = response.json()["choices"][0]["message"]["content"]
return content
@mcp.tool()
def vision_chat(model_id: str, image_url: str, question: str) -> str:
"""
Use GLM-4.1V-9B-Thinking to answer a question about an image.
"""
url = base_url + "/openai/chat/completions"
payload = {
"model": model_id,
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": image_url,
}
},
{
"type": "text",
"text": question,
}
]
}
],
"max_tokens": 500
}
response = requests.post(url, json=payload, headers=headers)
return response.json()["choices"][0]["message"]["content"]
if __name__ == "__main__":
# Run using stdio transport
mcp.run(transport="stdio")
Si vous souhaitez obtenir plus de détails, vous pouvez consulter cet article : Comment construire votre premier serveur MCP avec Novita AI !
Après avoir comparé ces modèles, il est clair que GLM 4.5V et Qwen 2.5-VL sont extrêmement puissants. Le « meilleur » modèle dépend vraiment du cas d’usage spécifique et des contraintes. Nous concluons par une FAQ courte répondant à quelques questions pratiques restantes :
Quelles sont les principales améliorations architecturales de GLM-4.5V ? Seules les versions plus petites (≤13B) peuvent fonctionner sur un seul GPU ; les modèles de taille complète nécessitent des configurations multi-GPU ou une inférence cloud.
Ces modèles prennent-ils en charge des langues autres que l’anglais et le chinois ? Leur point fort principal est l’anglais et le chinois, mais ils peuvent gérer d’autres langues avec une qualité variable.
Puis-je affiner ces modèles pour ma tâche ? Oui, les deux peuvent être affinés ou adaptés à l’aide de techniques comme LoRA, mais les modèles de grande taille nécessitent une puissance de calcul importante.
Novita AI est la plateforme cloud tout-en-un qui concrétise vos ambitions IA. APIs intégrées, serverless, instances GPU — les outils rentables dont vous avez besoin. Éliminez l’infrastructure, commencez gratuitement et faites de votre vision IA une réalité.
