Comment accéder à GLM 4.1V 9B Thinking, sans GPU nécessaire

Comment accéder à GLM 4.1V 9B Thinking, sans GPU nécessaire

GLM 4.1V 9B Thinking est un modèle d’IA révolutionnaire car il peut à la fois voir les images et expliquer son raisonnement étape par étape. C’est ce qu’on appelle le raisonnement en chaîne de pensée (CoT), et GLM le fait mieux que tout autre modèle de langage visuel de sa taille. Vous verrez comment il se compare à des modèles plus grands et comment vous pouvez l’essayer vous-même, même si vous ne disposez pas d’un GPU coûteux.

Quels changements GLM 4.1V 9B Thinking a-t-il apportés aux modèles VLM ?

En tant que premier modèle VLM au monde doté d’un raisonnement en chaîne de pensée (CoT), GLM a non seulement impressionné par ses capacités puissantes, mais a également été reconnu pour avoir atteint des performances comparables à Qwen 2.5 72B, malgré un modèle beaucoup plus petit de 9B. Examinons maintenant de plus près les spécifications détaillées et les résultats des benchmarks de GLM.

Attributs de GLM 4.1V 9B Thinking

Attribut de GLM 4.1V 9B

Vous pouvez commencer un essai gratuit directement sur Hugging Face !

Vous pouvez commencer un essai gratuit directement sur Hugging Face ! Vous pouvez commencer un essai gratuit directement sur Hugging Face !

Comment GLM 4.1V 9B Thinking réalise-t-il ces améliorations ?

  1. Renforcement par SFT :
    Les échantillons d’entraînement incluent des annotations explicites Chaîne de Pensée (CoT), ce qui permet au modèle d’apprendre à « réfléchir d’abord, puis répondre. » Cela diffère des modèles traditionnels qui ne produisent qu’une réponse sans montrer les étapes de raisonnement.
  2. Renforcement par RLCS :
    La récompense du modèle n’est pas basée uniquement sur l’exactitude, mais évalue également la qualité du processus de raisonnement et des explications, encourageant une réflexion interne plus cohérente et approfondie.
  3. Support architectural :
    Un encodeur visuel ViT alimente un projecteur MLP, puis le décodeur LLM, permettant au modèle de générer de manière transparente des chemins de raisonnement explicites à partir d’une entrée visuelle, plutôt qu’un simple rappel ou une correspondance de motifs.
  4. Fondation solide en raisonnement :
    Un autre facteur clé : le modèle de base — GLM‑4‑9B 0414 — possède déjà de solides capacités de raisonnement. Par exemple :
    • Il démontre un excellent raisonnement mathématique et des performances générales sur les tâches, se classant parmi les meilleurs modèles open‑source de sa taille.
    • Sur le plan architectural et d’entraînement, GLM‑4‑9B bénéficie d’un pré‑entraînement par remplissage de blancs autorégressif et d’un fine‑tuning ultérieur qui renforcent les compétences de raisonnement logique et multi‑étapes.

Vous pouvez obtenir plus de détails dans l’article : GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning.

GLM 4.1V 9B Thinking VS Qwen 2.5 VL 72B

Benchmark GLM 4.1V 9B Thinking Qwen 2.5 VL 72B Gagnant
MMMU (image) 68.0 70.2 Qwen 2.5 VL
MMMU‑Pro 57.1 51.1 GLM
VideoMMMU 61.0 60.2 GLM
mvBench (video) 70.4 64.6 GLM
AITZ_EM (agent) 83.2 35.3* GLM
Agent (OSWorld) 14.9 8.8 GLM
Agent (AndroidWorld) 41.7 35.0 GLM
Agent (WebVoyageSom) 69.0 40.4 GLM
Agent (Webquest‑SingleQA) 72.1 60.5 GLM
Agent (Webquest‑MultiQA) 54.7 52.1 GLM
Codage (Design2Code) 64.7 41.9 GLM
Codage (Flame‑VLM‑Code) 72.5 46.3 GLM
OCRBench 84.2 85.1 Qwen 2.5 VL
VideoMME (sans texte) 68.2 73.3 Qwen 2.5 VL
VideoMME (avec texte) 73.6 79.1 Qwen 2.5 VL
MMVU 59.4 62.9 Qwen 2.5 VL

Choisissez GLM 4.1V 9B Thinking si votre priorité est le raisonnement multimodal, les capacités d’agent, la résolution de problèmes STEM ou le codage.

Choisissez Qwen 2.5 VL 72B si vous vous concentrez sur la compréhension de documents/images/vidéos, en particulier l’OCR, l’extraction structurée et la perception visuelle.

Si vous souhaitez consulter plus de détails, vous pouvez voir cet article : GLM 4.1V 9B Thinking vs Qwen2.5 VL 72B : Lequel correspond à quoi ?

Il fournit également une comparaison avec d’autres modèles de premier plan.

Il fournit également une comparaison avec d'autres modèles de premier plan. De THUDM

Comment accéder à GLM 4.1V 9B Thinking ?

1. Accès local

Encore plus impressionnant, GLM 4.1V 9B Thinking n’a que 9 milliards de paramètres, ce qui lui permet de fonctionner sur des GPU comme le RTX 4090 ou même le 3090. Comparé à d’autres modèles avec plusieurs fois plus de paramètres, GLM obtient des performances remarquables avec une taille beaucoup plus petite — une réalisation qui souligne sans aucun doute la puissance de l’apprentissage par renforcement.

une réalisation qui souligne sans aucun doute la puissance de l'apprentissage par renforcement. De THUDM

Guide d’installation

Installation :

pip install git+https://github.com/huggingface/transformers.git

Utilisation de base :

from transformers import AutoProcessor, Glm4vForConditionalGeneration
import torch

MODEL_PATH = "THUDM/GLM-4.1V-9B-Thinking"

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://upload.wikimedia.org/wikipedia/commons/f/fa/Grayscale_8bits_palette_sample_image.png"
            },
            {
                "type": "text",
                "text": "describe this image"
            }
        ],
    }
]

processor = AutoProcessor.from_pretrained(MODEL_PATH, use_fast=True)
model = Glm4vForConditionalGeneration.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(generated_ids[0][inputs["input_ids"].shape[1]:], skip_special_tokens=False)
print(output_text)

Si l’achat d’un GPU vous semble trop coûteux, vous pouvez profiter des GPU cloud économiques et fiables de Novita AI — comme le RTX 4090 pour seulement 0,69 $ par heure ou le RTX 3090 pour seulement 0,21 $ par heure !

Essayez les GPU hautes performances de Novita AI

2. Intégration directe via API

Étape 1 : Connectez-vous et accédez à la bibliothèque de modèles

Connectez-vous à votre compte et cliquez sur le bouton Bibliothèque de modèles.

Connectez-vous et accédez à la bibliothèque de modèles

Essayez GLM 4.1V 9B maintenant !

Étape 2 : Choisissez votre modèle

Parcourez les options disponibles et sélectionnez le modèle qui correspond à vos besoins.

Choisissez votre modèle

Étape 3 : Commencez votre essai gratuit

Démarrez votre essai gratuit pour explorer les capacités du modèle sélectionné.

Commencez votre essai gratuit

Étape 4 : Obtenez votre clé API

Pour vous authentifier auprès de l’API, nous vous fournirons une nouvelle clé API. En entrant dans la page « Paramètres », vous pouvez copier la clé API comme indiqué sur l’image.

Obtenez la clé API

Étape 5 : Installez l’API

Installez l’API à l’aide du gestionnaire de packages spécifique à votre langage de programmation.

Après l’installation, importez les bibliothèques nécessaires dans votre environnement de développement. Initialisez l’API avec votre clé API pour commencer à interagir avec Novita AI LLM. Voici un exemple d’utilisation de l’API de complétion de chat pour les utilisateurs Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="session_kgNdXtDPt2zYc95i-nDWPaW4Zl_e7nf4VDpukuIVBKpko1-LE8xCasG4YK7c-3c1xnPzGYRuocFk_DhkPUUQyQ==",
)

model = "thudm/glm-4.1v-9b-thinking"
stream = True # or False
max_tokens = 4000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

Construire un outil simple de reconnaissance d’images avec MCP et GLM

Si vous souhaitez exploiter les capacités de GLM — par exemple, construire un outil simple de reconnaissance d’images pour démontrer son intégration de la reconnaissance visuelle et du raisonnement — vous pouvez utiliser la fonctionnalité MCP prise en charge par Novita AI. Voici le code d’exemple :

import os
import sys
from mcp.server.fastmcp import FastMCP
import requests
import uvicorn
from starlette.applications import Starlette
from starlette.routing import Mount

base_url = "https://api.novita.ai/v3"
headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}"
}

mcp = FastMCP("Novita_API")

@mcp.tool()
def list_models() -> str:
    """
    List all available models from the Novita API.
    """
    url = base_url + "/openai/models"
    response = requests.request("GET", url, headers=headers)
    data = response.json()["data"]

    text = ""
    for i, model in enumerate(data, start=1):
        text += f"Model id: {model['id']}\
"
        text += f"Model description: {model['description']}\
"
        text += f"Model type: {model['model_type']}\
\
"

    return text

@mcp.tool()
def get_model(model_id: str, message) -> str:
    """
    Provide a model ID and a message to get a response from the Novita API.
    """
    url = base_url + "/openai/chat/completions"
    payload = {
        "model": model_id,
        "messages": [
            {
                "content": message,
                "role": "user",
            }
        ],
        "max_tokens": 200,
        "response_format": {
            "type": "text",
        },
    }
    response = requests.request("POST", url, json=payload, headers=headers)
    content = response.json()["choices"][0]["message"]["content"]
    return content

@mcp.tool()
def vision_chat(model_id: str, image_url: str, question: str) -> str:
    """
    Use GLM-4.1V-9B-Thinking to answer a question about an image.
    """
    url = base_url + "/openai/chat/completions"
    payload = {
        "model": model_id,
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": image_url,
                        }
                    },
                    {
                        "type": "text",
                        "text": question,
                    }
                ]
            }
        ],
        "max_tokens": 500
    }
    response = requests.post(url, json=payload, headers=headers)
    return response.json()["choices"][0]["message"]["content"]

if __name__ == "__main__":
   # Run using stdio transport
   mcp.run(transport="stdio")

Si vous souhaitez obtenir les détails, vous pouvez consulter cet article : Comment construire votre premier serveur MCP avec Novita AI !

GLM 4.1V 9B Thinking est facile à utiliser, super intelligent et ne nécessite pas de matériel coûteux. Vous pouvez tester ses capacités de reconnaissance d’images et de raisonnement avec seulement quelques lignes de code, que ce soit sur votre propre machine ou dans le cloud. Si vous voulez voir jusqu’où l’IA multimodale est arrivée, essayez GLM !

Qu’est-ce qui est spécial avec GLM 4.1V 9B Thinking ?

C’est le premier modèle qui peut à la fois « voir » et montrer ses étapes de raisonnement, pas seulement donner des réponses.

Puis-je essayer GLM 4.1V 9B sans disposer d’un GPU puissant ?

Oui ! Vous pouvez utiliser des GPU cloud abordables ou l’essayer gratuitement sur le Playground Novita AI.

Comment puis-je intégrer GLM 4.1V 9B Thinking dans mes propres projets ?

Vous pouvez l’exécuter localement avec Python et Hugging Face, y accéder via l’API de Novita AI, ou même construire vos propres outils de reconnaissance d’images en utilisant MCP comme montré dans les exemples de code fournis.

Novita AI est la plateforme cloud tout-en-un qui alimente vos ambitions en IA. API intégrées, serverless, instances GPU — les outils rentables dont vous avez besoin. Éliminez les infrastructures, commencez gratuitement et faites de votre vision IA une réalité.

Lecture recommandée