GLM-4.1V-9B-Thinking：革命性多模态AI现已上线Novita AI

什么是 GLM-4.1V-9B-Thinking？
革命性训练框架
与其他高级 VLM 的对比
运行时需求
如何在 Novita AI 上使用 GLM-4.1V-9B-Thinking
结论

GLM-4.1V-9B-Thinking 是一款突破性的 90 亿参数视觉语言模型，首次将推理优先方法引入多模态 AI。由 THUDM 开发，该模型通过独特的“思考范式”实现了透明的逐步推理过程，从而达成行业领先的性能。

尽管体积紧凑，GLM-4.1V-9B-Thinking 在 18 个基准测试中能够媲美甚至超越参数量大得多的 720 亿参数模型，展现出在多模态推理领域的卓越效率与能力。

限时优惠：新用户可领取 $10 免费额度，立即体验并利用 GLM-4.1V-9B-Thinking 进行开发。

以下是 GLM-4.1V-9B-Thinking API 在 Novita AI 的当前定价：$0.035 / M 输入 token，$0.138 / M 输出 token

什么是 GLM-4.1V-9B-Thinking？

视觉语言模型（VLM）已成为智能系统的基础组件。随着现实世界中的 AI 任务日益复杂，VLM 必须超越基本的多模态感知，展现出高级推理能力。这一演进聚焦于提升准确性、全面性和整体智能水平——为复杂问题求解、长上下文理解以及多模态智能体等应用铺平道路。

GLM-4.1V-9B-Thinking 是一款为满足这些需求而设计的下一代视觉语言模型，旨在推进通用多模态理解与推理。基于 GLM-4-9B-0414 基础模型，它引入了独特的“思考范式”，使其与众不同。

这一新范式允许模型在给出最终输出之前进行明确的、逐步的推理。与传统模型直接生成响应不同，GLM-4.1V-9B-Thinking 将其推理过程外部化，使之透明、可解释且可验证——为构建更可靠、能力更强的 AI 系统铺平道路。

主要特性与创新

灵活的输入处理：模型支持任意图像分辨率和宽高比。它集成了 2D-RoPE，能够有效处理极宽高比（超过 200:1）或高分辨率（超过 4K）的图像。

位置嵌入自适应：为保留预训练 ViT 的基础能力，模型保留了原始的可学习绝对位置嵌入。训练过程中，通过双三次插值将这些嵌入动态适应到可变分辨率输入。

时间理解：对于视频内容，模型在每个帧 token 后插入时间索引 token，时间索引通过将每帧的时间戳编码为字符串来实现。这种设计明确告知模型真实世界的时间戳以及帧之间的时间距离。

扩展上下文支持：模型支持 64K 上下文长度，并提供中英双语能力，在长文档理解和跨文化应用中表现强大。

相较前代模型的关键改进：

该系列首个专注于推理的模型，在多个子领域达到世界领先性能
支持 64K 上下文长度
处理任意宽高比和最高 4K 图像分辨率
提供支持中英双语的开放源代码版本

革命性训练框架

GLM-4.1V-9B-Thinking 采用创新训练方法，包含基于课程采样的强化学习（RLCS），系统性地提升了跨多个领域的推理能力。

阶段一：预训练基础
模型经过大规模预训练，具备强大的基础能力，涵盖大量包含准确事实知识的图像-文本对、自整理的交错图像与文本学术语料库，以及标注文档与图表。

阶段二：监督微调
该阶段作为强化学习的桥梁，将基础 VLM 转化为能够进行长思维链推理的模型。每个响应遵循标准结构，包含 thinking 和 <answer> 部分。

阶段三：强化学习创新
团队引入了基于课程采样的强化学习（RLCS），以推动大规模、跨领域的推理能力。RLCS 结合课程学习与难度感知采样，提升训练效率。

来源： THUDM

与其他高级 VLM 的对比

来源： THUDM

卓越效率：尽管体积相对紧凑，GLM-4.1V-9B-Thinking 在 28 个基准测试中的 18 个上超越了更大的 Qwen2.5-VL-72B 模型。这包括特别具有挑战性的任务，如 MMStar（72.9 vs 70.8）、MUIRBENCH（74.7 vs 62.9）、MMMU-Pro（57.1 vs 51.1）和 ChartMuseum（48.8 vs 39.6），展现了该模型的卓越效率与能力。

与专有模型的竞争性：与专有模型 GPT-4o 相比，GLM-4.1V-9B-Thinking 在大多数任务上取得了更优结果，包括 MMStar（72.9 vs 66.2）、MUIRBENCH（74.7 vs 69.7）、AI2D（87.9 vs 84.8）、MMMU-Pro（57.1 vs 54.6）、MathVista（80.7 vs 64.0）和 MotionBench（59.0 vs 58.0）。尽管 GPT-4o 规模更大且具有闭源优势，GLM-4.1V-9B-Thinking 仍取得了这样的性能。

在专项任务中的主导地位：该模型在 GUI 智能体任务中表现尤为突出：WebQuest-SingleQA 任务得分 72.1（对比 Qwen2.5-VL-72B 的 60.5 和 GPT-4o 的 57.0），WebVoyageSom 得分 69.0（对比 Qwen2.5-VL-72B 的 40.4 和 GPT-4o 的 59.4）。在编码任务中，Flame-VLM-Code 得分 72.5，大幅超越 72B 模型的 46.3，同时与 GPT-4o（75.0）保持竞争力。

最佳资源效率：这些发现强调了 GLM-4.1V-9B-Thinking 在性能与效率之间提供了出色的平衡。这使其成为计算资源受限的现实部署场景中极具吸引力的选择，在资源约束下提供了实用且强大的解决方案，同时在与更大规模系统的竞争中保持竞争力。

立即体验 GLM-4.1V-9B-Thinking 演示

运行时需求

该模型高效架构支持在不同硬件配置下灵活部署，以下为官方规格说明。

推理

设备（单 GPU）	框架	最小内存	速度	精度
NVIDIA A100	transformers	22GB	14 - 22 Token/秒	BF16
NVIDIA A100	vLLM	22GB	60 - 70 Token/秒	BF16

微调

以下结果基于使用 LLaMA-Factory 工具包进行的图像微调。

设备（集群）	策略	最小内存 / GPU 数量	批量大小（每 GPU）	冻结
NVIDIA A100	LORA	21GB / 1 GPU	1	冻结 VIT
NVIDIA A100	FULL ZERO2	280GB / 4 GPU	1	冻结 VIT
NVIDIA A100	FULL ZERO3	192GB / 4 GPU	1	冻结 VIT
NVIDIA A100	FULL ZERO2	304GB / 4 GPU	1	不冻结
NVIDIA A100	FULL ZERO3	210GB / 4 GPU	1	不冻结

注意：使用 Zero2 微调可能导致零损失；建议使用 Zero3 以获得稳定训练。

如何在 Novita AI 上使用 GLM-4.1V-9B-Thinking

在 Novita AI 上开始使用 GLM-4.1V-9B-Thinking 快速、简单且无风险。通过推荐计划，你将获得 $10 的免费额度——足以全面探索 GLM-4.1V-9B-Thinking 的多模态推理能力、构建原型，甚至在无需前期成本的情况下启动你的第一个用例。

使用 Playground（无需编码）

即时访问：注册，领取免费额度，立即开始体验 GLM-4.1V-9B-Thinking 及其他顶级多模态模型。

交互式界面：实时测试图像理解、图表分析和透明推理工作流。通过直观界面体验模型独特的思考范式。

模型对比：轻松在 GLM-4.1V-9B-Thinking 与其他视觉语言模型及纯文本模型之间切换，找到最适合你多模态需求的模型。

通过 API 集成（适合开发者）

使用 Novita AI 的统一 REST API 将 GLM-4.1V-9B-Thinking 无缝集成到你的应用、工作流或聊天机器人中——无需管理模型权重或基础设施。

选项 1：直接 API 集成（Python 示例）

要开始使用多模态输入，只需使用下面的代码片段：

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "thudm/glm-4.1v-9b-thinking"
stream = True # 或 False
max_tokens = 4000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

主要特性：

统一端点：/v3/openai 支持 OpenAI 的 Chat Completions API 格式。
灵活控制： 调整 temperature、top-p、惩罚项等，获得定制结果。
流式与批处理： 选择你偏好的响应模式。

选项 2：使用 OpenAI Agents SDK 构建多智能体工作流

通过将 Novita AI 与 OpenAI Agents SDK 集成，构建高级多模态智能体系统：

即插即用：在任何 OpenAI Agents 工作流中使用 GLM-4.1V-9B-Thinking 进行视觉语言任务。

支持交接、路由和工具使用：设计能够分析视觉内容、委派任务或运行函数的智能体，所有功能均由 GLM-4.1V-9B-Thinking 的推理能力驱动。

Python 集成：只需将 SDK 指向 Novita 的端点（https://api.novita.ai/v3/openai），并使用你的 API 密钥，即可实现无缝的多模态智能体工作流。

在第三方平台上连接 GLM-4.1V-9B-Thinking API

Hugging Face：通过 Novita AI 端点在 Spaces、pipelines 或 Transformers 库中使用 GLM-4.1V-9B-Thinking 进行多模态应用。

智能体与编排框架： 通过官方连接器和分步集成指南，轻松将 Novita AI 与合作伙伴平台如 Continue、AnythingLLM、LangChain、Dify 和 Langflow 连接。

兼容 OpenAI 的 API： 享受与 Cline 和 Cursor 等工具的无缝迁移与集成，这些工具专为 OpenAI API 标准设计。

结论

GLM-4.1V-9B-Thinking 是多模态 AI 领域的一个变革性里程碑，证明在 90 亿参数模型中也能高效实现高级推理能力。通过其创新的 RLCS 训练框架和独特思考范式，它在多个基准测试中媲美甚至超越更大的 720 亿参数系统。

立即在 Novita AI 上体验 GLM-4.1V-9B-Thinking 演示并领取你的免费额度！

Novita AI 是一个 AI 云平台，为开发者提供通过简单 API 部署 AI 模型的便捷方式，同时也提供经济且可靠的 GPU 云，用于构建和扩展应用。

GLM-4.1V-9B-Thinking：革命性多模态AI现已上线Novita AI