GLM-4.1V-9B-Thinking:革命性多模态AI现已上线Novita AI

GLM-4.1V-9B-Thinking:革命性多模态AI现已上线Novita AI

GLM-4.1V-9B-Thinking 是一款突破性的 90 亿参数视觉语言模型,首次将推理优先方法引入多模态 AI。由 THUDM 开发,该模型通过独特的“思考范式”实现了透明的逐步推理过程,从而达成行业领先的性能。

尽管体积紧凑,GLM-4.1V-9B-Thinking 在 18 个基准测试中能够媲美甚至超越参数量大得多的 720 亿参数模型,展现出在多模态推理领域的卓越效率与能力。

限时优惠:新用户可领取 $10 免费额度,立即体验并利用 GLM-4.1V-9B-Thinking 进行开发。

以下是 GLM-4.1V-9B-Thinking API 在 Novita AI 的当前定价:$0.035 / M 输入 token,$0.138 / M 输出 token

什么是 GLM-4.1V-9B-Thinking?

视觉语言模型(VLM)已成为智能系统的基础组件。随着现实世界中的 AI 任务日益复杂,VLM 必须超越基本的多模态感知,展现出高级推理能力。这一演进聚焦于提升准确性、全面性和整体智能水平——为复杂问题求解、长上下文理解以及多模态智能体等应用铺平道路。

GLM-4.1V-9B-Thinking 是一款为满足这些需求而设计的下一代视觉语言模型,旨在推进通用多模态理解与推理。基于 GLM-4-9B-0414 基础模型,它引入了独特的“思考范式”,使其与众不同。

这一新范式允许模型在给出最终输出之前进行明确的、逐步的推理。与传统模型直接生成响应不同,GLM-4.1V-9B-Thinking 将其推理过程外部化,使之透明、可解释且可验证——为构建更可靠、能力更强的 AI 系统铺平道路。

主要特性与创新

灵活的输入处理:模型支持任意图像分辨率和宽高比。它集成了 2D-RoPE,能够有效处理极宽高比(超过 200:1)或高分辨率(超过 4K)的图像。

位置嵌入自适应:为保留预训练 ViT 的基础能力,模型保留了原始的可学习绝对位置嵌入。训练过程中,通过双三次插值将这些嵌入动态适应到可变分辨率输入。

时间理解:对于视频内容,模型在每个帧 token 后插入时间索引 token,时间索引通过将每帧的时间戳编码为字符串来实现。这种设计明确告知模型真实世界的时间戳以及帧之间的时间距离。

扩展上下文支持:模型支持 64K 上下文长度,并提供中英双语能力,在长文档理解和跨文化应用中表现强大。

相较前代模型的关键改进

  • 该系列首个专注于推理的模型,在多个子领域达到世界领先性能
  • 支持 64K 上下文长度
  • 处理任意宽高比和最高 4K 图像分辨率
  • 提供支持中英双语的开放源代码版本

革命性训练框架

GLM-4.1V-9B-Thinking 采用创新训练方法,包含基于课程采样的强化学习(RLCS),系统性地提升了跨多个领域的推理能力。

阶段一:预训练基础
模型经过大规模预训练,具备强大的基础能力,涵盖大量包含准确事实知识的图像-文本对、自整理的交错图像与文本学术语料库,以及标注文档与图表。

阶段二:监督微调
该阶段作为强化学习的桥梁,将基础 VLM 转化为能够进行长思维链推理的模型。每个响应遵循标准结构,包含 thinking<answer> 部分。

阶段三:强化学习创新
团队引入了基于课程采样的强化学习(RLCS),以推动大规模、跨领域的推理能力。RLCS 结合课程学习与难度感知采样,提升训练效率。

基于课程采样的强化学习

来源: THUDM

与其他高级 VLM 的对比

与其他高级 VLM 的对比

来源: THUDM

卓越效率:尽管体积相对紧凑,GLM-4.1V-9B-Thinking 在 28 个基准测试中的 18 个上超越了更大的 Qwen2.5-VL-72B 模型。这包括特别具有挑战性的任务,如 MMStar(72.9 vs 70.8)、MUIRBENCH(74.7 vs 62.9)、MMMU-Pro(57.1 vs 51.1)和 ChartMuseum(48.8 vs 39.6),展现了该模型的卓越效率与能力。

与专有模型的竞争性:与专有模型 GPT-4o 相比,GLM-4.1V-9B-Thinking 在大多数任务上取得了更优结果,包括 MMStar(72.9 vs 66.2)、MUIRBENCH(74.7 vs 69.7)、AI2D(87.9 vs 84.8)、MMMU-Pro(57.1 vs 54.6)、MathVista(80.7 vs 64.0)和 MotionBench(59.0 vs 58.0)。尽管 GPT-4o 规模更大且具有闭源优势,GLM-4.1V-9B-Thinking 仍取得了这样的性能。

在专项任务中的主导地位:该模型在 GUI 智能体任务中表现尤为突出:WebQuest-SingleQA 任务得分 72.1(对比 Qwen2.5-VL-72B 的 60.5 和 GPT-4o 的 57.0),WebVoyageSom 得分 69.0(对比 Qwen2.5-VL-72B 的 40.4 和 GPT-4o 的 59.4)。在编码任务中,Flame-VLM-Code 得分 72.5,大幅超越 72B 模型的 46.3,同时与 GPT-4o(75.0)保持竞争力。

最佳资源效率:这些发现强调了 GLM-4.1V-9B-Thinking 在性能与效率之间提供了出色的平衡。这使其成为计算资源受限的现实部署场景中极具吸引力的选择,在资源约束下提供了实用且强大的解决方案,同时在与更大规模系统的竞争中保持竞争力。

立即体验 GLM-4.1V-9B-Thinking 演示

运行时需求

该模型高效架构支持在不同硬件配置下灵活部署,以下为官方规格说明。

推理


设备(单 GPU)
框架 最小内存 速度 精度
NVIDIA A100 transformers 22GB 14 - 22 Token/秒 BF16
NVIDIA A100 vLLM 22GB 60 - 70 Token/秒 BF16

微调

以下结果基于使用 LLaMA-Factory 工具包进行的图像微调。

设备(集群) 策略 最小内存 / GPU 数量 批量大小(每 GPU) 冻结
NVIDIA A100 LORA 21GB / 1 GPU 1 冻结 VIT
NVIDIA A100 FULL ZERO2 280GB / 4 GPU 1 冻结 VIT
NVIDIA A100 FULL ZERO3 192GB / 4 GPU 1 冻结 VIT
NVIDIA A100 FULL ZERO2 304GB / 4 GPU 1 不冻结
NVIDIA A100 FULL ZERO3 210GB / 4 GPU 1 不冻结

注意:使用 Zero2 微调可能导致零损失;建议使用 Zero3 以获得稳定训练。

如何在 Novita AI 上使用 GLM-4.1V-9B-Thinking

在 Novita AI 上开始使用 GLM-4.1V-9B-Thinking 快速、简单且无风险。通过推荐计划,你将获得 $10 的免费额度——足以全面探索 GLM-4.1V-9B-Thinking 的多模态推理能力、构建原型,甚至在无需前期成本的情况下启动你的第一个用例。

使用 Playground(无需编码)

即时访问:注册,领取免费额度,立即开始体验 GLM-4.1V-9B-Thinking 及其他顶级多模态模型。

交互式界面:实时测试图像理解、图表分析和透明推理工作流。通过直观界面体验模型独特的思考范式。

模型对比:轻松在 GLM-4.1V-9B-Thinking 与其他视觉语言模型及纯文本模型之间切换,找到最适合你多模态需求的模型。

通过 API 集成(适合开发者)

使用 Novita AI 的统一 REST API 将 GLM-4.1V-9B-Thinking 无缝集成到你的应用、工作流或聊天机器人中——无需管理模型权重或基础设施。

选项 1:直接 API 集成(Python 示例)

要开始使用多模态输入,只需使用下面的代码片段:

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "thudm/glm-4.1v-9b-thinking"
stream = True # 或 False
max_tokens = 4000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

主要特性:

  • 统一端点:/v3/openai 支持 OpenAI 的 Chat Completions API 格式。
  • 灵活控制: 调整 temperature、top-p、惩罚项等,获得定制结果。
  • 流式与批处理: 选择你偏好的响应模式。

选项 2:使用 OpenAI Agents SDK 构建多智能体工作流

通过将 Novita AI 与 OpenAI Agents SDK 集成,构建高级多模态智能体系统:

即插即用:在任何 OpenAI Agents 工作流中使用 GLM-4.1V-9B-Thinking 进行视觉语言任务。

支持交接、路由和工具使用:设计能够分析视觉内容、委派任务或运行函数的智能体,所有功能均由 GLM-4.1V-9B-Thinking 的推理能力驱动。

Python 集成:只需将 SDK 指向 Novita 的端点(https://api.novita.ai/v3/openai),并使用你的 API 密钥,即可实现无缝的多模态智能体工作流。

在第三方平台上连接 GLM-4.1V-9B-Thinking API

Hugging Face:通过 Novita AI 端点在 Spaces、pipelines 或 Transformers 库中使用 GLM-4.1V-9B-Thinking 进行多模态应用。

智能体与编排框架: 通过官方连接器和分步集成指南,轻松将 Novita AI 与合作伙伴平台如 ContinueAnythingLLMLangChainDifyLangflow 连接。

兼容 OpenAI 的 API: 享受与 ClineCursor 等工具的无缝迁移与集成,这些工具专为 OpenAI API 标准设计。

结论

GLM-4.1V-9B-Thinking 是多模态 AI 领域的一个变革性里程碑,证明在 90 亿参数模型中也能高效实现高级推理能力。通过其创新的 RLCS 训练框架和独特思考范式,它在多个基准测试中媲美甚至超越更大的 720 亿参数系统。

立即在 Novita AI 上体验 GLM-4.1V-9B-Thinking 演示领取你的免费额度

Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷方式,同时也提供经济且可靠的 GPU 云,用于构建和扩展应用。