Novita AI 正在推出"构建月"活动,为开发者提供所有主要产品高达20%的独家折扣优惠!
构建多模态代理和复杂工作流的用户常常困惑于一个模型如何能够可靠地解读图像、文档和UI状态,对视觉约束进行推理,协调工具,并在长上下文中保持稳定。GLM-4.6V通过提供统一的视觉-语言架构、原生多模态工具使用以及强大的代理推理能力,直接解决了这些挑战。本文解释了GLM-4.6V的架构设计、基准测试如何验证其有效性、它在实际工作流中的运作方式,以及开发者如何通过API高效访问GLM-4.6V。
GLM-4.6V 的架构是什么?
原生多模态工具使用
GLM-4.6V具备原生多模态工具调用能力:
- 多模态输入: 图像、截图和文档页面可以直接作为工具参数传递,无需先转换为文本描述,从而最大限度地减少信号损失。
- 多模态输出: 模型能够直观地理解工具返回的结果——例如搜索结果、统计图表、渲染的网页截图或检索到的产品图像——并将其纳入后续推理链。
核心架构特性
- 统一的视觉-语言表示
- 视觉特征和文本语义被对齐到共享空间中进行联合推理。
- 长上下文交互
- 支持混合对话历史、文档片段和工具输出的工作流。
- 结构化输出友好
- 相比仅描述性的VLM使用,更适合函数调用、JSON模式遵循和约束遵循。
根据基准测试结果,GLM-4.6V在实际工作流中效果如何?
1. 视觉驱动的任务理解
将抽象任务在图表、截图和视觉规范中落地
GLM-4.6V在将原始视觉输入转化为结构化语义理解方面表现出色,这对于初始化代理工作流至关重要。
| 基准测试 | 测量的能力 | GLM-4.6V |
|---|---|---|
| MMBench v1.1 | 通用视觉问答 | 88.8 |
| MMBench v1.1 (CN) | 跨语言视觉理解 | 88.2 |
| MMStar | 细粒度多模态感知 | 75.9 |
| BLINK (验证集) | 视觉锚定与对齐 | 65.5 |
2. 视觉约束下的多模态推理
将图像作为逻辑和数学推理中的变量
除了感知能力,GLM-4.6V还展示了具有竞争力的多模态推理性能,对于依赖视觉证据做决策的工作流至关重要。
| 基准测试 | 推理重点 | GLM-4.6V |
|---|---|---|
| MMMU (验证集) | 通用多模态推理 | 76.0 |
| MMMU-Pro | 困难多模态推理 | 66.0 |
| MathVista | 视觉数学推理 | 85.2 |
| AI2D | 基于图表的推理 | 88.8 |
3. 基于截图的系统状态诊断
从视觉证据推断UI状态和运行时条件
GLM-4.6V能够从截图和视觉工件推断系统状态,这对于调试和监控代理特别有用。
| 基准测试 | 测量的能力 | GLM-4.6V |
|---|---|---|
| VideoMMMU | 时序与状态推理 | 74.7 |
| DynaMath | 动态视觉推理 | 54.5 |
| WeMath | 应用视觉推理 | 69.8 |
4. 代理规划与工具协调
跨步骤规划、调度和验证工具使用
GLM-4.6V的代理基准测试表明,它适合作为中央控制器而非被动响应器。
| 基准测试 | 代理行为 | GLM-4.6V |
|---|---|---|
| Design2Code | 视觉到行动规划 | 88.6 |
| Flame-React-Eval | 多步反应式推理 | 86.3 |
| OSWorld | 基于工具的环境交互 | 37.2 |
| AndroidWorld | 移动代理推理 | 57.0 |
| WebVoyager | 网页导航与规划 | 81.0 |
5. 长上下文多模态对齐
在文档、图像和工具输出之间保持一致性
长上下文基准测试显示了模型在扩展交互中保持约束的能力。
| 基准测试 | 上下文能力 | GLM-4.6V |
|---|---|---|
| MMLongBench-Doc | 文档级推理 | 54.9 |
| MMLongBench-128K | 超长上下文 | 64.1 |
| LVBench | 长视觉推理 | 59.5 |
6. OCR、图表与空间锚定
从文档和空间布局中提取结构
当工作流依赖于报告、仪表盘或扫描文档的截图时,这些能力至关重要。
| 基准测试 | 能力 | GLM-4.6V |
|---|---|---|
| OCRBench | 文本提取 | 86.5 |
| OCR-Bench v2 (EN) | 英文OCR | 65.1 |
| ChartQAPro | 图表理解 | 65.5 |
| OmniSpatial | 空间推理 | 52.0 |
| RefCOCO-avg (验证集) | 指代表达锚定 | 88.6 |
GLM-4.6V在端到端工作流中扮演什么角色?
GLM-4.6V最有效的角色是作为推理与协调层,而不是一次性答案生成器。它解读多模态输入,提取约束,规划工具使用,并验证中间结果。
| 工作流角色 | 典型输入 | 下游用途 |
|---|---|---|
| 推理 + 协调层(整体角色) | 图像、文档、UI截图、工具输出、任务目标 | 稳定的工具增强工作流,减少错误传播 |
| 视觉驱动的任务理解 | 架构图、序列图、部署截图 | 缩小仓库搜索范围;确定代码路径优先级;生成针对性测试计划 |
| 基于截图的状态推理 | 错误对话框、布局损坏、仪表盘异常 | 自动日志检索;定向追踪;事件处理手册 |
| 文档对齐的推理 | API文档页面、SDK代码片段、参数表 | 生成与文档对齐的代码;契约测试;模式验证 |
| 多步规划与验证 | 高层任务目标;图像;文档;中间工具输出 | 可靠的代理循环;减少上下文漂移;更安全的多工具执行 |
https://www.youtube.com/watch?v=5gqJKZWYOB4
如何通过API访问GLM-4.6V?
Novita AI 提供 ERNIE-4.5-VL-28B-A3B-Thinking API,131K上下文窗口,输入每百万token $0.3,输出每百万token $0.9,支持结构化输出和函数调用。
缓存读取:每百万token $0.055——表示命中缓存时读取缓存token的成本。这些token先前已被计算和存储,因此无需额外的模型推理。在众多请求共享相同提示前缀、复用对话历史、工具指令或固定规则文本的系统,或者RAG检索结果高度重复的场景中,可以实现高缓存命中率,从而显著降低总推理成本。
第一步:登录并访问模型库
登录您的账户,点击模型库按钮。

第二步:选择您的模型
浏览可用选项,选择适合您需求的模型。

第三步:开始免费试用
开始免费试用,探索所选模型的能力。

第四步:获取您的API密钥
为验证API,我们将为您提供一个新的API密钥。进入“设置”页面,您可以复制图中所示的API密钥。

from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="zai-org/glm-4.6v",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=32768,
temperature=0.7
)
print(response.choices[0].message.content)
如何通过 OpenAIAgentsSDK 访问GLM 4.6V
通过将Novita AI与OpenAI Agents SDK集成,构建高级多代理系统:
- 即插即用: 在任何OpenAI Agents工作流中使用Novita AI的LLM。
- 支持交接、路由和工具使用: 设计能够委派、分类或运行功能的代理,全部由Novita AI的模型驱动。
- Python集成: 只需将SDK指向Novita的端点(
https://api.novita.ai/v3/openai)并使用您的API密钥即可。
如何在第三方平台上访问GLM 4.6V
- Hugging Face:通过Novita AI端点在Spaces、pipelines或Transformers库中使用GLM 4.6V。
- 代理与编排框架: 通过官方连接器和分步集成指南,轻松将Novita AI与合作伙伴平台如Continue、AnythingLLM、LangChain、Dify和Langflow连接。
- 兼容OpenAI的API: 享受与Cline和Cursor等工具的无缝迁移和集成,专为OpenAI API标准设计。
GLM-4.6V最适合作为多模态工作流的推理与协调层,而非简单的视觉问答模型。通过统一的视觉-语言表示、长上下文对齐和强大的工具规划能力,GLM-4.6V使多模态代理系统更加可靠、可扩展且成本高效。
常见问题
GLM-4.6V的架构为何适合多模态工作流?
GLM-4.6V采用统一的视觉-语言表示和原生多模态工具调用,使得图像、文档和工具输出能够由GLM-4.6V联合推理。
GLM-4.6V在端到端代理工作流中扮演什么角色?
GLM-4.6V作为推理和协调层,解读多模态输入,规划工具使用,并验证中间结果。
开发者如何通过API使用GLM-4.6V降低成本?
通过利用GLM-4.6V的缓存读取定价,重复的提示、共享前缀以及重复的RAG输出可以被复用,从而显著降低推理成本。
Novita AI 是一体化云平台,助力您的AI愿景。集成API、无服务器、GPU实例——您需要的经济高效工具。消除基础设施负担,免费开始,将您的AI愿景变为现实。
推荐阅读
