GLM 4.6V 已在 Novita AI 上线,作为一个无服务器多模态模型,适用于需要通过托管 API 获得视觉 AI 及原生工具调用能力的团队。截至 2026 年 6 月 24 日,Novita AI 列出的模型 ID 为 zai-org/glm-4.6v,提供兼容 OpenAI 的 API 访问、131,072 个 token 的上下文窗口、32,768 个最大输出 token、函数调用、结构化输出、推理支持,定价为每 100 万个输入 token 0.30 美元、每 100 万个缓存读取输入 token 0.055 美元、每 100 万个输出 token 0.90 美元。
核心要点
- GLM 4.6V 是 Novita AI 上一个具备视觉能力的模型,适用于构建截图分析、文档图像理解、视觉问答、多模态支持以及智能体工作流的团队。
- Novita AI 将 GLM 4.6V 列为无服务器模型,支持文本、图像和视频输入,文本输出,兼容 OpenAI 的对话补全访问,以及兼容 Anthropic 的 API 支持。
- 当前的 Novita AI 模型和定价页面列出了
zai-org/glm-4.6v,拥有 131,072 个 token 的上下文窗口、32,768 个最大输出 token,以及按输入 token、缓存读取输入 token 和输出 token 分别计费的价格。 - 本文属于模型发布和信息介绍页。请据此决定 GLM 4.6V 是否适合你的工作负载;在生成环境实现中需要精确的请求语法时,请参考 Novita API 参考文档。
GLM 4.6V 是什么?
GLM 4.6V 是一个多模态 GLM 模型变体,专为视觉-语言任务设计。从开发者实际角度而言,当提示需要将自然语言指令与视觉证据(如截图、文档页面、图表、仪表盘、表单或视频衍生内容)相结合时,该模型非常有用。
与纯文本聊天模型不同,GLM 4.6V 专为视觉输入会改变答案的场景而设计。支持工作流可能需要先检查客户截图,然后建议修复方案。产品团队可能希望模型将 UI 截图与预期行为进行对比。文档自动化流程可能需要基于布局、表格和可见标签进行推理,而这些信息在纯 OCR 提取后往往难以保留。
在 Novita AI 上,GLM 4.6V 被定位为一个无服务器 API 选项。这为团队提供了一种直接的方式来评估和集成模型,而无需管理 GPU 基础设施、模型服务、扩展或推理运行时设置。实际路径是从 Novita AI 模型页面和 API 文档开始,然后通过兼容 OpenAI 的 API 接口进行连接。
Novita AI 上的 GLM 4.6V API 访问
Novita AI 在模型库中列出了 GLM 4.6V,API 模型 ID 为 zai-org/glm-4.6v。对于已经使用兼容 OpenAI 的对话补全功能的团队,主要的集成细节包括 Novita AI API 密钥、Novita AI 基础 URL 以及 GLM 4.6V 模型 ID。
当前的 GLM 4.6V 模型页面 列出了模型特定的可用性、模态、限制、功能标志和定价。Novita 对话补全 API 参考文档 记录了 API 调用的对话补全端点和响应结构。
从高层来看,GLM 4.6V API 集成使用以下信息:
| API 项目 | 当前值 |
|---|---|
| API 模型 ID | zai-org/glm-4.6v |
| 兼容 OpenAI 的基础 URL | https://api.novita.ai/openai |
| 对话补全 REST 路径 | https://api.novita.ai/openai/v1/chat/completions |
| 典型输出 | 对话补全格式的文本响应 |
| 身份验证 | 通过 Bearer Token 传递 Novita AI API 密钥 |
本页面重点介绍开发者通常首先需要了解的发布级别事实:可用性、API 访问、定价、限制和适用性。有关精确的请求字段、流式行为、工具语法和结构化输出参数,请在将生产代码交付之前使用当前的 API 参考文档。
GLM 4.6V 规格与定价摘要
下表总结了对决定是否在 Novita AI 上评估该模型最重要的 GLM 4.6V 事实。
| 字段 | 详情 |
|---|---|
| 显示名称 | GLM 4.6V |
| API 模型 ID | zai-org/glm-4.6v |
| 访问路径 | 无服务器 API |
| 基础 URL | https://api.novita.ai/openai |
| 对话补全端点 | https://api.novita.ai/openai/v1/chat/completions |
| 输入模态 | 文本、图像、视频 |
| 输出模态 | 文本 |
| 上下文窗口 | 131,072 个 token |
| 最大输出 token | 32,768 个 token |
| 功能标志 | 函数调用、结构化输出、推理 |
| 定价 | 每 100 万个输入 token 0.30 美元;每 100 万个缓存读取输入 token 0.055 美元;每 100 万个输出 token 0.90 美元 |
| 最佳适用场景 | 需要从视觉证据获取文本答案的视觉-语言 API 工作流 |
定价可能发生变化,因此在生产部署或面对客户的成本承诺之前,请确认当前的 Novita AI 定价页面。列出的费率有助于初步预算,但实际支出仍取决于提示长度、图像或视频使用量、生成输出长度、重试、缓存行为以及应用程序处理长上下文的方式。
GLM 4.6V 基准测试与性能信号

该图表来自 Z.ai 发布的官方 GLM-4.6V 模型材料,并镜像在公共 GLM-V 仓库中。主要结论在于广度:GLM-4.6V 被定位为一个通用视觉-语言模型,涵盖 OCR、图表读取、空间推理、文档理解以及智能体式多模态任务。
该图表仍然只是一个起点。它不能告诉你 GLM-4.6V 将如何遵循你的模式,或者它将如何在你实际的截图和文档混合场景下表现。在部署之前,应检查:
- 来自实际工作流的代表性截图和文档页面;
- 必须通过你的解析器的结构化输出或工具调用案例;
- 在典型上下文大小下的延迟和成本。
将官方图表作为 GLM-4.6V 拥有广泛多模态能力的证据,然后根据你自己的准确性、延迟和成本测试做出最终决定。
面向开发者的关键能力
截图和文档工作流的视觉输入
当你的应用程序需要对视觉输入而非纯文本进行推理时,GLM 4.6V 非常有用。产品团队可以总结 UI 截图,支持团队可以对视觉 bug 报告进行分类,文档工作流可以保留在页面过早转换为纯文本时通常丢失的布局线索。
这并不消除验证的必要性。对于高风险文档、私人客户截图或受监管数据,在将视觉输入发送到外部 API 之前,请确保工作流符合你的隐私和数据处理要求。
用于丰富多模态提示的长上下文
131,072 个 token 的上下文窗口为团队提供了空间,可以组合指令、对话历史、检索到的文本、文档摘录和视觉参考。这对于答案依赖于多个上下文片段(而非单个孤立图像)的任务非常有价值。
长上下文仍应被视为一种预算和延迟资源。不要默认发送无限制的对话历史或所有可用文件。根据任务需要,进行裁剪、总结和路由上下文。
函数调用和结构化输出
Novita AI 列出了 GLM 4.6V 支持函数调用和结构化输出。这使得该模型与智能体式应用程序相关,其中视觉理解需要连接到受控的应用程序逻辑,例如创建支持工单、选择检索工具或返回 JSON 分类对象。
应用程序应保持权威性。它仍然需要验证工具参数、检查权限、强制执行模式规则,并在对用户数据、计费或外部系统产生影响的操作之前请求确认。
何时使用 GLM 4.6V
视觉支持分类
当用户提交截图并附带文本描述时,使用 GLM 4.6V。该模型可以帮助总结可见的 UI 状态、提取可能的问题类别,并为人工审核者或下游工作流生成简洁的说明。
文档和图表解读
当视觉布局很重要时,使用 GLM 4.6V。例如扫描表单、报表截图、表格密集的图像、仪表盘图表以及答案依赖于可见结构的设计工件。
多模态智能体工作流
当智能体需要检查视觉状态并选择结构化的下一步操作时,使用 GLM 4.6V。视觉 QA 智能体、浏览器风格的工作流或运营助手可能会受益于将视觉上下文与函数调用和结构化输出相结合。
何时不使用 GLM 4.6V
不要仅仅因为它是多模态就选择 GLM 4.6V。如果你的路径是纯文本、短时间、对延迟敏感且高容量,那么专注于文本的模型可能是更好的默认选择。在 Novita AI 模型库 中比较模型,并根据你自己的提示评估成本、延迟和输出质量。
在工作流具有明确的隐私、保留和访问控制规则之前,避免发送敏感图像或文档。如果涉及机密客户记录、医疗信息、财务文档或截图中可见的内部凭证,请在模型调用之前添加脱敏和策略检查。
对于视频也要谨慎。Novita AI 将视频列为 GLM 4.6V 的输入模态,但生产环境中的视频工作流依赖于文件访问、时长、大小、延迟和请求格式。在将其作为核心面向用户功能之前,请验证你的确切视频路径。
GLM 4.6V 如何融入你的 API 工作流
GLM 4.6V 最适合作为受控应用程序界面背后的多模态推理层。一个典型的架构将 API 密钥保留在后端服务中,接受用户文本和经批准的视觉输入,使用 zai-org/glm-4.6v 调用 Novita AI API,验证响应,然后将结果路由到产品体验中。
对于以文本为主的烟雾测试,兼容 OpenAI 的对话补全 API 是主要路径。对于视觉工作流,应用程序应在身份验证、路由、日志记录和超时行为已经正常工作之后,再添加视觉输入。对于工具或 JSON 工作流,模型输出在传递到任何下游操作之前,应经过确定性验证。
已经使用兼容 OpenAI 客户端的团队通常可以复用相同的客户端模式,并更换为 Novita AI 基础 URL。正在构建新集成的团队应从 Novita AI LLM API 指南 和对话补全 API 参考文档开始。
结论
当你的应用程序需要通过无服务器 API 实现视觉-语言理解时,尤其是在截图分类、文档图像推理、图表解读、视觉 QA 或多模态智能体工作流中,Novita AI 上的 GLM 4.6V 最为合适。已确认的 Novita AI 列表提供了足够的模型、定价、限制和端点信息,以支持进行结构化的评估。
如果工作负载是纯文本、对延迟极其敏感,或者由低成本、高容量请求主导(其中视觉输入不会实质性地改变答案),请选择其他模型。在这些情况下,将 GLM 4.6V 与专注于文本的选项进行比较,并将仅视觉任务路由到多模态模型。
接下来的实际步骤是,使用模型 ID zai-org/glm-4.6v、当前的 Novita AI 定价以及用于精确请求语法的 API 参考文档,在一个小的特定工作负载测试集上试用 GLM 4.6V。
常见问题
GLM 4.6V 是什么?
GLM 4.6V 是一个面向视觉-语言任务的多模态 GLM 模型变体。在 Novita AI 上,它被列为无服务器模型,支持文本、图像和视频输入,输出文本。
GLM 4.6V 在 Novita AI 上可用吗?
是的。截至 2026 年 6 月 24 日,Novita AI 在其模型页面上列出了 GLM 4.6V,提供无服务器 API 访问,模型 ID 为 zai-org/glm-4.6v。
Novita AI 上 GLM 4.6V 的模型 ID 是什么?
在 Novita AI 请求和模型网关配置中,使用 zai-org/glm-4.6v 作为 API 模型 ID。
Novita AI 上 GLM 4.6V 的费用是多少?
截至 2026 年 6 月 24 日,Novita AI 将 GLM 4.6V 定价为每 100 万个输入 token 0.30 美元、每 100 万个缓存读取输入 token 0.055 美元、每 100 万个输出 token 0.90 美元。
GLM 4.6V 最适合用于什么?
GLM 4.6V 最适合用于视觉输入至关重要的 API 工作流,包括截图分类、文档图像解读、图表分析、视觉问答以及需要从图像或视频上下文获得文本输出的多模态智能体工作流。
GLM 4.6V 支持函数调用吗?
是的。当前的 Novita AI 模型页面列出了 GLM 4.6V 支持函数调用。在基于模型输出采取任何操作之前,请在你的应用程序中验证工具参数和权限。
