Novita AI 上的 GLM-4.6V：支持原生工具调用的视觉 AI

什么是 GLM-4.6V？
主要特性与能力
性能与架构
在 Novita AI 上开始使用 GLM-4.6V
总结

GLM-4.6V 现已登陆 Novita AI 平台，将智谱 AI 先进的视觉语言模型与突破性的多模态能力相结合。基础版本拥有 106B 参数，配备 128K 令牌上下文窗口，在同等参数规模的模型中达到了视觉理解的最优性能。

该最新版本首次集成了原生函数调用（Function Calling）能力，有效弥合了视觉感知与可执行动作之间的鸿沟。无论你是在构建多模态智能体、处理复杂文档，还是开发视觉编辑应用，GLM-4.6V 都能通过 Novita AI 开发者友好的基础设施提供所需的能力。

尝试 GLM-4.6V 演示

什么是 GLM-4.6V？

GLM-4.6V 是智谱 AI 的高级视觉语言模型，提供全面的多模态理解与生成能力。作为 GLM-V 模型家族的一部分，它通过原生函数调用集成，在连接视觉感知与可执行智能方面实现了重大突破。

双模型架构： GLM-4.6V 提供两个版本：106B 参数的基础模型，专为云端和高性能集群场景设计；以及 9B 参数的 GLM-4.6V-Flash，针对本地部署和低延迟应用进行了优化。两者均根据不同的部署需求提供了强大的多模态能力。

扩展上下文窗口： GLM-4.6V 拥有 128K 令牌上下文窗口，能够处理多文档或长文档输入，同时直接将格式化丰富的页面作为图像进行解读。这种扩展的上下文使其能够处理复杂的、包含大量图片的文档，无需事先转换为纯文本。

原生函数调用： GLM-4.6V 在 GLM-V 系列中首次集成原生函数调用能力。这一突破有效连接了视觉感知与可执行动作，为现实业务场景中的多模态智能体提供了统一的技术基础。

最先进性能： GLM-4.6V 在多个主要多模态基准测试中，于同等参数规模的模型中实现了视觉理解的最优性能，在处理和解读视觉信息方面展现出卓越能力。

主要特性与能力

GLM-4.6V 引入了若干专门能力，使其在多模态应用中格外高效。

多模态文档理解

GLM-4.6V 可处理多达 128K 令牌的多文档或长文档输入，直接以图像形式解读格式化丰富的页面。模型能够联合理解文本、布局、图表、表格和图形，从而准确理解复杂的、包含大量图片的文档。这一能力消除了预处理或文本提取的需要，允许直接分析 PDF、报告、演示文稿以及其他视觉文档。

前端复刻与视觉编辑

该模型可从 UI 截图重建像素级准确的 HTML/CSS，并支持自然语言驱动的编辑。GLM-4.6V 能够视觉检测布局、组件和样式，生成干净代码，并通过简单的用户指令应用迭代视觉修改。这使得它在快速原型设计、设计到代码工作流以及自动 UI 生成方面极具价值。

交错图文内容生成

GLM-4.6V 支持从复杂的多模态输入中创建高质量混合媒体内容。模型接收涵盖文档、用户输入和工具检索图像的多模态上下文，然后合成连贯的、与任务匹配的交错图文内容。在生成过程中，它可以主动调用搜索和检索工具来收集和整理额外的文本和视觉素材，生成丰富、具有视觉根基的内容。

原生工具集成

集成的函数调用能力使 GLM-4.6V 能够在处理过程中自主调用外部工具。这允许模型获取实时信息、访问数据库、检索图像或基于视觉分析触发动作。原生集成使其特别适合构建复杂的多模态智能体系统。

性能与架构

GLM-4.6V 在全面的多模态评估中表现出强劲性能。

模型架构

GLM-4.6V 采用针对多模态理解优化的复杂架构，建立在 GLM-V 系列的技术基础之上：

基础模型（GLM-4.6V）： 106B 总参数，面向云端部署，提供最大能力
轻量模型（GLM-4.6V-Flash）： 9B 参数，针对边缘部署和降低延迟优化
上下文长度： 128K 令牌，适用于处理大规模多模态输入
视觉编码器： 空间 patch 大小为 14，时间 patch 大小为 2，实现高效视觉处理

在 Novita AI 上开始使用 GLM-4.6V

Novita AI 提供多种方式访问 GLM-4.6V，适合不同技能水平和用例。

使用 Playground（无需编码）

注册后即可在几秒钟内通过交互界面开始体验 GLM-4.6V。上传图像或文档，测试多模态提示，并实时查看输出结果，充分利用完整的 128K 上下文窗口。非常适合在构建完整实现之前进行原型设计并了解模型能力。

通过 API 集成（面向开发者）

使用 Novita AI 的统一 REST API 将 GLM-4.6V 连接到你的应用。

直接 API 集成（Python 示例）

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="zai-org/glm-4.6v",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=32768,
    temperature=0.7
)

print(response.choices[0].message.content)

通过 OpenAI Agents SDK 构建多智能体工作流

构建复杂的多模态智能体系统，即插即用，支持交接、路由和工具集成，并利用原生函数调用和完整的 128K 上下文窗口。

连接第三方平台

智能体框架： 通过官方连接器和分步集成指南，轻松将 Novita AI 与合作伙伴平台如 Continue、AnythingLLM、LangChain、Dify 和 Langflow 连接。

Hugging Face： Novita AI 是 Hugging Face 的官方推理提供商，确保广泛的生态兼容性。

兼容 OpenAI 的 API： 与 Cline、Cursor、Trae 和 Qwen Code 等工具实现无缝迁移和集成，专为 OpenAI API 标准设计。

兼容 Anthropic 的 API： 与 Claude Code 无缝集成，用于智能编码工作流程以及其他兼容 Anthropic API 的工具。

总结

Novita AI 上的 GLM-4.6V 提供了智谱 AI 先进的视觉语言模型，拥有 106B 参数和 128K 上下文窗口，在多模态理解方面达到了最先进性能。借助原生函数调用集成以及文档分析、UI 复刻和混合媒体生成等专门能力，GLM-4.6V 为构建复杂的多模态 AI 应用提供了统一的基础。

立即通过 Novita AI 的 Playground、API 或第三方集成开始探索 GLM-4.6V，以增强你的应用，获得先进的视觉理解、文档处理和多模态推理能力。利用 GLM-4.6V 突破性的视觉语言智能，构建下一代 AI 驱动的解决方案。

Novita AI 是一家领先的 AI 云平台，为开发者提供易于使用的 API 以及经济实惠、可靠的 GPU 基础设施，用于构建和扩展 AI 应用。

Novita AI 上的 GLM-4.6V：支持原生工具调用的视觉 AI

什么是 GLM-4.6V？