GLM-4.5V 是智谱AI推出的最新开源多模态大语言模型(LLM),专为在统一系统中处理语言和视觉任务而构建。它是早期GLM-4.1V模型的重大升级,采用**混合专家(MoE)**架构,拥有1060亿参数(每次输入仅激活约120亿参数)。
这种设计使得GLM-4.5V仅在需要时激活专门的“专家”子网络,从而以更低的推理成本实现更优异的性能。该模型引入了3D旋转位置编码(3D-RoPE),支持扩展至64k token的上下文长度,能够轻松处理长文档和多维度输入。
简单来说,GLM-4.5V能够**“看懂”图像和视频并进行推理**,同时支持自然语言对话,是面向开发者的强大视觉语言模型(VLM)。
什么是GLM 4.5V?
- 高级视觉推理能力
- 超越基础图像描述,能够理解复杂图像、科学图表和对比内容
- 支持空间推理:可识别物体和边界框
- 在MMBench和MMBench+等视觉问答基准测试中取得顶尖成绩

来源:Hugging Face
- 多模态输入 + 思考模式
- 对话中支持输入文本、图像和视频
- 提供**“思考模式”**开关:可在输出最终答案前进行逐步推理
- 非常适合需要逻辑解释的复杂任务

来源:Hugging Face
- 统一工具调用
- 专为AI智能体场景设计,可自主调用外部工具或API
- 原生支持函数调用,兼容OpenAI接口
- 采用基于演示的工具使用训练方式
GLM-4.5V是一款功能强大、对开发者友好的多模态AI模型,支持图像理解、视觉问答、文档OCR、代码生成、GUI自动化等能力,所有功能均通过统一接口提供。它非常适合AI智能体、生产力工具、科研等场景。
GLM 4.5V 系统要求
| 项目 | 详情 |
|---|---|
| 模型规模 | 1060亿参数(MoE架构);每token激活120亿参数 |
| 显存(VRAM) | 640GB |
| 基础GPU需求 | 8块NVIDIA H100(单块80GB) |
| 精度选项 | 支持FP16、FP8、INT8、INT4量化格式 |
| 低显存优化配置 | 使用2块80GB GPU,搭配FP8精度和合理分区即可运行 |
| 并行支持 | 支持张量并行和模型并行(例如4块40GB GPU) |
| 核心依赖库 | vLLM、SGLang |
如何访问GLM 4.5V API
通过Novita AI访问GLM-4.5V提供多种路径,可适配不同的技术水平和使用场景。无论你是探索AI能力的企业用户,还是构建生产级应用的开发者,Novita AI都能提供你需要的工具。
1. 使用在线演练场(现已可用 - 无需编码)
- 即时访问:注册账号即可在数秒内开始体验GLM-4.5V模型
- 交互式界面:可测试复杂的视觉推理提示词,实时可视化思维链输出
- 模型对比:可根据你的具体使用场景,将GLM-4.5V与其他主流模型进行对比
该演练场支持直接上传图像、测试各类提示词,无需任何技术配置即可看到即时结果。非常适合在全面落地前进行原型验证、想法测试和模型能力评估。
2. 通过API集成(已正式上线 - 面向开发者)
通过Novita AI的统一REST API,将GLM-4.5V接入你的应用程序。
选项1:直接API集成(Python示例)

from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "zai-org/glm-4.5v"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
核心特性:
- 兼容OpenAI的API,可无缝集成
- 灵活的参数控制,可微调响应效果
- 支持流式输出,可获取实时响应
选项2:使用OpenAI Agents SDK构建多智能体工作流
使用GLM-4.5V构建复杂的多智能体系统:
- 即插即用集成:可在任意OpenAI Agents工作流中使用GLM-4.5V
- 高级智能体能力:支持任务交接、路由和工具集成,搭配卓越的视觉推理性能
- 可扩展架构:可设计利用GLM-4.5V统一推理、编码和视觉分析能力的智能体
3. 对接第三方平台
开发工具:通过兼容OpenAI的API,与Cursor、Trae、Qwen Code、Cline等主流IDE和开发环境无缝集成。
编排框架:通过官方连接器与LangChain、Dify、CrewAI、Langflow等AI编排平台对接。
Hugging Face集成:Novita AI是Hugging Face的官方推理服务提供商,确保广泛的生态兼容性。
使用GLM 4.5V命令行界面(CLI)
对于偏好本地运行模型、或希望对环境有更多控制权的开发者,也可以通过命令行界面使用GLM-4.5V。智谱AI已开源该模型权重,并提供了在自有硬件上运行模型的工具。
该模型已在Hugging Face Hub上开源,仓库地址为zai-org/GLM-4.5V。你可以下载模型后使用Transformers库生成输出,例如在Python脚本或Jupyter笔记本中运行:
python3 inference/trans_infer_cli.py --model-path zai-org/GLM-4.5V --image test.jpg --question "这张图里有什么?"
| 特性 | CLI | API |
|---|---|---|
| 使用方式 | 在终端输入命令和参数 | 在代码中调用库/发送HTTP请求 |
| 输出形式 | 直接打印在终端中 | 返回对象/JSON,便于后续处理 |
| 适用场景 | 模型测试、快速推理、小型脚本 | 应用开发、服务集成、大规模调用 |
| 灵活性 | 参数固定,组合有限 | 完全可编程,支持复杂逻辑 |
| 依赖要求 | 仅需脚本/CLI工具 | 需要编写代码并管理依赖 |
使用MCP和GLM4.5V构建简易图像识别工具
如果你想利用GLM的能力,例如构建一个简易图像识别工具来展示其视觉识别与推理的集成能力,可以使用Novita AI支持的MCP功能。以下是示例代码:
import os
import sys
from mcp.server.fastmcp import FastMCP
import requests
import uvicorn
from starlette.applications import Starlette
from starlette.routing import Mount
base_url = "https://api.novita.ai/v3"
headers = {
"Content-Type": "application/json",
"Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}"
}
mcp = FastMCP("Novita_API")
@mcp.tool()
def list_models() -> str:
"""
List all available models from the Novita API.
"""
url = base_url + "/openai/models"
response = requests.request("GET", url, headers=headers)
data = response.json()["data"]
text = ""
for i, model in enumerate(data, start=1):
text += f"Model id: {model['id']}\
"
text += f"Model description: {model['description']}\
"
text += f"Model type: {model['model_type']}\
\
"
return text
@mcp.tool()
def get_model(model_id: str, message) -> str:
"""
Provide a model ID and a message to get a response from the Novita API.
"""
url = base_url + "/openai/chat/completions"
payload = {
"model": model_id,
"messages": [
{
"content": message,
"role": "user",
}
],
"max_tokens": 200,
"response_format": {
"type": "text",
},
}
response = requests.request("POST", url, json=payload, headers=headers)
content = response.json()["choices"][0]["message"]["content"]
return content
@mcp.tool()
def vision_chat(model_id: str, image_url: str, question: str) -> str:
"""
Use GLM-4.1V-9B-Thinking to answer a question about an image.
"""
url = base_url + "/openai/chat/completions"
payload = {
"model": model_id,
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": image_url,
}
},
{
"type": "text",
"text": question,
}
]
}
],
"max_tokens": 500
}
response = requests.post(url, json=payload, headers=headers)
return response.json()["choices"][0]["message"]["content"]
if __name__ == "__main__":
# Run using stdio transport
mcp.run(transport="stdio")
GLM 4.5V常见问题排查
1. 内存与加载错误(CUDA OOM) 原因:模型规模过大,无法装入当前可用的GPU显存中。 解决方案:
- 使用推荐的推理后端
- 示例:在SGLang中启用
--attention-backend fa3参数以降低显存占用
- 示例:在SGLang中启用
- 使用更多GPU,减小张量并行规模
- 示例:将张量并行度设置为TP=8(8块GPU)而非TP=4,可让每块GPU分配更小的模型分片
- 加载量化后的模型(8位或4位)
- 示例:使用HuggingFace Transformers时,可设置
load_in_8bit=True
- 示例:使用HuggingFace Transformers时,可设置
- 选择显存更高的云实例
- 示例:A100(80GB)或H200(141GB);H200可在单块GPU上运行该模型
- 将长输入拆分为更小的块处理
- 示例:将长视频拆分为更短的片段,或关闭思考模式以减小输出规模
2. 图像输入无法识别 原因:图像格式不正确,或未正确传递给模型。 解决方案:
- 对于OpenAI风格的API,需将输入构造为特殊消息格式
- 示例:
[{"type": "image_url", "image_url": {"url": "<URL>"}}, {"type": "text", "text": "你的问题"}]
- 示例:
- 使用HuggingFace Transformers时,需使用
AutoProcessor- 示例:推理前调用
processor(images=[...], text=[...])
- 示例:推理前调用
- 确保图像URL为公开可访问,或在不支持的情况下使用base64编码
- 如果模型忽略图像或提示未收到图像,说明输入可能无效
4. 异常输出格式 问题表现:
- 输出包含原始HTML(例如
<div>...</div>) - 出现意外的转义字符(例如
<) - 答案重复或追加输出 解决方案:
- 要求模型使用Markdown格式输出代码(例如使用三个反引号)
- 应用官方仓库提供的补丁修复HTML转义问题
- 如无需要可关闭思考模式
- 对输出进行后处理,移除重复内容
5. 工具调用异常输出
问题:模型输出工具相关命令(例如<|search|>)。
解决方案:
使用标准聊天补全API而非智能体端点,同时避免提示词模拟工具使用场景。
6. 准确率限制 已知限制:
- 在细粒度视觉任务(如计数、人脸识别)上表现可能不佳
- 纯文本问题可能更适合由专门的文本模型回答
- 处理超长文档或视频时速度较慢,可能出现超时 建议:
- 长输入使用流式模式,以获取部分输出结果
- 将大输入拆分为更小的片段
- 确认你的API提供商的实际上下文长度限制
GLM-4.5V是视觉语言AI领域的颠覆性产品,将此前仅属于专有模型的能力带到了开源和自托管世界。我们介绍了GLM-4.5V是什么、它的独特优势、运行所需的配置、常见问题排查方法,以及多种访问方式(云API或本地CLI)。掌握这些知识后,开发者可以放心地将GLM-4.5V集成到自己的项目中
我应该从Gemma 3 27B升级到GLM 4.5V吗?
GLM-4.5V是智谱AI最新推出的开源多模态大语言模型,支持处理语言和视觉任务,涵盖文本、图像、视频,具备高级推理能力。
GLM-4.5V能做什么?
它支持高级视觉推理(如科学图表、空间推理、视觉问答)、长文档理解、代码生成、OCR、GUI自动化和多模态对话。
GLM-4.5V和早期模型有什么区别?
它在GLM-4.1V的基础上进行了升级,采用混合专家(MoE)架构,拥有1060亿参数(每次输入仅激活120亿),同时搭载3D-RoPE实现64k上下文长度,实现了更低的成本和更强的性能。
Novita AI是助力你实现AI愿景的一站式云平台。集成API、无服务器、GPU实例——你需要的性价比工具。无需操心基础设施,免费即可开始,让你的AI想法落地成真。
