本快速入门指南演示了如何通过兼容 OpenAI 的聊天补全 API 在 Novita AI 上调用 GLM 5.2。请使用已验证的模型 ID zai-org/glm-5.2、Novita AI 的基础 URL,完成一次小型初始请求,然后再测试该模型的 1,048,576 token 上下文窗口、131,072 token 最大输出、函数调用、结构化输出、推理支持,或当前模型列表中显示的 Anthropic 兼容访问方式。
GLM 5.2 API 快速上手前提条件
GLM 5.2 是 Z.AI 面向长周期自主工作设计的旗舰模型。Novita AI 模型页面将其描述为一款为持续任务(如规划、执行、迭代优化、编码以及交付生产级成果)而构建的模型。对开发者而言,实际要点很简单:GLM 5.2 不仅仅是另一个短对话模型。它被定位用于那些模型需要足够上下文来持续关注大型任务、代码库、文档集或代理状态的场景。
在 Novita AI 上,GLM 5.2 通过无服务器模型 API 暴露。如果你希望评估该模型,但不想自建 GPU 基础设施、通过自定义推理堆栈路由流量或自行管理长上下文服务,这一点就很重要。你需要使用 Novita AI 的 API 密钥、兼容 OpenAI 的端点以及准确的模型 ID:
zai-org/glm-5.2
当前 Novita AI LLM API 指南 记录了平台用于聊天和补全任务的 OpenAI 兼容方式。聊天补全 API 参考 记录了下方示例使用的 REST 路径:
https://api.novita.ai/openai/v1/chat/completions
模型相关具体信息(如上下文长度、最大输出、定价、模态和支持的端点系列)请查阅模型页面。请求参数、身份验证、流式传输和聊天消息结构请查阅 API 参考。
GLM 5.2 API 规格与定价
当前 Novita AI 上 GLM 5.2 的列表显示这是一个支持长上下文和面向代理功能的文本输入、文本输出无服务器模型。
| 字段 | 当前 Novita AI 值 |
|---|---|
| 显示名称 | GLM 5.2 |
| API 模型 ID | zai-org/glm-5.2 |
| 访问方式 | 无服务器 |
| 上下文窗口 | 1,048,576 tokens |
| 最大输出 | 131,072 tokens |
| 输入模态 | 文本 |
| 输出模态 | 文本 |
| 端点系列 | chat/completions、Anthropic 兼容端点 |
| 函数调用 | 支持 |
| 结构化输出 | 支持 |
| 推理 | 支持 |
| 输入价格 | 每百万 tokens $1.40 |
| 缓存读取输入价格 | 每百万 tokens $0.26 |
| 输出价格 | 每百万 tokens $4.40 |
定价按每百万 tokens 列出。快速估算:用提示 tokens 数乘以输入费率,用生成 tokens 数乘以输出费率。当你的应用重复发送相同可复用上下文(如系统提示、工具模式、策略块或稳定的仓库摘要)时,缓存读取定价可以降低成本。
例如,一个包含 100,000 未缓存输入 tokens 和 5,000 输出 tokens 的请求估算如下:
| 组成部分 | 计算方式 | 估算成本 |
|---|---|---|
| 输入 | 0.1 百万 tokens × $1.40 | $0.14 |
| 输出 | 0.005 百万 tokens × $4.40 | $0.022 |
| 总计 | 输入 + 输出 | $0.162 |
这只是一个简单的 token 费率估算。实际生产中的成本还取决于提示复用、重试、截断、流式行为、响应长度,以及你的应用是否重复包含可以被缓存或总结的大型上下文块。
如何发起你的第一个 GLM 5.2 API 请求
在测试完整的 1M token 上下文窗口之前,先使用一个小型提示开始。这能为身份验证、模型路由、响应形状和延迟提供一个干净的基线。
安装 OpenAI Python SDK 并将你的 Novita AI 密钥存储在环境变量中:
pip install openai
export NOVITA_API_KEY="YOUR_NOVITA_API_KEY"
然后使用 Novita AI 基础 URL 调用 GLM 5.2:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai",
)
response = client.chat.completions.create(
model="zai-org/glm-5.2",
messages=[
{
"role": "system",
"content": "You are a practical software architecture assistant.",
},
{
"role": "user",
"content": "Review this migration plan and list the highest-risk steps.",
},
],
max_tokens=1200,
temperature=0.3,
)
print(response.choices[0].message.content)
如果你偏好直接 REST 调用,使用聊天补全路径:
curl --request POST \
--url https://api.novita.ai/openai/v1/chat/completions \
--header "Authorization: Bearer $NOVITA_API_KEY" \
--header "Content-Type: application/json" \
--data '{
"model": "zai-org/glm-5.2",
"messages": [
{
"role": "system",
"content": "You are a concise engineering reviewer."
},
{
"role": "user",
"content": "Create a release-risk checklist for a payments API change."
}
],
"max_tokens": 1200,
"temperature": 0.3
}'
对于更长的响应,启用流式传输,这样你的应用可以在完整补全完成之前就开始接收 tokens:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai",
)
stream = client.chat.completions.create(
model="zai-org/glm-5.2",
messages=[
{
"role": "user",
"content": "Draft a phased plan for refactoring a monolith into services.",
}
],
max_tokens=2000,
temperature=0.3,
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="")
保持 API 密钥不进入版本控制,设置明确的 max_tokens 值,并在可用时记录使用数据。长上下文模型很容易发送非常大的提示,因此成本控制始于从第一个原型开始测量提示和补全 tokens。
何时使用 GLM 5.2
当你的任务对于普通聊天上下文来说过大,或模型需要借助工具、文件或结构化输出来协调多个步骤时,GLM 5.2 是一个强有力的选择。
适合评估的目标包括:
- 仓库分析:让模型一次性审查架构说明、文件映射、依赖描述和选定的代码片段。
- 编码代理:在代理迭代过程中,将任务目标、约束、工具模式、先前决策和工作笔记保留在上下文中。
- 长文档综合:在不进行激进分块的情况下总结政策、技术规范、合同、研究笔记或产品文档。
- 迁移规划:向模型提供系统映射、约束、部署计划和风险登记,然后询问缺口或顺序问题。
- 结构化提取:将长源文档与严格 JSON 模式结合用于下游系统。
GLM 5.2 并非自动适合每个请求。对于短文本分类、基础聊天、简单提取或高吞吐低延迟场景,请比较 Novita AI 模型库 中的较小模型及 Novita AI 定价页面 的当前费率。一个 1M token 模型在你确实需要其上下文、输出上限或面向代理功能时才最有价值。
函数调用与结构化输出
GLM 5.2 的列表显示其支持函数调用和结构化输出。当模型应返回你的应用可操作的内容(而不仅仅是文字)时,这些功能非常有用。
当你的应用暴露受控工具(如检索客户记录、创建工单、检查部署状态、搜索内部知识库、计算报价或路由请求到专业服务)时,函数调用非常合适。
以下是一个最小工具调用模式:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai",
)
tools = [
{
"type": "function",
"function": {
"name": "create_release_ticket",
"description": "Create a release ticket after risk review.",
"parameters": {
"type": "object",
"properties": {
"title": {"type": "string"},
"risk_level": {
"type": "string",
"enum": ["low", "medium", "high"],
},
"summary": {"type": "string"},
},
"required": ["title", "risk_level", "summary"],
},
},
}
]
response = client.chat.completions.create(
model="zai-org/glm-5.2",
messages=[
{
"role": "user",
"content": "Assess this release and create a ticket if risk is medium or high.",
}
],
tools=tools,
tool_choice="auto",
max_tokens=1000,
)
print(response.choices[0].message)
结构化输出在你希望响应符合可预测模式时很有用。即使你要求 JSON,也请在你的应用中保留验证。将模型输出视为生成的候选内容,解析它,验证必填字段,并通过修复提示或后备路径处理错误。
有关工具设计的更多背景,请参阅 Novita AI 的 函数调用与结构化输出 指南,以及专注于 GLM 的 GLM 函数调用手册。
长上下文使用的生产注意事项
标题式的上下文窗口是上限,而非默认工作模式。一个 1,048,576 token 的请求可能有用,但大多数应用应逐步向该规模靠拢。
从以下控制措施开始:
- 预算提示:将稳定指令、可变用户输入、检索结果和工具模式分离开来,这样你可以看到哪部分在推动 token 计数。
- 在完全填充前使用检索:首先发送最相关的文件或段落,只有当任务需要更多证据时才扩展上下文。
- **限制输出长度 **:GLM 5.2 支持高最大输出,但大多数工作流并不需要 131,072 个生成 tokens。将
max_tokens设置为有用的最小值。 - 流式传输长响应:流式传输改善用户体验,并让你的服务更优雅地处理长补全。
- 验证结构化结果:模式减少歧义,但你的应用仍需要解析器检查、重试和清晰的错误处理。
- 追踪缓存机会:重复的上下文块如果每次都作为新输入发送会很昂贵。尽早识别可复用的提示、策略和工具定义。
- 保留较小模型作为后备:许多路由系统对简单案例使用较小模型,并将长上下文模型保留给需要其全部能力的任务。
对于编码代理,一个实用的模式是将持久的项目上下文保持在提示之外,仅检索与当前任务相关的文件,并要求 GLM 5.2 生成有边界的计划或补丁审查,而不是开放式的长文。这样在保持成本可读的同时,仍能让模型拥有足够的上下文来推理系统的相关部分。
常见问题
GLM 5.2 在 Novita AI 上可用吗?
是的。GLM 5.2 在 Novita AI 上作为无服务器模型列出,API 模型 ID 为 zai-org/glm-5.2。
在 Novita AI 上 GLM 5.2 的上下文窗口是多少?
当前 Novita AI 列表显示 GLM 5.2 的上下文窗口为 1,048,576 tokens。
GLM 5.2 的最大输出是多少?
当前 Novita AI 列表显示 GLM 5.2 的最大输出为 131,072 tokens。除非你的工作流确实需要非常长的响应,否则请设置较小的 max_tokens 值。
在 Novita AI 上使用 GLM 5.2 的费用是多少?
当前定价页面列出 GLM 5.2 的价格为:每百万输入 tokens $1.40,每百万缓存读取输入 tokens $0.26,每百万输出 tokens $4.40。
GLM 5.2 支持函数调用吗?
是的。当前 GLM 5.2 列表显示支持函数调用。当模型应从受控应用工具中选择而不是仅返回自然语言文本时,请使用此功能。
GLM 5.2 支持结构化输出吗?
是的。当前 GLM 5.2 列表显示支持结构化输出。在使用生成的 JSON 或符合模式的响应之前,请在你的应用中进行验证。
