GLM-5.1 现已通过 Novita AI 上线,作为一款无服务器文本 LLM,支持兼容 OpenAI 的聊天补全访问。模型 ID 为 zai-org/glm-5.1;上下文窗口为 204,800 token;2026 年 6 月 12 日核实时,定价为每百万输入 token 1.38 美元,每百万输出 token 4.4 美元。
本指南将展示确切的模型 ID、端点、定价字段以及可在测试环境中直接复制使用的首个请求示例。
要点
- Novita AI 将 GLM-5.1 列为无服务器聊天模型,支持文本输入和文本输出。
- 使用
zai-org/glm-5.1进行兼容 OpenAI 的聊天补全请求。 - 模型页面显示上下文窗口 204,800 token,最大输出 token 131,072,输入 token 价格 $1.38/M,输出 token 价格 $4.4/M,缓存读取输入 token 价格 $0.26/M。
- 开始测试时,建议使用真正需要长上下文的提示,例如代码审查包、迁移计划或代理任务历史等。
什么是 GLM-5.1?
GLM-5.1 是 Z.AI GLM 系列文本模型,在 Novita AI 上适用于长周期任务、工程工作及编程助手场景。模型页面描述其为适合持续执行、规划、迭代优化及生产级任务交付的模型。
集成工作中,关键信息包括模型 ID、端点路径、上下文与输出限制,以及针对长提示或长响应的定价。在 Novita AI 上,这些细节与 zai-org/glm-5.1 模型列表及 LLM API 文档相关联。
GLM-5.1 与 Novita AI 目录中较旧的 GLM-5 条目不同。GLM-5.1 拥有独立的模型 ID、模型详情页面、定价和上下文大小。如果您的现有集成使用了 zai-org/glm-5,请勿直接替换模型 ID。在切换生产流量前,请使用代表性提示、预期输出格式及 token 成本记录运行一个小规模评估。
在 Novita AI 上访问 GLM-5.1 API
从 Novita AI 上的 GLM-5.1 模型页面 开始,确认当前的模型列表、定价、上下文大小、特性及端点选项,然后再进行部署。该模型被列为聊天模型,提供无服务器访问、文本输入和文本输出。
对于兼容 OpenAI 的客户端代码,请使用 Novita AI 聊天补全 API 文档。请求路径为:
POST https://api.novita.ai/openai/v1/chat/completions
如果您使用 OpenAI Python SDK,请按以下方式配置客户端:
https://api.novita.ai/openai
然后调用 client.chat.completions.create(...) 并指定 model="zai-org/glm-5.1"。
模型条目还列出了 Anthropic 端点选项。本指南专注于兼容 OpenAI 的聊天补全路径,因为对于正在改造现有 OpenAI SDK 代码的团队来说,这是最直接的起点。
GLM-5.1 规格与定价摘要
以下数值于 2026 年 6 月 12 日从实时 Novita 模型页面及 API 文档中核实。
| 字段 | 详情 |
|---|---|
| 显示名称 | GLM-5.1 |
| 模型 ID | zai-org/glm-5.1 |
| 模型类型 | 聊天 |
| 访问模式 | 无服务器 |
| 输入/输出模态 | 文本输入 / 文本输出 |
| 兼容 OpenAI 的基础 URL | https://api.novita.ai/openai |
| 聊天端点 | POST /v1/chat/completions |
| 已列出端点 | chat/completions, anthropic |
| 上下文窗口 | 204,800 token |
| 最大输出 token | 131,072 token |
| 输入定价 | 每百万 token $1.38 |
| 输出定价 | 每百万 token $4.4 |
| 缓存读取输入定价 | 每百万 token $0.26 |
| 已列出的特性标签 | 函数调用、结构化输出、推理、无服务器 |
定价和限制可能变更。在估算成本或路由生产流量之前,请重新检查实时 GLM-5.1 模型页面,并在您自己的计算器中使用最新数值。
何时使用 GLM-5.1
当请求以文本为主,且模型需要足够的上下文来推理多个文件、日志、需求或先前消息时,使用 GLM-5.1。典型测试包括代码审查包、迁移计划、仓库摘要、文档综合及代理任务历史。
204,800 token 的上下文窗口和 131,072 token 的最大输出为问题历史、源代码片段、日志、测试输出、架构说明及响应模式提供了空间。请利用这些空间存放回答所依赖的材料,而不是简单地将所有文件堆砌其中。
在生产测试中,请保持提示组织有序:将需求与源代码片段分开,清晰标记日志和文件,并记录输入和输出的 token 数量。这样更容易在不同模型运行之间比较成本和质量。
何时不使用 GLM-5.1
对于短文本分类、简单提取、路由或单行重写,请先使用较小的模型,除非您自己的测试表明 GLM-5.1 能带来明显的质量提升。这些任务通常不需要长上下文窗口。
GLM-5.1 在 Novita AI 上被列为文本输入、文本输出模型。如果您的应用程序需要图像理解、语音、图像生成或视频生成,请选择明确支持该模态的模型页面和 API 系列。
如果您正在跨提供商比较 GLM-5.1,请在从其他来源复制设置之前检查 Novita AI 模型页面。您在 Novita AI 集成中使用的模型 ID、端点路径、上下文限制和定价应与 Novita AI 列表及 API 文档一致。
步骤 1:获取您的 Novita API 密钥
创建或打开您的 Novita AI 账户,然后从 Novita AI 控制台生成一个 API 密钥。将其存储在环境变量中,而不是硬编码到源文件中:
export NOVITA_API_KEY="your_api_key_here"
对于生产应用,请将 API 密钥保存在您的密钥管理器、CI 密钥存储或部署平台的加密环境设置中。不要将密钥提交到仓库或粘贴到客户端浏览器代码中。
步骤 2:确认模型 ID 和端点
使用以下模型 ID:
zai-org/glm-5.1
在 SDK 客户端中使用以下兼容 OpenAI 的基础 URL:
https://api.novita.ai/openai
对于直接 HTTP 请求,使用以下完整端点路径:
https://api.novita.ai/openai/v1/chat/completions
在生产部署之前,请通过 Novita AI 模型列表端点 或 GLM-5.1 模型页面进行最终检查。此检查可确认模型 ID 仍然可用,并且模型元数据仍与您的代码和定价记录匹配。
步骤 3:发送您的第一个 GLM-5.1 请求
以下是使用 OpenAI SDK 风格的 Python 示例:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai",
)
response = client.chat.completions.create(
model="zai-org/glm-5.1",
messages=[
{
"role": "system",
"content": "You review backend migration plans. Return a checklist with risks, test coverage, and rollback steps.",
},
{
"role": "user",
"content": "Create a migration checklist for moving a Python service from sync workers to async workers.",
},
],
max_tokens=1200,
temperature=0.2,
)
print(response.choices[0].message.content)
以下是使用 cURL 的相同请求:
curl "https://api.novita.ai/openai/v1/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${NOVITA_API_KEY}" \
-d '{
"model": "zai-org/glm-5.1",
"messages": [
{
"role": "system",
"content": "You review backend migration plans. Return a checklist with risks, test coverage, and rollback steps."
},
{
"role": "user",
"content": "Create a migration checklist for moving a Python service from sync workers to async workers."
}
],
"max_tokens": 1200,
"temperature": 0.2
}'
这些示例使用了 Novita AI LLM API 文档中涵盖的通用聊天补全字段:model、messages、max_tokens 和 temperature。
步骤 4:读取响应
对于标准聊天补全响应,从以下字段读取助手消息:
response.choices[0].message.content
当客户端响应中包含 token 用量时,请记录该数据。用量数据有助于您比较提示设计、估算成本,并识别过于宽泛的请求。
保持第一个响应格式简单。基本请求成功后,再添加您自己的响应模式、路由逻辑、重试和评估检查。模型页面将结构化输出和函数调用列为支持的特性标签,但请在您自己的集成中验证每个高级参数,然后再将其作为生产协议的一部分。
步骤 5:检查定价、限制及常见错误
GLM-5.1 定价基于 token。截至 2026 年 6 月 12 日核实,Novita AI 模型页面列出每百万输入 token $1.38,每百万输出 token $4.4,每百万缓存读取输入 token $0.26。如果提示包含无关上下文或输出没有限制,成本会迅速增加。
集成期间需检查的常见问题:
- 身份验证错误:确认
NOVITA_API_KEY已设置,并在请求头中发送为Authorization: Bearer ${NOVITA_API_KEY}。 - 模型未找到:确认模型 ID 确为
zai-org/glm-5.1。 - 基础 URL 错误:SDK 客户端应使用
https://api.novita.ai/openai,而直接 HTTP 请求应调用https://api.novita.ai/openai/v1/chat/completions。 - 上下文过大:在重试之前减少检索的文档、日志或源文件。
- 输出过长:为任务设置一个合理的
max_tokens值,并要求输出格式有界限。 - 自动化漂移:在实际任务上评估,尽可能添加确定性验证器,并对高影响变更要求人工审查。
最终建议
当您的测试用例依赖于长文本上下文,并且您希望使用兼容 OpenAI 的聊天补全路径时,可在 Novita AI 上使用 GLM-5.1。开始时使用一个小型评估集,调用 zai-org/glm-5.1,记录 token 用量,并将答案与您当前使用的模型进行比较。
对于短提示、简单提取或非文本工作负载,请先选择较小或特定模态的模型。GLM-5.1 最适合那些依赖较大上下文窗口或较长输出预算的任务。
常见问题
GLM-5.1 在 Novita AI 上可用吗?
是的。截至 2026 年 6 月 12 日核实,GLM-5.1 在 Novita AI 模型库中被列为无服务器聊天模型。
我应使用哪个模型 ID 访问 GLM-5.1?
请使用 zai-org/glm-5.1。
应调用哪个端点?
对于兼容 OpenAI 的聊天补全,请调用 POST https://api.novita.ai/openai/v1/chat/completions。在 OpenAI SDK 客户端中,将基础 URL 设置为 https://api.novita.ai/openai。
GLM-5.1 在 Novita AI 上的费用是多少?
截至 2026 年 6 月 12 日核实,Novita AI 列出 GLM-5.1 价格为每百万输入 token $1.38,每百万输出 token $4.4。模型页面还列出缓存读取输入定价为每百万 token $0.26。
GLM-5.1 的上下文和输出限制是多少?
Novita AI 模型页面列出 GLM-5.1 的上下文窗口为 204,800 token,最大输出 token 为 131,072。
GLM-5.1 是否支持函数调用或结构化输出?
Novita AI 模型页面将函数调用和结构化输出列为 GLM-5.1 的特性标签。在依赖高级行为投入生产之前,请在您自己的集成中验证确切的请求字段。
GLM-5.1 与 Novita AI 上的 GLM-5 有何不同?
GLM-5.1 和 GLM-5 是 Novita AI 上不同的模型条目,具有不同的模型 ID、价格、上下文值及目录状态。对于 GLM-5.1 请使用 zai-org/glm-5.1,对于 GLM-5 请使用 zai-org/glm-5。
