GLM-5.1 在 Novita AI 上:启动指南与定价

GLM-5.1 在 Novita AI 上:启动指南与定价

GLM-5.1 现已通过 Novita AI 上线,作为一款无服务器文本 LLM,支持兼容 OpenAI 的聊天补全访问。模型 ID 为 zai-org/glm-5.1;上下文窗口为 204,800 token;2026 年 6 月 12 日核实时,定价为每百万输入 token 1.38 美元,每百万输出 token 4.4 美元。

本指南将展示确切的模型 ID、端点、定价字段以及可在测试环境中直接复制使用的首个请求示例。

要点

  • Novita AI 将 GLM-5.1 列为无服务器聊天模型,支持文本输入和文本输出。
  • 使用 zai-org/glm-5.1 进行兼容 OpenAI 的聊天补全请求。
  • 模型页面显示上下文窗口 204,800 token,最大输出 token 131,072,输入 token 价格 $1.38/M,输出 token 价格 $4.4/M,缓存读取输入 token 价格 $0.26/M。
  • 开始测试时,建议使用真正需要长上下文的提示,例如代码审查包、迁移计划或代理任务历史等。

什么是 GLM-5.1?

GLM-5.1 是 Z.AI GLM 系列文本模型,在 Novita AI 上适用于长周期任务、工程工作及编程助手场景。模型页面描述其为适合持续执行、规划、迭代优化及生产级任务交付的模型。

集成工作中,关键信息包括模型 ID、端点路径、上下文与输出限制,以及针对长提示或长响应的定价。在 Novita AI 上,这些细节与 zai-org/glm-5.1 模型列表及 LLM API 文档相关联。

GLM-5.1 与 Novita AI 目录中较旧的 GLM-5 条目不同。GLM-5.1 拥有独立的模型 ID、模型详情页面、定价和上下文大小。如果您的现有集成使用了 zai-org/glm-5,请勿直接替换模型 ID。在切换生产流量前,请使用代表性提示、预期输出格式及 token 成本记录运行一个小规模评估。

在 Novita AI 上访问 GLM-5.1 API

Novita AI 上的 GLM-5.1 模型页面 开始,确认当前的模型列表、定价、上下文大小、特性及端点选项,然后再进行部署。该模型被列为聊天模型,提供无服务器访问、文本输入和文本输出。

对于兼容 OpenAI 的客户端代码,请使用 Novita AI 聊天补全 API 文档。请求路径为:

POST https://api.novita.ai/openai/v1/chat/completions

如果您使用 OpenAI Python SDK,请按以下方式配置客户端:

https://api.novita.ai/openai

然后调用 client.chat.completions.create(...) 并指定 model="zai-org/glm-5.1"

模型条目还列出了 Anthropic 端点选项。本指南专注于兼容 OpenAI 的聊天补全路径,因为对于正在改造现有 OpenAI SDK 代码的团队来说,这是最直接的起点。

GLM-5.1 规格与定价摘要

以下数值于 2026 年 6 月 12 日从实时 Novita 模型页面及 API 文档中核实。

字段 详情
显示名称 GLM-5.1
模型 ID zai-org/glm-5.1
模型类型 聊天
访问模式 无服务器
输入/输出模态 文本输入 / 文本输出
兼容 OpenAI 的基础 URL https://api.novita.ai/openai
聊天端点 POST /v1/chat/completions
已列出端点 chat/completions, anthropic
上下文窗口 204,800 token
最大输出 token 131,072 token
输入定价 每百万 token $1.38
输出定价 每百万 token $4.4
缓存读取输入定价 每百万 token $0.26
已列出的特性标签 函数调用、结构化输出、推理、无服务器

定价和限制可能变更。在估算成本或路由生产流量之前,请重新检查实时 GLM-5.1 模型页面,并在您自己的计算器中使用最新数值。

何时使用 GLM-5.1

当请求以文本为主,且模型需要足够的上下文来推理多个文件、日志、需求或先前消息时,使用 GLM-5.1。典型测试包括代码审查包、迁移计划、仓库摘要、文档综合及代理任务历史。

204,800 token 的上下文窗口和 131,072 token 的最大输出为问题历史、源代码片段、日志、测试输出、架构说明及响应模式提供了空间。请利用这些空间存放回答所依赖的材料,而不是简单地将所有文件堆砌其中。

在生产测试中,请保持提示组织有序:将需求与源代码片段分开,清晰标记日志和文件,并记录输入和输出的 token 数量。这样更容易在不同模型运行之间比较成本和质量。

何时不使用 GLM-5.1

对于短文本分类、简单提取、路由或单行重写,请先使用较小的模型,除非您自己的测试表明 GLM-5.1 能带来明显的质量提升。这些任务通常不需要长上下文窗口。

GLM-5.1 在 Novita AI 上被列为文本输入、文本输出模型。如果您的应用程序需要图像理解、语音、图像生成或视频生成,请选择明确支持该模态的模型页面和 API 系列。

如果您正在跨提供商比较 GLM-5.1,请在从其他来源复制设置之前检查 Novita AI 模型页面。您在 Novita AI 集成中使用的模型 ID、端点路径、上下文限制和定价应与 Novita AI 列表及 API 文档一致。

步骤 1:获取您的 Novita API 密钥

创建或打开您的 Novita AI 账户,然后从 Novita AI 控制台生成一个 API 密钥。将其存储在环境变量中,而不是硬编码到源文件中:

export NOVITA_API_KEY="your_api_key_here"

对于生产应用,请将 API 密钥保存在您的密钥管理器、CI 密钥存储或部署平台的加密环境设置中。不要将密钥提交到仓库或粘贴到客户端浏览器代码中。

步骤 2:确认模型 ID 和端点

使用以下模型 ID:

zai-org/glm-5.1

在 SDK 客户端中使用以下兼容 OpenAI 的基础 URL:

https://api.novita.ai/openai

对于直接 HTTP 请求,使用以下完整端点路径:

https://api.novita.ai/openai/v1/chat/completions

在生产部署之前,请通过 Novita AI 模型列表端点 或 GLM-5.1 模型页面进行最终检查。此检查可确认模型 ID 仍然可用,并且模型元数据仍与您的代码和定价记录匹配。

步骤 3:发送您的第一个 GLM-5.1 请求

以下是使用 OpenAI SDK 风格的 Python 示例:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="zai-org/glm-5.1",
    messages=[
        {
            "role": "system",
            "content": "You review backend migration plans. Return a checklist with risks, test coverage, and rollback steps.",
        },
        {
            "role": "user",
            "content": "Create a migration checklist for moving a Python service from sync workers to async workers.",
        },
    ],
    max_tokens=1200,
    temperature=0.2,
)

print(response.choices[0].message.content)

以下是使用 cURL 的相同请求:

curl "https://api.novita.ai/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${NOVITA_API_KEY}" \
  -d '{
    "model": "zai-org/glm-5.1",
    "messages": [
      {
        "role": "system",
        "content": "You review backend migration plans. Return a checklist with risks, test coverage, and rollback steps."
      },
      {
        "role": "user",
        "content": "Create a migration checklist for moving a Python service from sync workers to async workers."
      }
    ],
    "max_tokens": 1200,
    "temperature": 0.2
  }'

这些示例使用了 Novita AI LLM API 文档中涵盖的通用聊天补全字段:modelmessagesmax_tokenstemperature

步骤 4:读取响应

对于标准聊天补全响应,从以下字段读取助手消息:

response.choices[0].message.content

当客户端响应中包含 token 用量时,请记录该数据。用量数据有助于您比较提示设计、估算成本,并识别过于宽泛的请求。

保持第一个响应格式简单。基本请求成功后,再添加您自己的响应模式、路由逻辑、重试和评估检查。模型页面将结构化输出和函数调用列为支持的特性标签,但请在您自己的集成中验证每个高级参数,然后再将其作为生产协议的一部分。

步骤 5:检查定价、限制及常见错误

GLM-5.1 定价基于 token。截至 2026 年 6 月 12 日核实,Novita AI 模型页面列出每百万输入 token $1.38,每百万输出 token $4.4,每百万缓存读取输入 token $0.26。如果提示包含无关上下文或输出没有限制,成本会迅速增加。

集成期间需检查的常见问题:

  • 身份验证错误:确认 NOVITA_API_KEY 已设置,并在请求头中发送为 Authorization: Bearer ${NOVITA_API_KEY}
  • 模型未找到:确认模型 ID 确为 zai-org/glm-5.1
  • 基础 URL 错误:SDK 客户端应使用 https://api.novita.ai/openai,而直接 HTTP 请求应调用 https://api.novita.ai/openai/v1/chat/completions
  • 上下文过大:在重试之前减少检索的文档、日志或源文件。
  • 输出过长:为任务设置一个合理的 max_tokens 值,并要求输出格式有界限。
  • 自动化漂移:在实际任务上评估,尽可能添加确定性验证器,并对高影响变更要求人工审查。

最终建议

当您的测试用例依赖于长文本上下文,并且您希望使用兼容 OpenAI 的聊天补全路径时,可在 Novita AI 上使用 GLM-5.1。开始时使用一个小型评估集,调用 zai-org/glm-5.1,记录 token 用量,并将答案与您当前使用的模型进行比较。

对于短提示、简单提取或非文本工作负载,请先选择较小或特定模态的模型。GLM-5.1 最适合那些依赖较大上下文窗口或较长输出预算的任务。

常见问题

GLM-5.1 在 Novita AI 上可用吗?

是的。截至 2026 年 6 月 12 日核实,GLM-5.1 在 Novita AI 模型库中被列为无服务器聊天模型。

我应使用哪个模型 ID 访问 GLM-5.1?

请使用 zai-org/glm-5.1

应调用哪个端点?

对于兼容 OpenAI 的聊天补全,请调用 POST https://api.novita.ai/openai/v1/chat/completions。在 OpenAI SDK 客户端中,将基础 URL 设置为 https://api.novita.ai/openai

GLM-5.1 在 Novita AI 上的费用是多少?

截至 2026 年 6 月 12 日核实,Novita AI 列出 GLM-5.1 价格为每百万输入 token $1.38,每百万输出 token $4.4。模型页面还列出缓存读取输入定价为每百万 token $0.26。

GLM-5.1 的上下文和输出限制是多少?

Novita AI 模型页面列出 GLM-5.1 的上下文窗口为 204,800 token,最大输出 token 为 131,072。

GLM-5.1 是否支持函数调用或结构化输出?

Novita AI 模型页面将函数调用和结构化输出列为 GLM-5.1 的特性标签。在依赖高级行为投入生产之前,请在您自己的集成中验证确切的请求字段。

GLM-5.1 与 Novita AI 上的 GLM-5 有何不同?

GLM-5.1 和 GLM-5 是 Novita AI 上不同的模型条目,具有不同的模型 ID、价格、上下文值及目录状态。对于 GLM-5.1 请使用 zai-org/glm-5.1,对于 GLM-5 请使用 zai-org/glm-5