Novita AI与Z.ai合作推出GLM-4.5:统一推理、代码编写与智能体AI能力

Novita AI与Z.ai合作推出GLM-4.5:统一推理、代码编写与智能体AI能力

今天,我们激动地宣布 Novita AI 与 Z.ai 达成合作,作为 Z.ai 的首发合作伙伴,在 Novita AI 平台上率先支持 GLM-4.5。这一突破性的合作将世界上最统一的 AI 模型系列引入平台,将高级推理、复杂的代码编写能力和原生智能体功能整合到一个强大的框架中,专为构建下一代 AI 应用的开发者设计。

Novita AI 现已提供突破性的 GLM-4.5 模型(总参数 355B,激活参数 32B):它采用混合推理模式,提供用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。在综合基准测试中总体排名第二。

两个模型均支持 128K 上下文长度和原生函数调用能力,通过 Novita AI 优化的推理基础设施提供。

⚡ 整体性能

GLM-4.5 排名第二,GLM-4.5-Air 排名第五,涵盖了智能体(3 项)、推理(7 项)和代码(2 项)共 12 项基准测试,与来自 OpenAI、Anthropic、Google DeepMind、xAI、阿里巴巴、月之暗面和 DeepSeek 的模型进行对比。

GLM-4.5 统一了所有能力——以往模型在代码、数学或推理等特定领域表现出色,但没有一个能在所有任务上达到最佳性能。

智能体任务

GLM-4.5 是一个针对智能体任务优化的基础模型。它提供 128K 上下文长度和原生函数调用能力。Z.ai 在 τ-bench 和 BFCL-v3(Berkeley 函数调用排行榜 v3)上衡量了其智能体能力。在这两个基准测试中,GLM-4.5 的性能与 Claude-4-Sonnet 相当。

网页浏览是一种流行的智能体应用,需要复杂的推理和多轮工具使用。Z.ai 在 BrowseComp 基准测试上评估了 GLM-4.5,这是一个具有挑战性的网页浏览基准测试,包含复杂问题并期望简短答案。在使用网页浏览工具的情况下,GLM-4.5 对 26.4% 的问题给出了正确答案,明显优于 Claude-4-Opus(18.8%),接近 o4-mini-high(28.0%)。

Benchmark GLM-4.5 GLM-4.5-Air o3 o4-mini-high GPT-4.1 Claude 4 Opus Claude 4 Sonnet Gemini 2.5 Pro Qwen3 235B Thinking 2507 DeepSeek R1 0528 Kimi K2 Grok4
TAU-bench 70.1 69.4 61.2 57.4 62.0 70.5 70.3 62.5 73.2 58.7 62.6 67.5
BFCL v3 (Full) 77.8 76.4 72.4 67.2 68.9 61.8 75.2 61.2 72.4 63.8 71.1 66.2
BrowseComp 26.4 21.3 49.7 28.3 4.1 18.8 14.7 7.6 4.6 3.2 7.9 32.6

推理

在思考模式下,GLM-4.5 和 GLM-4.5-Air 可以解决复杂的推理问题,包括数学、科学和逻辑问题。

Benchmark GLM-4.5 GLM-4.5-Air o3 o4-mini-high Claude 4 Opus Claude 4 Sonnet Gemini 2.5 Pro Gemini 2.5 Flash DeepSeek R1 0528 Qwen3-235B Thinking 2507 Grok4
MMLU Pro 84.6 81.4 85.3 83.2 87.3 84.2 86.2 83.2 84.9 84.5 86.6
AIME24 91.0 89.4 90.3 94.0 75.7 77.3 88.7 82.3 89.3 94.1 94.3
MATH 500 98.2 98.1 99.2 98.9 98.2 99.1 96.7 98.1 98.3 98.0 99.0
SciCode 41.7 37.3 41.0 46.5 39.8 40.0 42.8 39.4 40.3 42.9 45.7
GPQA 79.1 75.0 82.7 78.4 79.6 77.7 84.4 79.0 81.3 81.1 87.7
HLE 14.4 10.6 20.0 17.5 11.7 8.5 21.1 11.1 14.9 15.8 23.9
LiveCodeBench (2407-2501) 72.9 70.7 78.4 80.4 63.6 58.0 80.1 69.5 77.0 78.2 81.9
AA-Index (Estimated) 67.7 64.8 70.0 69.8 64.4 62.7 70.5 65.1 68.3 69.4 73.2

代码编写

GLM-4.5 同样擅长代码编写,包括从头构建代码项目,以及在现有项目中以智能体方式解决代码任务。它可以与现有的代码工具包(如 Claude Code、Roo Code 和 CodeGeex)无缝结合。为了评估代码编写能力,Z.ai 在 SWE-bench Verified 和 Terminal Bench 上对不同模型进行了比较。

Benchmark GLM-4.5 GLM-4.5-Air o3 o4-mini-high GPT-4.1 Claude 4 Opus Claude 4 Sonnet Gemini 2.5 Pro Gemini 2.5 Flash Qwen3 235B Thinking 2507 Qwen3 235B DeepSeek R1 0528 Kimi K2
SWE-bench Verified 64.2 57.6 69.1 54.8 48.6 67.8 70.4 49.0 60.4 35.0 36.2 41.4 65.4
Terminal-Bench 37.5 30.0 30.2 18.5 30.3 43.2 35.5 25.3 16.8 6.3 6.6 17.5 25.0

为了评估 GLM-4.5 在真实场景中的智能体代码编写能力,Z.ai 使用 Claude Code 对 GLM-4.5、Claude-4-Sonnet、Kimi K2 和 Qwen3-Coder 进行了全面的测试,涉及 52 个代码任务,涵盖前端开发、工具开发、数据分析、测试和算法应用。GLM-4.5 在 53.9% 的任务中击败了 Kimi K2,并以 80.8% 的胜率压倒 Qwen3-Coder,同时在与 Claude-4-Sonnet 的对比中仍有提升空间。

GLM-4.5 在真实开发场景中的智能体代码编写体验

值得注意的是,GLM-4.5 的平均工具调用成功率达到最高的 90.6%,超过了 Claude-4-Sonnet(89.5%)、Kimi-K2(86.2%)和 Qwen3-Coder(77.1%),在智能体代码编写任务中表现出卓越的可靠性和效率。

平均工具调用成功率对比

🚀 开始使用 Novita AI

使用 Playground(无需编码)

  • 即时访问:注册后即可在几秒钟内开始体验 GLM-4.5
  • 交互式界面:实时测试复杂推理提示,可视化结构化输出
  • 模型对比:针对您的特定用例,将 GLM-4.5 与其他领先模型进行比较

通过 API 集成(面向开发者)

通过 Novita AI 的统一 REST API 将 GLM-4.5 连接到您的应用。

选项 1:直接 API 集成(Python 示例)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="session_S4q9KTdBQujFkXSE5aZYZCrwN9f5QO96BtAFLw4FOgB__slLHW9KFAjmMgC12ag6mf2lJ1rASEvHbP_gv7Jh2Q==",
)

model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

主要特点:

  • 兼容 OpenAI 的 API,实现无缝集成
  • 灵活的参数控制,精细调整响应
  • 支持流式传输,实现实时响应

选项 2:使用 OpenAI Agents SDK 的多智能体工作流 利用 GLM-4.5 构建复杂的多智能体系统:

  • 即插即用集成:在任何 OpenAI Agents 工作流中使用 GLM-4.5
  • 高级智能体能力:支持交接、路由和工具集成,成功率高达 90.6%
  • 可扩展架构:设计利用 GLM-4.5 统一推理、代码编写和智能体能力的智能体

连接第三方平台

  • 开发工具:通过兼容 OpenAI 的 API,与 Cursor、Cline 等流行的 IDE 和开发环境无缝集成
  • 编排框架:使用官方连接器连接 LangChain、Dify、Langflow 等 AI 编排平台
  • Hugging Face 集成:通过 Novita AI 端点,在 Spaces、流水线或 Transformers 库中使用 GLM-4.5

🔬 GLM-4.5 的技术创新

MoE 架构优势

GLM-4.5 采用混合专家(MoE)架构,提高了训练和推理的计算效率。与 DeepSeek-V3 相比,其设计减少了宽度(隐藏维度和路由专家),同时增加了高度(层数)。

关键技术特点:

  • 分组查询注意力,带有部分 RoPE(延续自 ChatGLM2)
  • QK-Norm,用于稳定注意力 logits 范围
  • Muon 优化器,加速收敛并容忍更大的批量大小
  • MTP(多令牌预测)层,在推理期间支持推测解码

先进的训练流水线

预训练:两阶段方法

  • 通用预训练语料库 15T 令牌
  • 代码与推理语料库 7T 令牌

中期训练:领域特定优化

  • 仓库级代码数据(500B 令牌)
  • 合成推理数据(500B 令牌)
  • 长上下文与智能体数据(100B 令牌)

后训练:复杂的混合方法

  1. 专家训练:通过 SFT 和专门的 RL 分别为推理、智能体和通用领域训练模型
  2. 统一训练:通过大规模 SFT 自蒸馏将专家知识整合到单个模型中,随后进行三阶段 RL 对齐

slime:革命性的 RL 基础设施

GLM-4.5 的训练由 slime 驱动,这是一个为大规模模型设计的开源 RL 基础设施:

  • 灵活的混合训练架构:支持同步共地训练和分解异步训练
  • 解耦的智能体导向设计:将推出引擎与训练引擎分离,以优化性能
  • 加速数据生成:使用 FP8 混合精度推理进行数据生成,同时保持 BF16 稳定性进行训练

🎯 准备好体验统一的 AI 了吗?

立即在 Novita AI 平台 上体验 GLM-4.5 和 GLM-4.5-Air。亲身感受当推理、代码编写和智能体功能在优化的生产就绪基础设施中融合时,统一 AI 能力如何改变一切可能。

立即开始构建

Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷方式,同时提供经济且可靠的 GPU 云,用于构建和扩展应用。