Novita AI объединяется с Z.ai для предоставления GLM-4.5: объединение возможностей рассуждения, программирования и агентного ИИ

Novita AI объединяется с Z.ai для предоставления GLM-4.5: объединение возможностей рассуждения, программирования и агентного ИИ

Сегодня мы с радостью объявляем о партнерстве Novita AI с Z.ai, благодаря которому мы предоставляем поддержку GLM-4.5 с первого дня на платформе Novita AI в качестве партнера по запуску Z.ai. Это новаторское сотрудничество представляет самую унифицированную серию моделей ИИ в мире, объединяющую продвинутое рассуждение, сложные возможности программирования и встроенную агентную функциональность в единой мощной платформе, предназначенной для разработчиков, создающих приложения ИИ следующего поколения.

Novita AI теперь предлагает революционную модель GLM-4.5 (355B всего параметров, 32B активных): построенную с гибридными режимами рассуждения, включающими как режим мышления для сложных рассуждений и использования инструментов, так и режим без мышления для мгновенных ответов. Занимает 2-е место в общем зачете по всесторонним бенчмаркам.

Обе модели имеют длину контекста 128k и встроенную возможность вызова функций, доступные через оптимизированную инфраструктуру вывода Novita AI.

⚡ Общая производительность

GLM-4.5 занимает 2-е место, а GLM-4.5-Air — 5-е среди 12 бенчмарков, охватывающих задачи агентного ИИ (3), рассуждения (7) и программирования (2), по сравнению с моделями от OpenAI, Anthropic, Google DeepMind, xAI, Alibaba, Moonshot и DeepSeek.

GLM-4.5 объединяет все возможности, в которых предыдущие модели преуспевали в конкретных областях — программировании, математике или рассуждении, — но ни одна не достигала наилучшей производительности во всех задачах.

Задачи агентного ИИ

GLM-4.5 — это фундаментальная модель, оптимизированная для агентных задач. Она обеспечивает длину контекста 128k и встроенную возможность вызова функций. Z.ai измерила ее агентные способности на τ-bench и BFCL-v3 (Berkeley Function Calling Leaderboard v3). В обоих бенчмарках GLM-4.5 соответствует производительности Claude-4-Sonnet.

Веб-браузинг — популярное агентное приложение, требующее сложного рассуждения и многошагового использования инструментов. Z.ai оценила GLM-4.5 на бенчмарке BrowseComp, сложном тесте для веб-браузинга, состоящем из сложных вопросов, требующих коротких ответов. С доступом к инструменту веб-браузинга GLM-4.5 дает правильные ответы на 26,4% всех вопросов, значительно опережая Claude-4-Opus (18,8%) и приближаясь к o4-mini-high (28,0%).

Бенчмарк GLM-4.5 GLM-4.5-Air o3 o4-mini-high GPT-4.1 Claude 4 Opus Claude 4 Sonnet Gemini 2.5 Pro Qwen3 235B Thinking 2507 DeepSeek R1 0528 Kimi K2 Grok4
TAU-bench 70.1 69.4 61.2 57.4 62.0 70.5 70.3 62.5 73.2 58.7 62.6 67.5
BFCL v3 (Full) 77.8 76.4 72.4 67.2 68.9 61.8 75.2 61.2 72.4 63.8 71.1 66.2
BrowseComp 26.4 21.3 49.7 28.3 4.1 18.8 14.7 7.6 4.6 3.2 7.9 32.6

Рассуждение

В режиме мышления GLM-4.5 и GLM-4.5-Air могут решать сложные задачи на рассуждение, включая математику, науку и логические задачи.

Бенчмарк GLM-4.5 GLM-4.5-Air o3 o4-mini-high Claude 4 Opus Claude 4 Sonnet Gemini 2.5 Pro Gemini 2.5 Flash DeepSeek R1 0528 Qwen3-235B Thinking 2507 Grok4
MMLU Pro 84.6 81.4 85.3 83.2 87.3 84.2 86.2 83.2 84.9 84.5 86.6
AIME24 91.0 89.4 90.3 94.0 75.7 77.3 88.7 82.3 89.3 94.1 94.3
MATH 500 98.2 98.1 99.2 98.9 98.2 99.1 96.7 98.1 98.3 98.0 99.0
SciCode 41.7 37.3 41.0 46.5 39.8 40.0 42.8 39.4 40.3 42.9 45.7
GPQA 79.1 75.0 82.7 78.4 79.6 77.7 84.4 79.0 81.3 81.1 87.7
HLE 14.4 10.6 20.0 17.5 11.7 8.5 21.1 11.1 14.9 15.8 23.9
LiveCodeBench (2407-2501) 72.9 70.7 78.4 80.4 63.6 58.0 80.1 69.5 77.0 78.2 81.9
AA-Index (Estimated) 67.7 64.8 70.0 69.8 64.4 62.7 70.5 65.1 68.3 69.4 73.2

Программирование

GLM-4.5 также хорош в программировании, включая как создание проекта с нуля, так и агентное решение задач программирования в существующих проектах. Его можно легко комбинировать с существующими инструментами программирования, такими как Claude Code, Roo Code и CodeGeex. Для оценки способностей к программированию Z.ai сравнила различные модели на SWE-bench Verified и Terminal Bench.

Бенчмарк GLM-4.5 GLM-4.5-Air o3 o4-mini-high GPT-4.1 Claude 4 Opus Claude 4 Sonnet Gemini 2.5 Pro Gemini 2.5 Flash Qwen3 235B Thinking 2507 Qwen3 235B DeepSeek R1 0528 Kimi K2
SWE-bench Verified 64.2 57.6 69.1 54.8 48.6 67.8 70.4 49.0 60.4 35.0 36.2 41.4 65.4
Terminal-Bench 37.5 30.0 30.2 18.5 30.3 43.2 35.5 25.3 16.8 6.3 6.6 17.5 25.0

Чтобы оценить агентные возможности GLM-4.5 в реальных сценариях, Z.ai использовала Claude Code для проведения всестороннего тестирования против Claude-4-Sonnet, Kimi K2 и Qwen3-Coder с использованием 52 задач по программированию, охватывающих фронтенд-разработку, разработку инструментов, анализ данных, тестирование и алгоритмические приложения. GLM-4.5 побеждает Kimi K2 в 53,9% задач и доминирует над Qwen3-Coder с 80,8% побед, при этом показывая возможности для улучшения по сравнению с Claude-4-Sonnet.

Опыт GLM-4.5 в агентном программировании в реальных сценариях разработки

Примечательно, что GLM-4.5 достигает самого высокого среднего показателя успешности вызова инструментов — 90,6%, опережая Claude-4-Sonnet (89,5%), Kimi-K2 (86,2%) и Qwen3-Coder (77,1%), демонстрируя превосходную надежность и эффективность в агентных задачах программирования.

Сравнение среднего показателя успешности вызова инструментов

🚀 Начните работу с Novita AI

Используйте Playground (без программирования)

  • Мгновенный доступ: Зарегистрируйтесь и начните экспериментировать с GLM-4.5 за секунды
  • Интерактивный интерфейс: Тестируйте сложные подсказки для рассуждения и визуализируйте структурированные результаты в реальном времени
  • Сравнение моделей: Сравните GLM-4.5 с другими ведущими моделями для вашего конкретного случая использования

Интеграция через API (для разработчиков)

Подключите GLM-4.5 к вашим приложениям с помощью унифицированного REST API Novita AI.

Вариант 1: Прямая интеграция API (пример на Python)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="session_S4q9KTdBQujFkXSE5aZYZCrwN9f5QO96BtAFLw4FOgB__slLHW9KFAjmMgC12ag6mf2lJ1rASEvHbP_gv7Jh2Q==",
)

model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

Ключевые возможности:

  • API, совместимый с OpenAI для бесшовной интеграции
  • Гибкое управление параметрами для точной настройки ответов
  • Поддержка потоковой передачи для ответов в реальном времени

Вариант 2: Многоагентные рабочие процессы с OpenAI Agents SDK Создавайте сложные многоагентные системы с использованием GLM-4.5:

  • Интеграция “подключи и работай”: Используйте GLM-4.5 в любом рабочем процессе OpenAI Agents
  • Расширенные агентные возможности: Поддержка передачи задач, маршрутизации и интеграции инструментов с 90,6% успешности
  • Масштабируемая архитектура: Проектируйте агентов, использующих унифицированные возможности GLM-4.5 в рассуждении, программировании и агентном ИИ

Подключение к сторонним платформам

  • Инструменты разработки: Бесшовная интеграция с популярными IDE и средами разработки, такими как Cursor и Cline, через API, совместимые с OpenAI
  • Оркестрационные фреймворки: Подключение к LangChain, Dify, Langflow и другим платформам оркестрации ИИ с использованием официальных коннекторов
  • Интеграция с Hugging Face: Используйте GLM-4.5 в Spaces, пайплайнах или с библиотекой Transformers через конечные точки Novita AI

🔬 Технические инновации GLM-4.5

Превосходство архитектуры MoE

GLM-4.5 использует архитектуру Mixture of Experts (MoE), повышающую вычислительную эффективность как для обучения, так и для вывода. По сравнению с DeepSeek-V3, конструкция уменьшает ширину (скрытое измерение и маршрутизируемые эксперты), увеличивая высоту (количество слоев).

Ключевые технические особенности:

  • Grouped-Query Attention с частичным RoPE (продолжение от ChatGLM2)
  • QK-Norm для стабилизации диапазона логитов внимания
  • Оптимизатор Muon для ускоренной сходимости и устойчивости к большему размеру батча
  • Слой MTP (Multi-Token Prediction) для поддержки спекулятивного декодирования во время вывода

Продвинутый конвейер обучения

Предварительное обучение: Двухэтапный подход

  • 15 трлн токенов на общем корпусе предварительного обучения
  • 7 трлн токенов на корпусе кода и рассуждений

Промежуточное обучение: Оптимизация под конкретные домены

  • Данные кода на уровне репозитория (500 млрд токенов)
  • Синтетические данные для рассуждений (500 млрд токенов)
  • Данные длинного контекста и агентного ИИ (100 млрд токенов)

Пост-обучение: Сложный гибридный подход

  1. Экспертное обучение: Отдельные модели для доменов Рассуждения, Агентного ИИ и Общего через SFT и специализированное RL
  2. Унифицированное обучение: Дистилляция знаний с объединением экспертов в единую модель через масштабную SFT-самодистилляцию, с последующим трехэтапным RL-выравниванием

slime: Революционная инфраструктура RL

Обучение GLM-4.5 обеспечивается slime — открытой инфраструктурой RL, предназначенной для крупномасштабных моделей:

  • Гибкая гибридная архитектура обучения: Поддерживает как синхронное совместное обучение, так и раздельное асинхронное обучение
  • Разделенный агентно-ориентированный дизайн: Разделяет механизмы развертывания и обучения для оптимизации производительности
  • Ускоренная генерация данных: Смешанная точность вывода с использованием FP8 для генерации данных при сохранении стабильности BF16 для обучения

🎯 Готовы испытать унифицированный ИИ?

Попробуйте GLM-4.5 и GLM-4.5-Air уже сегодня на платформе Novita AI. Воочию убедитесь, как унифицированные возможности ИИ меняют представление о возможном, когда рассуждение, программирование и агентные функции сходятся в оптимизированной, готовой к производству инфраструктуре.

Начать создавать сегодня

Novita AI — это облачная платформа ИИ, которая предлагает разработчикам простой способ развертывания моделей ИИ с помощью нашего простого API, а также предоставляет доступный и надежный GPU-облако для создания и масштабирования.