GLM-5.1 API в Novita AI: Модель для долгосрочных агентных задач

GLM-5.1 API в Novita AI: Модель для долгосрочных агентных задач

Большинство моделей для программирования сталкиваются с ограничением после нескольких десятков вызовов инструментов. Они пробуют очевидные подходы, исчерпывают все идеи и перестают прогрессировать. Дополнительное время не помогает — модель уже исчерпала все варианты, которые она умеет пробовать.

GLM-5.1, новейший флагманский продукт Z.ai, построен на другой предпосылке: полезная оптимизация должна накапливаться со временем, а не снижаться. В собственных бенчмарках Z.ai модель выполнила 655 итераций на задаче векторного поиска и достигла 21,5 тыс. QPS — примерно в 6 раз больше, чем лучшие модели за стандартную сессию. Она работала 8 часов, собирая среду рабочего стола Linux с нуля, самостоятельно решая, что добавить следующим.

GLM-5.1 теперь доступен в Novita AI через совместимые с OpenAI и Anthropic API, оплата производится за токен.

Попробовать GLM-5.1 сейчас

Что нового в GLM-5.1 на самом деле

GLM-5.1 — это модель Mixture-of-Experts с 754 млрд параметров, 40 млрд активных параметров на один проход вывода, контекстное окно на 204 800 токенов.

Основные изменения касаются поведения модели на задачах с длительным горизонтом выполнения. В Z.ai это называют «лестничным паттерном»: модель дорабатывает решение в рамках одной фиксированной стратегии, пока не достигает потолка, после чего переключается на принципиально другой подход и снова начинает прогрессировать. За один прогон VectorDBBench произошло шесть таких переключений. Каждое из них инициировала сама модель после анализа собственных логов бенчмарка и определения фактора, блокирующего дальнейший прогресс.

Это не то же самое, что увеличение контекстного окна. Здесь модель активно управляет собственной стратегией.

Результаты GLM-5.1 в бенчмарках: задачи по программированию и агентные задачи

GLM-5.1 лидирует в бенчмарках по программированию и агентным задачам. В задачах на рассуждение лидируют Gemini 3.1 Pro и GPT-5.4.

Рассуждение

Бенчмарк GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
HLE 31.0 30.5 28.8 28.0 25.1 31.5 36.7 45.0 39.8
HLE (с использованием инструментов) 52.3 50.4 50.6 40.8 51.8 53.1 51.4 52.1
AIME 2026 95.3 95.4 95.1 89.8 95.1 94.5 95.6 98.2 98.7
HMMT ноябрь 2025 94.0 96.9 94.6 81.0 90.2 91.1 96.3 94.8 95.8
HMMT февраль 2026 82.6 82.8 87.8 72.7 79.9 81.3 84.3 87.3 91.8
IMOAnswerBench 83.8 82.5 83.8 66.3 78.3 81.8 75.3 81.0 91.4
GPQA-Diamond 86.2 86.0 90.4 87.0 82.4 87.6 91.3 94.3 92.0

Программирование

Бенчмарк GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
SWE-Bench Pro 58.4 55.1 56.6 56.2 53.8 57.3 54.2 57.7
NL2Repo 42.7 35.9 37.9 39.8 32.0 49.8 33.4 41.3
Terminal-Bench 2.0 (Terminus-2) 63.5 56.2 61.6 39.3 50.8 65.4 68.5
Terminal-Bench 2.0 (лучшая среда выполнения) 69.0 (Claude Code) 56.2 (Claude Code) 57.0 (Claude Code) 46.4 (Claude Code) 75.1 (Codex)
CyberGym 68.7 48.3 17.3 41.3 66.6

Агентные задачи

Бенчмарк GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
BrowseComp 68.0 62.0 51.4 60.6
BrowseComp (с управлением контекстом) 79.3 75.9 67.6 74.9 84.0 85.9 82.7
τ³-Bench 70.6 69.2 70.7 67.6 69.2 66.0 72.4 67.1 72.9
MCP-Atlas (публичный набор) 71.8 69.2 74.1 48.8 62.2 63.8 73.8 69.2 67.2
Tool-Decathlon 40.7 38.0 39.8 46.3 35.2 27.8 47.2 48.8 54.6
Vending Bench 2 $5,634 $4,432 $5,115 $1,034 $1,198 $8,018 $911 $6,144

SWE-Bench Pro (58.4) — главный результат: это самый высокий балл среди всех девяти моделей в этом сравнении, как открытых, так и проприетарных. CyberGym показывает самый резкий скачок по сравнению с предыдущим поколением: с 48,3 на GLM-5 до 68,7. Стоит отметить по поводу Terminal-Bench 2.0: строка «лучшая среда выполнения» отражает результаты, которые каждая команда сообщила самостоятельно, используя предпочитаемую среду выполнения. GLM-5.1 достигает 69,0 с Claude Code; GPT-5.4 достигает 75,1 с Codex.

Как выглядит долгосрочное агентное выполнение задач на практике

Цифры из однопроходных бенчмарков не отражают, что происходит, когда вы позволяете модели работать несколько часов. В Z.ai провели три сценария с постепенно уменьшающимся структурированным обратным связью, чтобы показать, чем GLM-5.1 отличается от других моделей.

Сценарий 1: оптимизация векторной базы данных, более 600 итераций

VectorDBBench предоставляет модели скелет на Rust с HTTP-эндпоинтами и пустыми заглушками реализации. Используя агентов на основе вызовов инструментов, модель читает и записывает файлы, компилирует код, тестирует и профилирует — обычно в рамках бюджета в 50 шагов. Лучший результат при этом ограничении: 3547 QPS, достигнутый Claude Opus 4.6.

В Z.ai убрали это ограничение. На каждой итерации GLM-5.1 мог использовать необходимое количество вызовов инструментов, после чего отправлял новую версию на бенчмарк. Модель выполнила 655 итераций с более чем 6000 вызовами инструментов и достигла 21,5 тыс. QPS — примерно в 6 раз больше лучшего результата за одну стандартную сессию.

Два переключения иллюстрируют, как это было достигнуто. Примерно на 90-й итерации модель перешла от сканирования всего корпуса к probing-запросам кластеров IVF с сжатием векторов f16, что позволило резко поднять производительность до 6,4 тыс. QPS. Примерно на 240-й итерации она внедрила двухэтапный конвейер: предварительный скоринг в u8 с последующим повторным ранжированием в f16, достигнув 13,4 тыс. QPS. За весь прогон произошло шесть таких структурных переключений, каждое из которых инициировала сама модель после анализа собственных логов бенчмарка и определения текущего узкого места.

Сценарий 2: оптимизация GPU-ядер, более 1000 шагов

KernelBench предлагает модели взять эталонную реализацию на PyTorch и создать более быстрое GPU-ядро с идентичным выводом. Уровень 3 включает 50 задач на полные модели: MobileNet, VGG, MiniGPT, Mamba. Базовый результат: torch.compile с ускорением в 1,15x, max-autotune — в 1,49x.

В Z.ai запустили четыре модели на уровне 3, отслеживая среднее геометрическое ускорения по шагам использования инструментов:

  • GLM-5 быстро прогрессирует в начале, а затем выходит на плато
  • Claude Opus 4.5 продолжает прогрессировать дольше, но затем также выходит на плато
  • GLM-5.1 заканчивает с ускорением в 3,6x и продолжает прогрессировать на протяжении большей части прогона
  • Claude Opus 4.6 показывает самый сильный результат в 4,2x, и в конце прогона у него еще остается запас для улучшения

GLM-5.1 не догоняет здесь Claude Opus 4.6. Но она явно увеличивает полезную продолжительность прогона по сравнению с GLM-5, что и является основным преимуществом.

Сценарий 3: сборка среды рабочего стола Linux, 8 часов автономной работы

В первых двух сценариях есть числовой показатель для оптимизации. В этом — нет. Запрос: собрать среду рабочего стола в стиле Linux в виде веб-приложения. Нет стартового кода, нет макетов дизайна, нет промежуточной обратной связи.

Большинство моделей создают базовый скелет — статическую панель задач, окно-заглушку — после чего объявляют задачу выполненной.

GLM-5.1 работала в рамках простого окружения: после каждого раунда выполнения модель проверяет собственный вывод, определяет, что отсутствует или работает некорректно, и продолжает работу. За 8 часов она создала файловый менеджер, терминал, текстовый редактор, системный монитор, калькулятор и рабочие игры, все интегрированные в единый интерфейс. С каждым проходом стилизация становилась более отточенной. Обрабатывались крайние случаи. Вся дорожная карта разработки была определена самой моделью.

Для чего предназначена GLM-5.1

GLM-5.1 наиболее полезна для задач, в которых дополнительное время выполнения действительно позволяет получить лучший результат:

  • Долго работающие агенты для программирования — рефакторинг нескольких файлов, миграции, сборка целых систем
  • Агентные инструменты для программирования — совместима с Claude Code, OpenClaw, Trae, Cursor, Codex и Cline
  • Автоматизация терминала — 63,5 в Terminal-Bench 2.0 (Terminus-2), по сравнению с 56,2 на GLM-5
  • Кибербезопасность — 68,7 в CyberGym, самый высокий результат в этом наборе бенчмарков
  • Веб-исследования — 68,0 в BrowseComp, также самый высокий результат здесь

Цены на API GLM-5.1 в Novita AI

|Цена| |—|—| |Ввод|$1.40 / M токенов| |Чтение из кэша|$0.26 / M токенов| |Вывод|$4.40 / M токенов|

Оплата за токен, без ежемесячных обязательств. Полный прайс-лист на novita.ai/pricing.

Начало работы: совместимость с SDK OpenAI и Anthropic

API Novita AI работает как с SDK OpenAI, так и с SDK Anthropic. Просто укажите идентификатор модели, и ваша существующая конфигурация будет работать без изменений. GLM-5.1 можно вызывать напрямую из Claude Code, OpenClaw, Trae, Cursor, Codex и любой платформы, которая принимает эндпоинты, совместимые с OpenAI или Anthropic.

Попробовать GLM-5.1 в песочнице | Посмотреть документацию API

Python (OpenAI SDK):

from openai import OpenAI

client = OpenAI(
    api_key="<Your Novita API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="zai-org/glm-5.1",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Refactor this module to use async/await throughout."}
    ],
    max_tokens=131072,
    temperature=0.7
)

print(response.choices[0].message.content)

TypeScript (OpenAI SDK):

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "<Your Novita API Key>",
  baseURL: "https://api.novita.ai/openai",
});

const response = await client.chat.completions.create({
  model: "zai-org/glm-5.1",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Build a CLI tool for parsing JSON logs." }
  ],
  max_tokens: 131072,
});

console.log(response.choices[0].message.content);

Варианты использования для разработчиков

GLM-5.1 наиболее полезна в случаях, когда задачу нельзя решить за один проход, и она выигрывает от итеративной доработки:

  • Автономные агенты для программирования — назначьте задачу на уровне репозитория, и модель самостоятельно спланирует, реализует, протестирует и доработает решение без промежуточных проверок
  • Автоматизация конвейеров CI/CD — возможность вызова функций позволяет легко интегрировать GLM-5.1 в циклы сборки, тестирования и отладки
  • Генерация длинных технических документов — контекстное окно на 204K токенов и вывод на 131K токен позволяют обрабатывать большие связные документы за один вызов
  • Оптимизация GPU-ядер и производительности ML — ускорение в 3,6× в KernelBench напрямую применимо к работе с инфраструктурой машинного обучения
  • Создание каркаса веб-приложений — GLM-5.1 собрала полный интерфейс рабочего стола по одному запросу на естественном языке; тот же цикл применим к любой сложной задаче на фронтенде или бэкенде
  • Инженерная безопасность — результат 68,7 в CyberGym ставит ее в число самых сильных доступных моделей для автономных задач в области безопасности

Итог

Открытые модели сократили отставание в бенчмарках на рассуждение. Оставшийся разрыв — в долгосрочном выполнении задач: способности оставаться связными и продуктивными на протяжении сотен вызовов инструментов и часов автономной работы. GLM-5.1 является на сегодняшний день самым явным доказательством того, что этот разрыв можно преодолеть.

Если вы запускаете серьезные агентные нагрузки и хотите избежать привязки к проприетарному ПО, это на сегодняшний день самый мощный открытый вариант для задач по программированию и агентных задач. В Novita AI вы получаете ее с совместимостью с SDK OpenAI и Anthropic, оплатой за токен и без затрат на инфраструктуру.

Попробовать GLM-5.1 в песочнице | Посмотреть документацию API

Novita AI — это облачная платформа для ИИ и агентов, которая помогает разработчикам и стартапам создавать, развертывать и масштабировать модели и агентные приложения с высокой производительностью, надежностью и экономической эффективностью.

Часто задаваемые вопросы

Что изменилось между GLM-5 и GLM-5.1?u003c/strongu003e

Основное изменение касается долгосрочного выполнения задач. GLM-5 выходит на плато после нескольких десятков итераций; GLM-5.1 продолжает находить новые стратегии на протяжении сотен раундов. Разницу составляет лестничный паттерн — структурные переключения, инициируемые самоанализом. Также по всем бенчмаркам на программирование выросли показатели.

Является ли GLM-5.1 открытой моделью?u003c/strongu003e

Да, распространяется под лицензией MIT. Веса модели доступны на Hugging Face. Вы можете использовать ее в коммерческих целях, дообучать и размещать на своих серверах.

Как GLM-5.1 сравнивается с Claude Opus 4.6?

В SWE-Bench Pro GLM-5.1 набирает 58,4 балла против 57,3 у Claude Opus 4.6. В долгосрочной оптимизации GPU-ядер в KernelBench лидирует Claude Opus 4.6 с ускорением в 4,2× против 3,6× у GLM-5.1. Для большинства агентных задач по программированию эти две модели близки по возможностям — у GLM-5.1 есть преимущество в виде открытых весов и более низкой стоимости.