- Что нового в GLM-5.1 на самом деле
- Результаты GLM-5.1 в бенчмарках: задачи по программированию и агентные задачи
- Как выглядит долгосрочное агентное выполнение задач на практике
- Для чего предназначена GLM-5.1
- Цены на API GLM-5.1 в Novita AI
- Начало работы: совместимость с SDK OpenAI и Anthropic
- Варианты использования для разработчиков
- Итог
Большинство моделей для программирования сталкиваются с ограничением после нескольких десятков вызовов инструментов. Они пробуют очевидные подходы, исчерпывают все идеи и перестают прогрессировать. Дополнительное время не помогает — модель уже исчерпала все варианты, которые она умеет пробовать.
GLM-5.1, новейший флагманский продукт Z.ai, построен на другой предпосылке: полезная оптимизация должна накапливаться со временем, а не снижаться. В собственных бенчмарках Z.ai модель выполнила 655 итераций на задаче векторного поиска и достигла 21,5 тыс. QPS — примерно в 6 раз больше, чем лучшие модели за стандартную сессию. Она работала 8 часов, собирая среду рабочего стола Linux с нуля, самостоятельно решая, что добавить следующим.
GLM-5.1 теперь доступен в Novita AI через совместимые с OpenAI и Anthropic API, оплата производится за токен.
Что нового в GLM-5.1 на самом деле
GLM-5.1 — это модель Mixture-of-Experts с 754 млрд параметров, 40 млрд активных параметров на один проход вывода, контекстное окно на 204 800 токенов.
Основные изменения касаются поведения модели на задачах с длительным горизонтом выполнения. В Z.ai это называют «лестничным паттерном»: модель дорабатывает решение в рамках одной фиксированной стратегии, пока не достигает потолка, после чего переключается на принципиально другой подход и снова начинает прогрессировать. За один прогон VectorDBBench произошло шесть таких переключений. Каждое из них инициировала сама модель после анализа собственных логов бенчмарка и определения фактора, блокирующего дальнейший прогресс.
Это не то же самое, что увеличение контекстного окна. Здесь модель активно управляет собственной стратегией.
Результаты GLM-5.1 в бенчмарках: задачи по программированию и агентные задачи
GLM-5.1 лидирует в бенчмарках по программированию и агентным задачам. В задачах на рассуждение лидируют Gemini 3.1 Pro и GPT-5.4.
Рассуждение
| Бенчмарк | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| HLE | 31.0 | 30.5 | 28.8 | 28.0 | 25.1 | 31.5 | 36.7 | 45.0 | 39.8 |
| HLE (с использованием инструментов) | 52.3 | 50.4 | 50.6 | — | 40.8 | 51.8 | 53.1 | 51.4 | 52.1 |
| AIME 2026 | 95.3 | 95.4 | 95.1 | 89.8 | 95.1 | 94.5 | 95.6 | 98.2 | 98.7 |
| HMMT ноябрь 2025 | 94.0 | 96.9 | 94.6 | 81.0 | 90.2 | 91.1 | 96.3 | 94.8 | 95.8 |
| HMMT февраль 2026 | 82.6 | 82.8 | 87.8 | 72.7 | 79.9 | 81.3 | 84.3 | 87.3 | 91.8 |
| IMOAnswerBench | 83.8 | 82.5 | 83.8 | 66.3 | 78.3 | 81.8 | 75.3 | 81.0 | 91.4 |
| GPQA-Diamond | 86.2 | 86.0 | 90.4 | 87.0 | 82.4 | 87.6 | 91.3 | 94.3 | 92.0 |
Программирование
| Бенчмарк | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| SWE-Bench Pro | 58.4 | 55.1 | 56.6 | 56.2 | — | 53.8 | 57.3 | 54.2 | 57.7 |
| NL2Repo | 42.7 | 35.9 | 37.9 | 39.8 | — | 32.0 | 49.8 | 33.4 | 41.3 |
| Terminal-Bench 2.0 (Terminus-2) | 63.5 | 56.2 | 61.6 | — | 39.3 | 50.8 | 65.4 | 68.5 | — |
| Terminal-Bench 2.0 (лучшая среда выполнения) | 69.0 (Claude Code) | 56.2 (Claude Code) | — | 57.0 (Claude Code) | 46.4 (Claude Code) | — | — | — | 75.1 (Codex) |
| CyberGym | 68.7 | 48.3 | — | — | 17.3 | 41.3 | 66.6 | — | — |
Агентные задачи
| Бенчмарк | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| BrowseComp | 68.0 | 62.0 | — | — | 51.4 | 60.6 | — | — | — |
| BrowseComp (с управлением контекстом) | 79.3 | 75.9 | — | — | 67.6 | 74.9 | 84.0 | 85.9 | 82.7 |
| τ³-Bench | 70.6 | 69.2 | 70.7 | 67.6 | 69.2 | 66.0 | 72.4 | 67.1 | 72.9 |
| MCP-Atlas (публичный набор) | 71.8 | 69.2 | 74.1 | 48.8 | 62.2 | 63.8 | 73.8 | 69.2 | 67.2 |
| Tool-Decathlon | 40.7 | 38.0 | 39.8 | 46.3 | 35.2 | 27.8 | 47.2 | 48.8 | 54.6 |
| Vending Bench 2 | $5,634 | $4,432 | $5,115 | — | $1,034 | $1,198 | $8,018 | $911 | $6,144 |
SWE-Bench Pro (58.4) — главный результат: это самый высокий балл среди всех девяти моделей в этом сравнении, как открытых, так и проприетарных. CyberGym показывает самый резкий скачок по сравнению с предыдущим поколением: с 48,3 на GLM-5 до 68,7. Стоит отметить по поводу Terminal-Bench 2.0: строка «лучшая среда выполнения» отражает результаты, которые каждая команда сообщила самостоятельно, используя предпочитаемую среду выполнения. GLM-5.1 достигает 69,0 с Claude Code; GPT-5.4 достигает 75,1 с Codex.
Как выглядит долгосрочное агентное выполнение задач на практике
Цифры из однопроходных бенчмарков не отражают, что происходит, когда вы позволяете модели работать несколько часов. В Z.ai провели три сценария с постепенно уменьшающимся структурированным обратным связью, чтобы показать, чем GLM-5.1 отличается от других моделей.
Сценарий 1: оптимизация векторной базы данных, более 600 итераций
VectorDBBench предоставляет модели скелет на Rust с HTTP-эндпоинтами и пустыми заглушками реализации. Используя агентов на основе вызовов инструментов, модель читает и записывает файлы, компилирует код, тестирует и профилирует — обычно в рамках бюджета в 50 шагов. Лучший результат при этом ограничении: 3547 QPS, достигнутый Claude Opus 4.6.
В Z.ai убрали это ограничение. На каждой итерации GLM-5.1 мог использовать необходимое количество вызовов инструментов, после чего отправлял новую версию на бенчмарк. Модель выполнила 655 итераций с более чем 6000 вызовами инструментов и достигла 21,5 тыс. QPS — примерно в 6 раз больше лучшего результата за одну стандартную сессию.
Два переключения иллюстрируют, как это было достигнуто. Примерно на 90-й итерации модель перешла от сканирования всего корпуса к probing-запросам кластеров IVF с сжатием векторов f16, что позволило резко поднять производительность до 6,4 тыс. QPS. Примерно на 240-й итерации она внедрила двухэтапный конвейер: предварительный скоринг в u8 с последующим повторным ранжированием в f16, достигнув 13,4 тыс. QPS. За весь прогон произошло шесть таких структурных переключений, каждое из которых инициировала сама модель после анализа собственных логов бенчмарка и определения текущего узкого места.
Сценарий 2: оптимизация GPU-ядер, более 1000 шагов
KernelBench предлагает модели взять эталонную реализацию на PyTorch и создать более быстрое GPU-ядро с идентичным выводом. Уровень 3 включает 50 задач на полные модели: MobileNet, VGG, MiniGPT, Mamba. Базовый результат: torch.compile с ускорением в 1,15x, max-autotune — в 1,49x.
В Z.ai запустили четыре модели на уровне 3, отслеживая среднее геометрическое ускорения по шагам использования инструментов:
- GLM-5 быстро прогрессирует в начале, а затем выходит на плато
- Claude Opus 4.5 продолжает прогрессировать дольше, но затем также выходит на плато
- GLM-5.1 заканчивает с ускорением в 3,6x и продолжает прогрессировать на протяжении большей части прогона
- Claude Opus 4.6 показывает самый сильный результат в 4,2x, и в конце прогона у него еще остается запас для улучшения
GLM-5.1 не догоняет здесь Claude Opus 4.6. Но она явно увеличивает полезную продолжительность прогона по сравнению с GLM-5, что и является основным преимуществом.
Сценарий 3: сборка среды рабочего стола Linux, 8 часов автономной работы
В первых двух сценариях есть числовой показатель для оптимизации. В этом — нет. Запрос: собрать среду рабочего стола в стиле Linux в виде веб-приложения. Нет стартового кода, нет макетов дизайна, нет промежуточной обратной связи.
Большинство моделей создают базовый скелет — статическую панель задач, окно-заглушку — после чего объявляют задачу выполненной.
GLM-5.1 работала в рамках простого окружения: после каждого раунда выполнения модель проверяет собственный вывод, определяет, что отсутствует или работает некорректно, и продолжает работу. За 8 часов она создала файловый менеджер, терминал, текстовый редактор, системный монитор, калькулятор и рабочие игры, все интегрированные в единый интерфейс. С каждым проходом стилизация становилась более отточенной. Обрабатывались крайние случаи. Вся дорожная карта разработки была определена самой моделью.
Для чего предназначена GLM-5.1
GLM-5.1 наиболее полезна для задач, в которых дополнительное время выполнения действительно позволяет получить лучший результат:
- Долго работающие агенты для программирования — рефакторинг нескольких файлов, миграции, сборка целых систем
- Агентные инструменты для программирования — совместима с Claude Code, OpenClaw, Trae, Cursor, Codex и Cline
- Автоматизация терминала — 63,5 в Terminal-Bench 2.0 (Terminus-2), по сравнению с 56,2 на GLM-5
- Кибербезопасность — 68,7 в CyberGym, самый высокий результат в этом наборе бенчмарков
- Веб-исследования — 68,0 в BrowseComp, также самый высокий результат здесь
Цены на API GLM-5.1 в Novita AI
|Цена| |—|—| |Ввод|$1.40 / M токенов| |Чтение из кэша|$0.26 / M токенов| |Вывод|$4.40 / M токенов|
Оплата за токен, без ежемесячных обязательств. Полный прайс-лист на novita.ai/pricing.
Начало работы: совместимость с SDK OpenAI и Anthropic
API Novita AI работает как с SDK OpenAI, так и с SDK Anthropic. Просто укажите идентификатор модели, и ваша существующая конфигурация будет работать без изменений. GLM-5.1 можно вызывать напрямую из Claude Code, OpenClaw, Trae, Cursor, Codex и любой платформы, которая принимает эндпоинты, совместимые с OpenAI или Anthropic.
Попробовать GLM-5.1 в песочнице | Посмотреть документацию API
Python (OpenAI SDK):
from openai import OpenAI
client = OpenAI(
api_key="<Your Novita API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="zai-org/glm-5.1",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Refactor this module to use async/await throughout."}
],
max_tokens=131072,
temperature=0.7
)
print(response.choices[0].message.content)
TypeScript (OpenAI SDK):
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "<Your Novita API Key>",
baseURL: "https://api.novita.ai/openai",
});
const response = await client.chat.completions.create({
model: "zai-org/glm-5.1",
messages: [
{ role: "system", content: "You are a helpful assistant." },
{ role: "user", content: "Build a CLI tool for parsing JSON logs." }
],
max_tokens: 131072,
});
console.log(response.choices[0].message.content);
Варианты использования для разработчиков
GLM-5.1 наиболее полезна в случаях, когда задачу нельзя решить за один проход, и она выигрывает от итеративной доработки:
- Автономные агенты для программирования — назначьте задачу на уровне репозитория, и модель самостоятельно спланирует, реализует, протестирует и доработает решение без промежуточных проверок
- Автоматизация конвейеров CI/CD — возможность вызова функций позволяет легко интегрировать GLM-5.1 в циклы сборки, тестирования и отладки
- Генерация длинных технических документов — контекстное окно на 204K токенов и вывод на 131K токен позволяют обрабатывать большие связные документы за один вызов
- Оптимизация GPU-ядер и производительности ML — ускорение в 3,6× в KernelBench напрямую применимо к работе с инфраструктурой машинного обучения
- Создание каркаса веб-приложений — GLM-5.1 собрала полный интерфейс рабочего стола по одному запросу на естественном языке; тот же цикл применим к любой сложной задаче на фронтенде или бэкенде
- Инженерная безопасность — результат 68,7 в CyberGym ставит ее в число самых сильных доступных моделей для автономных задач в области безопасности
Итог
Открытые модели сократили отставание в бенчмарках на рассуждение. Оставшийся разрыв — в долгосрочном выполнении задач: способности оставаться связными и продуктивными на протяжении сотен вызовов инструментов и часов автономной работы. GLM-5.1 является на сегодняшний день самым явным доказательством того, что этот разрыв можно преодолеть.
Если вы запускаете серьезные агентные нагрузки и хотите избежать привязки к проприетарному ПО, это на сегодняшний день самый мощный открытый вариант для задач по программированию и агентных задач. В Novita AI вы получаете ее с совместимостью с SDK OpenAI и Anthropic, оплатой за токен и без затрат на инфраструктуру.
Попробовать GLM-5.1 в песочнице | Посмотреть документацию API
Novita AI — это облачная платформа для ИИ и агентов, которая помогает разработчикам и стартапам создавать, развертывать и масштабировать модели и агентные приложения с высокой производительностью, надежностью и экономической эффективностью.
Часто задаваемые вопросы
Что изменилось между GLM-5 и GLM-5.1?u003c/strongu003e
Основное изменение касается долгосрочного выполнения задач. GLM-5 выходит на плато после нескольких десятков итераций; GLM-5.1 продолжает находить новые стратегии на протяжении сотен раундов. Разницу составляет лестничный паттерн — структурные переключения, инициируемые самоанализом. Также по всем бенчмаркам на программирование выросли показатели.
Является ли GLM-5.1 открытой моделью?u003c/strongu003e
Да, распространяется под лицензией MIT. Веса модели доступны на Hugging Face. Вы можете использовать ее в коммерческих целях, дообучать и размещать на своих серверах.
Как GLM-5.1 сравнивается с Claude Opus 4.6?
В SWE-Bench Pro GLM-5.1 набирает 58,4 балла против 57,3 у Claude Opus 4.6. В долгосрочной оптимизации GPU-ядер в KernelBench лидирует Claude Opus 4.6 с ускорением в 4,2× против 3,6× у GLM-5.1. Для большинства агентных задач по программированию эти две модели близки по возможностям — у GLM-5.1 есть преимущество в виде открытых весов и более низкой стоимости.
