GLM-5 против GLM-4.7: Мощность агентных систем против эффективности программирования

GLM-5 против GLM-4.7: Мощность агентных систем против эффективности программирования

Выбор между GLM-5 и GLM-4.7 часто сводится к ключевому компромиссу: масштабная мощность агентных систем против проверенной универсальности в программировании. GLM-5, выпущенный компанией Z.ai, значительно масштабируется по сравнению с предшественником: количество параметров выросло с 355 млрд (32 млрд активных) у GLM-4.7 до 753,9 млрд (40 млрд активных). Это увеличение количества параметров в 2,1 раза приносит существенные улучшения в сложной системной инженерии и долгосрочных агентных задачах, однако GLM-4.7 остаётся лидером для многоязычного программирования, автоматизации терминала и рабочих процессов реальных разработчиков.

Сравнение архитектуры GLM-5 и GLM-4.7

Характеристика GLM-5 GLM-4.7
Общее количество параметров 753,9 млрд 355 млрд
Активные параметры 40 млрд 32 млрд
Длина контекста 202 752 токена 202 752 токена
Данные для предобучения 28,5 трлн токенов 23 трлн токенов
Точность BF16 (доступен FP8) BF16 (доступен FP8)
Поддержка мультимодальности Только текст Только текст
Дата выпуска Январь 2026 Декабрь 2025

Одним из самых практичных обновлений GLM-5 является интеграция DeepSeek Sparse Attention (DSA), которая значительно снижает стоимость внимания для длинного контекста, сохраняя при этом большие окна контекста до 202K токенов. Это делает GLM-5 гораздо более удобным для развёртывания в реальных задачах: рассуждений на основе длинных документов, многоходовых ассистентов и агентных рабочих процессов. Со стороны постобучения GLM-5 использует slime — новую инфраструктуру асинхронного обучения с подкреплением, которая повышает пропускную способность обучения RL и позволяет проводить более частые и тонкие итерации выравнивания.

Сравнение архитектуры GLM 5 и GLM 4.7

Попробуйте GLM-5 прямо сейчас!

Сравнение результатов тестов GLM-5 и GLM-4.7

С точки зрения результатов тестов GLM-5 показывает широкие и стабильные улучшения по сравнению с GLM-4.7, особенно в задачах использования инструментов, браузинга и агентных сценариях. Наибольший прирост заметен в средах, требующих многошагового планирования, управления контекстом и выполнения в реальных условиях, что говорит о том, что GLM-5 оптимизирован для агентных рабочих процессов, а не для изолированных задач рассуждения.

GLM-4.7 показывает результаты тестов как модель рассуждения/программирования, оптимизированная на эффективность, она всё ещё очень сильна в классических математических оценках, но уступает в интерактивных задачах, управляемых инструментами.

Попробуйте GLM-5 прямо сейчас!

Требования к VRAM для GLM-5 и GLM-4.7

Увеличение количества параметров в 2,1 раза при переходе от GLM-4.7 к GLM-5 влечёт существенные требования к оборудованию. Вот разбивка по объёму VRAM:

Рекомендуемая конфигурация GPU для GLM-5

Точность Требуемый объём VRAM Рекомендуемая конфигурация Сценарий использования
BF16 1508 ГБ 19x NVIDIA H100 (80 ГБ) Исследования с максимальным качеством
FP8 Около 800 ГБ 10x NVIDIA H100 (80 ГБ) Развёртывание в продакшене
INT4 Около 400 ГБ 5x H100 (80 ГБ) Эффективный по стоимости вывод

Рекомендуемая конфигурация GPU для GLM-4.7

Точность Требуемый объём VRAM Рекомендуемая конфигурация Сценарий использования
BF16 717 ГБ 9x NVIDIA H100 (80 ГБ) Максимальное качество
FP8 390 ГБ 5x H100 (80 ГБ) Развёртывание в продакшене
INT4 200 ГБ 3x H100 (80 ГБ) Эффективный по стоимости вывод

Попробуйте экономичные GPU прямо сейчас!

При развёртывании в режиме FP8 GLM-5 обычно требует вдвое больше GPU по сравнению с GLM-4.7.

Для разработчиков с ограниченным бюджетом GLM-4.7 предлагает лучшую производительность на доллар в рабочих нагрузках, связанных с программированием, достигая 73,8% на SWE-bench Verified и 84,9% на LiveCodeBench-v6.

Для передовых исследований и разработки агентных систем более мощные возможности использования инструментов и выполнения долгосрочных задач GLM-5 могут оправдать дополнительные затраты на оборудование.

Цены и доступ к API для GLM-5 и GLM-4.7

Модель Ввод ($ / M токенов) Чтение из кэша ($ / M токенов) Вывод ($ / M токенов)
GLM-4.7 $0.60 $0.11 $2.20
GLM-5 $1.00 $0.20 $3.20

Чтение из кэша — это стоимость чтения токенов, которые ранее были сохранены в кэше промптов. Когда одинаковое содержимое промпта повторно используется в нескольких запросах, модель получает эти токены напрямую из кэша, вместо того чтобы обрабатывать их заново. Это снижает как задержку вывода, так и стоимость.

Шаг 1. Войдите в аккаунт и перейдите в библиотеку моделей

Войдите в свой аккаунт и нажмите кнопку Библиотека моделей.

Вход в аккаунт и переход в библиотеку моделей

Шаг 2. Выберите нужную модель

Просмотрите доступные варианты и выберите модель, которая подходит для ваших задач.

Выбор модели

Шаг 3. Начните бесплатный пробный период

Начните бесплатный пробный период, чтобы изучить возможности выбранной модели.

Начало бесплатного пробного периода для изучения возможностей выбранной модели.

Попробуйте GLM-5 прямо сейчас!

Шаг 4. Получите API-ключ

Для аутентификации через API мы предоставим вам новый API-ключ. Перейдя на страницу «Настройки», вы можете скопировать API-ключ, как показано на изображении.

Получение API-ключа

Шаг 5. Установите API

Установите API с помощью менеджера пакетов, соответствующего вашему языку программирования.

После установки импортируйте необходимые библиотеки в вашу среду разработки. Инициализируйте API с вашим API-ключом, чтобы начать взаимодействие с Novita AI LLM. Это пример использования API завершения чата для пользователей Python.

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="zai-org/glm-5 or zai-org/glm-4.7",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=131072,
    temperature=0.7
)

print(response.choices[0].message.content)

Сводка по критериям выбора для GLM-5 и GLm-4.7

Сценарий Рекомендуемая модель Ключевая причина
Многоагентные системы с оркестрацией инструментов GLM-5 +15,8pp на MCP-Atlas, +14,2pp на Tool-Decathlon
Рабочие процессы SWE-bench в продакшене GLM-4.7 73,8% при половине затрат на оборудование
Кибербезопасность и пентестинг GLM-5 43,2% на CyberGym
Программирование в IDE (Claude Code, Cline) GLM-4.7 Сохранение режима мышления + меньшая задержка
Передовые исследования рассуждений (HLE) GLM-5 50,4% с использованием инструментов (лучший среди открытых моделей)
Разработка UI/фронтенда «vibe coding» GLM-4.7 Специализированное обучение для современного веб-интерфейса
Автоматизация терминала (долгосрочные задачи) GLM-5 +28,3pp на Terminal-Bench 2.0
Математические соревнования (AIME, HMMT) GLM-4.7 Сопоставим/превосходит GLM-5 при меньшей стоимости
Стартапы с ограниченным бюджетом GLM-4.7 Высокое качество программирования на 4x H100 против 8x H100 у GLM-5
Исследовательские лаборатории, продвигающие границы AGI GLM-5 Предобучение на 28,5 трлн токенов, инфраструктура RL slime

Попробуйте GLM-5 прямо сейчас!

GLM-5 не делает GLM-4.7 устаревшим — он решает другие задачи. Если ваша работа связана с долгосрочными агентными задачами, требующими активного использования инструментов и многошагового рассуждения, двукратные инвестиции в оборудование для GLM-5 окупаются более высоким процентом выполнения задач. Если вы поставляете ассистенты по программированию тысячам разработчиков или нуждаетесь в быстрых циклах итерации в средах IDE, более лёгкая архитектура и специализированное обучение GLM-4.7 делают его более подходящим выбором. Обе модели представляют собой значительные достижения в области языкового моделирования с открытым исходным кодом, сокращая разрыв с передовыми проприетарными моделями при сохранении полной прозрачности и гибкости локального развёртывания.

Часто задаваемые вопросы

В чём основное архитектурное отличие GLM-5 от GLM-4.7?

Общее количество параметров GLM-5 выросло с 355 млрд до 753,9 млрд (активные параметры с 32 млрд до 40 млрд), а также интегрирована технология DeepSeek Sparse Attention (DSA) для снижения затрат на развёртывание при сохранении длины контекста 202K токенов.

Можно ли запустить GLM-5 на потребительском оборудовании?

Нет. GLM-5 требует как минимум 10 графических процессоров H100 80GB в режиме FP8 (800 ГБ VRAM), что значительно превышает возможности потребительских GPU.

Какая модель лучше подходит для задач программирования в SWE-bench?

GLM-5 немного опережает GLM-4.7 с результатом 77,8% на SWE-bench Verified (+4 п.п.), но результат GLM-4.7 в 73,8% при половине затрат на оборудование делает его более практичным для продакшена.

Novita AI — это облачная платформа ИИ, которая предлагает разработчикам простой способ развёртывания моделей ИИ с помощью нашего простого API, а также доступное и надёжное облако GPU для построения и масштабирования решений.

Рекомендуемые материалы