Быстрый старт с GLM 5.2 API на Novita AI

Содержание

Предварительные требования для быстрого старта с GLM 5.2 API
Спецификации GLM 5.2 API и цены
Как выполнить свой первый запрос к GLM 5.2 API
Когда использовать GLM 5.2
Вызов функций и структурированные выходные данные
Производственные заметки для использования длинного контекста
Часто задаваемые вопросы
Рекомендуемые статьи

В этом руководстве показано, как вызвать GLM 5.2 на Novita AI через совместимый с OpenAI API чат-завершений. Используйте проверенный идентификатор модели zai-org/glm-5.2, базовый URL Novita AI и небольшой первый запрос, прежде чем тестировать контекстное окно модели на 1 048 576 токенов, максимальный вывод на 131 072 токена, вызов функций, структурированные выходные данные, поддержку рассуждений или доступ через совместимый с Anthropic endpoint, указанный в текущем списке моделей.

Предварительные требования для быстрого старта с GLM 5.2 API

GLM 5.2 — флагманская модель Z.AI для долгосрочной автономной работы. На странице модели Novita AI она описывается как модель, созданная для длительных задач, таких как планирование, выполнение, итеративная оптимизация, написание кода и предоставление результатов производственного уровня. Для разработчиков практический момент прост: GLM 5.2 — это не просто очередная модель для коротких чатов. Она позиционируется для рабочих процессов, где модели нужно достаточно контекста, чтобы удерживать в поле зрения большую задачу, кодовую базу, набор документов или состояние агента.

На Novita AI GLM 5.2 предоставляется через бессерверные API моделей. Это важно, если вы хотите оценить модель без развертывания GPU-инфраструктуры, маршрутизации трафика через собственный инференс-стек или самостоятельного обслуживания длинного контекста. Вы используете API-ключ Novita AI, совместимый с OpenAI endpoint и точный идентификатор модели:

zai-org/glm-5.2

Текущее руководство по LLM API Novita AI описывает совместимый с OpenAI подход для чатов и завершений. Справочник API чат-завершений содержит REST-путь, используемый в примерах ниже:

https://api.novita.ai/openai/v1/chat/completions

Используйте страницу модели для получения деталей, специфичных для модели: длина контекста, максимальный вывод, цены, модальности и поддерживаемые семейства endpoint. Используйте справочник API для параметров запроса, аутентификации, потоковой передачи и структуры сообщений чата.

Спецификации GLM 5.2 API и цены

Текущий список Novita AI для GLM 5.2 показывает бессерверную модель с вводом и выводом текста, с поддержкой длинного контекста и функций, ориентированных на агентов.

Поле	Текущее значение Novita AI
Отображаемое имя	GLM 5.2
Идентификатор модели API	`zai-org/glm-5.2`
Путь доступа	Бессерверный
Контекстное окно	1 048 576 токенов
Максимальный вывод	131 072 токена
Модальности ввода	Текст
Модальности вывода	Текст
Семейства endpoint	`chat/completions`, совместимый с Anthropic endpoint
Вызов функций	Поддерживается
Структурированные выходные данные	Поддерживается
Рассуждения	Поддерживается
Цена ввода	$1.40 за миллион токенов
Цена кэшированного ввода	$0.26 за миллион токенов
Цена вывода	$4.40 за миллион токенов

Цены указаны за миллион токенов. Для быстрой оценки умножьте количество токенов в промпте на тариф ввода и количество сгенерированных токенов на тариф вывода. Цена кэшированного чтения может снизить стоимость, когда ваше приложение многократно отправляет один и тот же повторно используемый контекст, например, системный промпт, схему инструмента, блок политик или стабильное резюме репозитория.

Например, запрос с 100 000 некэшированных входных токенов и 5 000 выходных токенов будет оценен так:

Компонент	Расчёт	Примерная стоимость
Ввод	0.1 млн токенов x $1.40	$0.14
Вывод	0.005 млн токенов x $4.40	$0.022
Итого	Ввод + вывод	$0.162

Это лишь простая оценка по тарифам токенов. Производственная стоимость также зависит от повторного использования промптов, повторных попыток, усечения, поведения потоковой передачи, длины ответа и того, включает ли ваше приложение многократно большие блоки контекста, которые можно кэшировать или суммировать.

Как выполнить свой первый запрос к GLM 5.2 API

Начните с короткого промпта, прежде чем тестировать полное контекстное окно на 1M токенов. Это даст вам чистую базовую линию для аутентификации, маршрутизации модели, формы ответа и задержки.

Установите OpenAI Python SDK и сохраните ключ Novita AI в переменной окружения:

pip install openai
export NOVITA_API_KEY="YOUR_NOVITA_API_KEY"

Затем вызовите GLM 5.2 с базовым URL Novita AI:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "system",
            "content": "You are a practical software architecture assistant.",
        },
        {
            "role": "user",
            "content": "Review this migration plan and list the highest-risk steps.",
        },
    ],
    max_tokens=1200,
    temperature=0.3,
)

print(response.choices[0].message.content)

Если вы предпочитаете прямой REST-вызов, используйте путь чат-завершений:

curl --request POST \
  --url https://api.novita.ai/openai/v1/chat/completions \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "zai-org/glm-5.2",
    "messages": [
      {
        "role": "system",
        "content": "You are a concise engineering reviewer."
      },
      {
        "role": "user",
        "content": "Create a release-risk checklist for a payments API change."
      }
    ],
    "max_tokens": 1200,
    "temperature": 0.3
  }'

Для длинных ответов включите потоковую передачу, чтобы ваше приложение могло начать получать токены до завершения полного вывода:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

stream = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Draft a phased plan for refactoring a monolith into services.",
        }
    ],
    max_tokens=2000,
    temperature=0.3,
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="")

Храните API-ключи вне системы контроля версий, задавайте явные значения max_tokens и по возможности логируйте данные об использовании. Модели с длинным контекстом позволяют легко отправлять очень большие промпты, поэтому контроль затрат начинается с измерения токенов промпта и завершения с первого прототипа.

Когда использовать GLM 5.2

GLM 5.2 отлично подходит, когда ваша задача слишком велика для обычного контекста чата или когда модели нужно координировать несколько шагов с инструментами, файлами или структурированными выходными данными.

Хорошие цели для оценки включают:

Анализ репозитория: попросите модель просмотреть архитектурные заметки, карту файлов, описания зависимостей и выбранные фрагменты кода в одном запросе.
Агенты по написанию кода: держите в контексте цели задач, ограничения, схемы инструментов, предыдущие решения и рабочие заметки, пока агент итеративно работает.
Синтез длинных документов: резюмируйте политики, технические спецификации, контракты, исследовательские заметки или документы о продуктах без агрессивного дробления на части.
Планирование миграций: предоставьте модели карту системы, ограничения, план развёртывания и реестр рисков, затем попросите указать пробелы или проблемы последовательности.
Структурированное извлечение: комбинируйте длинные исходные документы со строгой JSON-схемой для downstream-систем.

GLM 5.2 не обязательно подходит для каждого запроса. Для короткой классификации, базового чата, простого извлечения или высоконагруженного трафика с низкой задержкой сравните меньшие модели в библиотеке моделей Novita AI и текущие тарифы на странице цен Novita AI. Модель на 1M токенов наиболее ценна, когда вам действительно нужны контекст, потолок вывода или функции, ориентированные на агентов.

Вызов функций и структурированные выходные данные

В списке GLM 5.2 указана поддержка вызова функций и структурированных выходных данных. Эти функции полезны, когда модель должна вернуть то, с чем ваше приложение может работать, а не просто прозу.

Вызов функций хорошо подходит, когда ваше приложение предоставляет контролируемые инструменты, такие как:

получение записи клиента,
открытие тикета,
проверка статуса развертывания,
поиск во внутренней базе знаний,
расчёт предложения,
или маршрутизация запроса к специализированному сервису.

Вот минимальный шаблон вызова инструментов:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_release_ticket",
            "description": "Create a release ticket after risk review.",
            "parameters": {
                "type": "object",
                "properties": {
                    "title": {"type": "string"},
                    "risk_level": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "summary": {"type": "string"},
                },
                "required": ["title", "risk_level", "summary"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Assess this release and create a ticket if risk is medium or high.",
        }
    ],
    tools=tools,
    tool_choice="auto",
    max_tokens=1000,
)

print(response.choices[0].message)

Структурированные выходные данные полезны, когда вы хотите, чтобы ответ соответствовал предсказуемой схеме. Даже если вы просите JSON, оставляйте проверку в своём приложении. Относитесь к выводу модели как к сгенерированному кандидату, разбирайте его, проверяйте обязательные поля и обрабатывайте ошибки с помощью корректирующего промпта или запасного пути.

Для получения дополнительной информации о дизайне инструментов см. руководство Novita AI по вызову функций и структурированным выходным данным и посвящённое GLM руководство по вызову функций GLM.

Производственные заметки для использования длинного контекста

Заявленное контекстное окно — это потолок, а не режим работы по умолчанию. Запрос на 1 048 576 токенов может быть полезен, но большинство приложений должны постепенно подходить к такому размеру.

Начните с этих элементов управления:

Планируйте промпт: разделите стабильные инструкции, изменчивый пользовательский ввод, результаты поиска и схемы инструментов, чтобы видеть, какая часть увеличивает количество токенов.
Используйте поиск перед полным заполнением: сначала отправляйте наиболее релевантные файлы или отрывки, затем расширяйте контекст только тогда, когда задаче нужно больше доказательств.
Ограничьте длину вывода: GLM 5.2 поддерживает высокий максимальный вывод, но большинству рабочих процессов не нужно 131 072 сгенерированных токенов. Установите max_tokens на наименьшее полезное значение.
Стримите длинные ответы: потоковая передача улучшает пользовательский опыт и позволяет вашему сервису более изящно обрабатывать длинные завершения.
Проверяйте структурированные результаты: схемы уменьшают неоднозначность, но вашему приложению всё равно нужны проверки парсера, повторные попытки и чёткая обработка ошибок.
Отслеживайте возможности кэширования: повторяющиеся блоки контекста могут быть дорогими, если каждый раз отправлять их как свежий ввод. Заранее определяйте повторно используемые промпты, политики и определения инструментов.
Держите запасную модель меньшего размера: многие системы маршрутизации используют модель меньшего размера для простых случаев и оставляют модели с длинным контекстом для задач, требующих их полного потенциала.

Для агентов по написанию кода один практический шаблон — хранить долговременный контекст проекта за пределами промпта, извлекать только файлы, релевантные текущей задаче, и просить GLM 5.2 создать ограниченный план или ревью патча, а не пространное эссе. Это позволяет держать затраты под контролем, одновременно давая модели достаточно контекста для рассуждений по частям системы, которые действительно важны.

Часто задаваемые вопросы

Доступен ли GLM 5.2 на Novita AI?

Да. GLM 5.2 указан на Novita AI как бессерверная модель с идентификатором модели API zai-org/glm-5.2.

Каков размер контекстного окна GLM 5.2 на Novita AI?

Текущий список Novita AI показывает контекстное окно на 1 048 576 токенов для GLM 5.2.

Каков максимальный вывод GLM 5.2?

Текущий список Novita AI показывает максимальный вывод на 131 072 токена для GLM 5.2. Установите меньшее значение max_tokens, если ваш рабочий процесс действительно не требует очень длинного ответа.

Сколько стоит GLM 5.2 на Novita AI?

На текущей странице цен указано: $1.40 за миллион входных токенов, $0.26 за миллион кэшированных входных токенов и $4.40 за миллион выходных токенов.

Поддерживает ли GLM 5.2 вызов функций?

Да. Текущий список GLM 5.2 показывает поддержку вызова функций. Используйте её, когда модель должна выбирать из контролируемых инструментов приложения, а не возвращать только текст на естественном языке.

Поддерживает ли GLM 5.2 структурированные выходные данные?

Да. Текущий список GLM 5.2 показывает поддержку структурированных выходных данных. Проверяйте сгенерированный JSON или ответы, оформленные по схеме, в своём приложении перед использованием в downstream-системах.

Быстрый старт с GLM 5.2 API на Novita AI

Предварительные требования для быстрого старта с GLM 5.2 API

Спецификации GLM 5.2 API и цены

Как выполнить свой первый запрос к GLM 5.2 API

Когда использовать GLM 5.2

Вызов функций и структурированные выходные данные

Производственные заметки для использования длинного контекста

Часто задаваемые вопросы

Доступен ли GLM 5.2 на Novita AI?

Каков размер контекстного окна GLM 5.2 на Novita AI?

Каков максимальный вывод GLM 5.2?

Сколько стоит GLM 5.2 на Novita AI?

Поддерживает ли GLM 5.2 вызов функций?

Поддерживает ли GLM 5.2 структурированные выходные данные?

Рекомендуемые статьи

Product

RESOURCES

Partners

Company

Предварительные требования для быстрого старта с GLM 5.2 API

Спецификации GLM 5.2 API и цены

Как выполнить свой первый запрос к GLM 5.2 API

Когда использовать GLM 5.2

Вызов функций и структурированные выходные данные

Производственные заметки для использования длинного контекста

Часто задаваемые вопросы

Доступен ли GLM 5.2 на Novita AI?

Каков размер контекстного окна GLM 5.2 на Novita AI?

Каков максимальный вывод GLM 5.2?

Сколько стоит GLM 5.2 на Novita AI?

Поддерживает ли GLM 5.2 вызов функций?

Поддерживает ли GLM 5.2 структурированные выходные данные?

Рекомендуемые статьи

Похожие статьи

Product

RESOURCES

Partners

Company