GLM 5.2 API: быстрый старт на Novita AI

GLM 5.2 API: быстрый старт на Novita AI

Это краткое руководство показывает, как вызвать GLM 5.2 на Novita AI через OpenAI-совместимый API чатов для завершения. Используйте проверенный идентификатор модели zai-org/glm-5.2, базовый URL Novita AI и небольшой первый запрос, прежде чем тестировать окно контекста модели в 1 048 576 токенов, максимальный вывод 131 072 токена, вызов функций, структурированные выходные данные, поддержку рассуждений или доступ, совместимый с Anthropic, как указано в текущем описании модели.

Предварительные требования для быстрого старта с GLM 5.2 API

GLM 5.2 — это флагманская модель Z.AI для долгосрочной автономной работы. Страница модели на Novita AI описывает её как модель, созданную для продолжительных задач, таких как планирование, выполнение, итеративная оптимизация, кодирование и предоставление результатов производственного качества. Для разработчиков практический смысл прост: GLM 5.2 — это не очередная модель для коротких чатов. Она позиционируется для рабочих процессов, где модели требуется достаточный контекст, чтобы удерживать в поле зрения большую задачу, кодовую базу, набор документов или состояние агента.

На Novita AI GLM 5.2 доступен через бессерверные API моделей. Это важно, если вы хотите оценить модель без развёртывания GPU-инфраструктуры, маршрутизации трафика через собственный стек инференса или самостоятельного управления длинным контекстом. Вы используете API-ключ Novita AI, OpenAI-совместимую конечную точку и точный идентификатор модели:

zai-org/glm-5.2

Текущее руководство по LLM API Novita AI описывает подход платформы, совместимый с OpenAI, для задач чата и завершения. Справочник по API чатов для завершения документирует REST-путь, используемый в примерах ниже:

https://api.novita.ai/openai/v1/chat/completions

Используйте страницу модели для получения деталей, характерных для модели, таких как длина контекста, максимальный вывод, цены, модальности и поддерживаемые семейства конечных точек. Используйте справочник по API для параметров запроса, аутентификации, потоковой передачи и структуры сообщений чата.

Спецификации и цены GLM 5.2 API

Текущее описание GLM 5.2 на Novita AI показывает бессерверную модель с текстовым вводом и выводом, поддерживающую длинный контекст и функции, ориентированные на агентов.

Поле Текущее значение на Novita AI
Отображаемое имя GLM 5.2
API model ID zai-org/glm-5.2
Тип доступа Бессерверный
Окно контекста 1 048 576 токенов
Максимальный вывод 131 072 токена
Модальности ввода Текст
Модальности вывода Текст
Семейства конечных точек chat/completions, конечная точка, совместимая с Anthropic
Вызов функций Поддерживается
Структурированные выходные данные Поддерживается
Рассуждения Поддерживается
Цена за ввод $1.40 за миллион токенов
Цена за кэшированный ввод $0.26 за миллион токенов
Цена за вывод $4.40 за миллион токенов

Цены указаны за миллион токенов. Для быстрой оценки умножьте количество токенов промпта на тариф ввода и количество сгенерированных токенов на тариф вывода. Цены на кэшированное чтение могут снизить затраты, если ваше приложение многократно отправляет один и тот же повторно используемый контекст, например, системный промпт, схему инструмента, блок политик или стабильную сводку репозитория.

Например, запрос с 100 000 некэшированных токенов ввода и 5 000 токенов вывода будет оценён как:

Компонент Расчёт Примерная стоимость
Ввод 0.1 млн токенов × $1.40 $0.14
Вывод 0.005 млн токенов × $4.40 $0.022
Итого Ввод + вывод $0.162

Это лишь простая оценка по токенам. Производственная стоимость также зависит от повторного использования промптов, повторных попыток, усечения, поведения потоковой передачи, длины ответа и того, включает ли ваше приложение повторно большие блоки контекста, которые можно кэшировать или суммировать.

Как выполнить первый запрос к GLM 5.2 API

Начните с небольшого промпта, прежде чем тестировать полное окно контекста в 1 млн токенов. Это даст вам чистую базовую линию для аутентификации, маршрутизации модели, формы ответа и задержки.

Установите OpenAI Python SDK и сохраните ключ Novita AI в переменной окружения:

pip install openai
export NOVITA_API_KEY="YOUR_NOVITA_API_KEY"

Затем вызовите GLM 5.2 с базовым URL Novita AI:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "system",
            "content": "You are a practical software architecture assistant.",
        },
        {
            "role": "user",
            "content": "Review this migration plan and list the highest-risk steps.",
        },
    ],
    max_tokens=1200,
    temperature=0.3,
)

print(response.choices[0].message.content)

Если вы предпочитаете прямой REST-вызов, используйте путь для завершения чатов:

curl --request POST \
  --url https://api.novita.ai/openai/v1/chat/completions \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "zai-org/glm-5.2",
    "messages": [
      {
        "role": "system",
        "content": "You are a concise engineering reviewer."
      },
      {
        "role": "user",
        "content": "Create a release-risk checklist for a payments API change."
      }
    ],
    "max_tokens": 1200,
    "temperature": 0.3
  }'

Для длинных ответов включите потоковую передачу, чтобы ваше приложение могло начать получать токены до завершения полного вывода:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

stream = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Draft a phased plan for refactoring a monolith into services.",
        }
    ],
    max_tokens=2000,
    temperature=0.3,
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="")

Не храните API-ключи в системе контроля версий, устанавливайте явные значения max_tokens и регистрируйте данные об использовании, когда это возможно. Модели с длинным контекстом позволяют легко отправлять очень большие промпты, поэтому контроль затрат начинается с измерения токенов промпта и завершения с первого прототипа.

Когда использовать GLM 5.2

GLM 5.2 отлично подходит, когда ваша задача слишком велика для обычного контекста чата или когда модели необходимо координировать несколько шагов с инструментами, файлами или структурированными выходными данными.

Хорошие цели для оценки включают:

  • Анализ репозитория: попросите модель просмотреть архитектурные заметки, карты файлов, описания зависимостей и выбранные фрагменты кода в одном запросе.
  • Агенты кодирования: сохраняйте в контексте цели задачи, ограничения, схемы инструментов, предыдущие решения и рабочие заметки, пока агент выполняет итерации.
  • Синтез длинных документов: резюмируйте политики, технические спецификации, контракты, исследовательские заметки или продуктовые документы без агрессивного разбиения на части.
  • Планирование миграции: предоставьте модели карту системы, ограничения, план развёртывания и реестр рисков, затем попросите выявить пробелы или проблемы последовательности.
  • Структурированное извлечение: объедините длинные исходные документы со строгой JSON-схемой для downstream-систем.

GLM 5.2 не является автоматически правильной моделью для каждого запроса. Для короткой классификации, базового чата, простого извлечения или высокообъёмного трафика с низкой задержкой сравните меньшие модели в библиотеке моделей Novita AI и текущие тарифы на странице цен Novita AI. Модель на 1 млн токенов наиболее ценна, когда вам действительно нужен контекст, потолок вывода или функции, ориентированные на агентов.

Вызов функций и структурированные выходные данные

Описание GLM 5.2 показывает поддержку вызова функций и структурированных выходных данных. Эти функции полезны, когда модель должна вернуть то, с чем ваше приложение может работать, а не просто прозу.

Вызов функций хорошо подходит, когда ваше приложение предоставляет контролируемые инструменты, такие как:

  • получение записи клиента,
  • открытие тикета,
  • проверка статуса развёртывания,
  • поиск во внутренней базе знаний,
  • расчёт котировки,
  • или маршрутизация запроса в специализированный сервис.

Вот минимальный шаблон вызова инструмента:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_release_ticket",
            "description": "Create a release ticket after risk review.",
            "parameters": {
                "type": "object",
                "properties": {
                    "title": {"type": "string"},
                    "risk_level": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "summary": {"type": "string"},
                },
                "required": ["title", "risk_level", "summary"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Assess this release and create a ticket if risk is medium or high.",
        }
    ],
    tools=tools,
    tool_choice="auto",
    max_tokens=1000,
)

print(response.choices[0].message)

Структурированные выходные данные полезны, когда вы хотите, чтобы ответ соответствовал предсказуемой схеме. Даже если вы просите JSON, оставляйте проверку в своём приложении. Считайте вывод модели сгенерированным кандидатом, анализируйте его, проверяйте обязательные поля и обрабатывайте ошибки с помощью промпта для исправления или запасного пути.

Для получения дополнительной информации о разработке инструментов см. руководство Novita AI по вызову функций и структурированным выходным данным и руководство, посвящённое GLM: ваше руководство по вызову функций GLM 4.5.

Производственные заметки для использования длинного контекста

Заголовочное окно контекста — это потолок, а не режим работы по умолчанию. Запрос на 1 048 576 токенов может быть полезен, но большинство приложений должны постепенно подходить к такому размеру.

Начните с этих мер контроля:

  • Бюджетируйте промпт: разделите стабильные инструкции, изменчивый пользовательский ввод, результаты поиска и схемы инструментов, чтобы вы могли видеть, какая часть увеличивает количество токенов.
  • Используйте поиск перед полным наполнением: сначала отправляйте наиболее релевантные файлы или отрывки, затем расширяйте контекст только тогда, когда задаче требуется больше доказательств.
  • Ограничивайте длину вывода: GLM 5.2 поддерживает большой максимальный вывод, но большинству рабочих процессов не нужны 131 072 сгенерированных токена. Установите max_tokens на наименьшее полезное значение.
  • Потоковая передача длинных ответов: потоковая передача улучшает пользовательский опыт и позволяет вашему сервису более плавно обрабатывать длинные завершения.
  • Проверяйте структурированные результаты: схемы уменьшают неоднозначность, но вашему приложению всё равно нужны проверки парсера, повторные попытки и чёткая обработка ошибок.
  • Отслеживайте возможности кэширования: повторяющиеся блоки контекста могут быть дорогими, если отправлять как свежий ввод каждый раз. Заранее определяйте повторно используемые промпты, политики и определения инструментов.
  • Держите запасной вариант с меньшей моделью: многие системы маршрутизации используют меньшую модель для простых случаев и резервируют модели с длинным контекстом для задач, требующих их полной мощности.

Для агентов кодирования один практический шаблон — хранить долговременный контекст проекта вне промпта, извлекать только файлы, релевантные текущей задаче, и просить GLM 5.2 создать ограниченный план или ревью патча, а не открытое эссе. Это сохраняет затраты понятными, одновременно давая модели достаточно контекста для рассуждения о важных частях системы.

Часто задаваемые вопросы

Доступен ли GLM 5.2 на Novita AI?

Да. GLM 5.2 указан на Novita AI как бессерверная модель с идентификатором API модели zai-org/glm-5.2.

Каков размер окна контекста для GLM 5.2 на Novita AI?

Текущее описание Novita AI показывает окно контекста 1 048 576 токенов для GLM 5.2.

Каков максимальный вывод для GLM 5.2?

Текущее описание Novita AI показывает максимальный вывод 131 072 токена для GLM 5.2. Устанавливайте меньшее значение max_tokens, если ваш рабочий процесс действительно не требует очень длинного ответа.

Сколько стоит GLM 5.2 на Novita AI?

Текущая страница цен указывает GLM 5.2 по цене $1.40 за миллион входных токенов, $0.26 за миллион кэшированных входных токенов и $4.40 за миллион выходных токенов.

Поддерживает ли GLM 5.2 вызов функций?

Да. Текущее описание GLM 5.2 показывает поддержку вызова функций. Используйте его, когда модель должна выбирать из контролируемых инструментов приложения, а не возвращать только текст на естественном языке.

Поддерживает ли GLM 5.2 структурированные выходные данные?

Да. Текущее описание GLM 5.2 показывает поддержку структурированных выходных данных. Проверяйте сгенерированный JSON или ответы в форме схемы в вашем приложении перед их использованием в downstream-системах.

Рекомендуемые статьи