Novita AI에서 GLM 5.2 API 빠르게 시작하기

Novita AI에서 GLM 5.2 API 빠르게 시작하기

이 빠른 시작 가이드는 Novita AI에서 OpenAI 호환 채팅 완성 API를 통해 GLM 5.2를 호출하는 방법을 보여줍니다. 확인된 모델 ID zai-org/glm-5.2, Novita AI 기본 URL을 사용하고, 작은 첫 번째 요청을 보낸 후 모델의 1,048,576 토큰 컨텍스트 창, 131,072 토큰 최대 출력, 함수 호출, 구조화된 출력, 추론 지원 또는 현재 모델 목록에 표시된 Anthropic 호환 액세스를 테스트합니다.

GLM 5.2 API 빠른 시작 사전 준비

GLM 5.2는 Z.AI의 장기 자율 작업을 위한 플래그십 모델입니다. Novita AI 모델 페이지에서는 계획, 실행, 반복 최적화, 코딩, 프로덕션 수준 결과 전달과 같은 지속적인 작업을 위해 구축된 모델이라고 설명합니다. 개발자에게 실용적인 요점은 간단합니다. GLM 5.2는 단순한 단기 채팅 모델이 아닙니다. 이 모델은 대규모 작업, 코드베이스, 문서 세트 또는 에이전트 상태를 유지할 수 있는 충분한 컨텍스트가 필요한 워크플로에 적합합니다.

Novita AI에서 GLM 5.2는 서버리스 모델 API를 통해 노출됩니다. 이는 GPU 인프라를 구축하거나, 사용자 정의 추론 스택을 통해 트래픽을 라우팅하거나, 장기 컨텍스트 서빙을 직접 관리하지 않고 모델을 평가하려는 경우 중요합니다. Novita AI의 API 키, OpenAI 호환 엔드포인트 및 정확한 모델 ID를 사용합니다.

zai-org/glm-5.2

현재 Novita AI LLM API 가이드는 채팅 및 완성 작업을 위한 플랫폼의 OpenAI 호환 접근 방식을 문서화합니다. 채팅 완성 API 참조는 아래 예제에서 사용하는 REST 경로를 문서화합니다.

https://api.novita.ai/openai/v1/chat/completions

컨텍스트 길이, 최대 출력, 가격, 모달리티, 지원되는 엔드포인트 제품군과 같은 모델별 세부 정보는 모델 페이지를 참조하세요. 요청 매개변수, 인증, 스트리밍 및 채팅 메시지 구조는 API 참조를 사용하세요.

GLM 5.2 API 사양 및 가격

현재 Novita AI 목록에 따르면 GLM 5.2는 장기 컨텍스트 및 에이전트 지향 기능을 지원하는 서버리스 텍스트 입력, 텍스트 출력 모델입니다.

필드 현재 Novita AI 값
표시 이름 GLM 5.2
API 모델 ID zai-org/glm-5.2
액세스 경로 서버리스
컨텍스트 창 1,048,576 토큰
최대 출력 131,072 토큰
입력 모달리티 텍스트
출력 모달리티 텍스트
엔드포인트 제품군 chat/completions, Anthropic 호환 엔드포인트
함수 호출 지원
구조화된 출력 지원
추론 지원
입력 가격 백만 토큰당 $1.40
캐시된 읽기 입력 가격 백만 토큰당 $0.26
출력 가격 백만 토큰당 $4.40

가격은 백만 토큰당 표시됩니다. 빠른 추정을 위해 프롬프트 토큰에 입력 요율을 곱하고 생성된 토큰에 출력 요율을 곱합니다. 캐시된 읽기 가격은 애플리케이션이 시스템 프롬프트, 도구 스키마, 정책 블록 또는 안정적인 리포지토리 요약과 같은 동일한 재사용 가능 컨텍스트를 반복적으로 보낼 때 비용을 줄일 수 있습니다.

예를 들어, 캐시되지 않은 100,000 입력 토큰과 5,000 출력 토큰이 있는 요청은 다음과 같이 추정됩니다.

구성 요소 계산 예상 비용
입력 0.1 백만 토큰 x $1.40 $0.14
출력 0.005 백만 토큰 x $4.40 $0.022
합계 입력 + 출력 $0.162

이는 단순한 토큰 요율 추정일 뿐입니다. 프로덕션 비용은 프롬프트 재사용, 재시도, 잘림, 스트리밍 동작, 응답 길이 및 애플리케이션이 캐시되거나 요약될 수 있는 큰 컨텍스트 블록을 반복적으로 포함하는지 여부에 따라 달라집니다.

첫 번째 GLM 5.2 API 요청 보내기

전체 100만 토큰 컨텍스트 창을 테스트하기 전에 작은 프롬프트로 시작하세요. 그러면 인증, 모델 라우팅, 응답 형태 및 지연 시간에 대한 깔끔한 기준선을 얻을 수 있습니다.

OpenAI Python SDK를 설치하고 Novita AI 키를 환경 변수에 저장합니다.

pip install openai
export NOVITA_API_KEY="YOUR_NOVITA_API_KEY"

그런 다음 Novita AI 기본 URL로 GLM 5.2를 호출합니다.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "system",
            "content": "You are a practical software architecture assistant.",
        },
        {
            "role": "user",
            "content": "Review this migration plan and list the highest-risk steps.",
        },
    ],
    max_tokens=1200,
    temperature=0.3,
)

print(response.choices[0].message.content)

직접 REST 호출을 선호한다면 채팅 완성 경로를 사용하세요.

curl --request POST \
  --url https://api.novita.ai/openai/v1/chat/completions \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "zai-org/glm-5.2",
    "messages": [
      {
        "role": "system",
        "content": "You are a concise engineering reviewer."
      },
      {
        "role": "user",
        "content": "Create a release-risk checklist for a payments API change."
      }
    ],
    "max_tokens": 1200,
    "temperature": 0.3
  }'

더 긴 응답의 경우 스트리밍을 활성화하여 전체 완성이 끝나기 전에 애플리케이션이 토큰을 수신하기 시작할 수 있습니다.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

stream = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Draft a phased plan for refactoring a monolith into services.",
        }
    ],
    max_tokens=2000,
    temperature=0.3,
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="")

API 키를 소스 제어에 저장하지 말고, 명시적인 max_tokens 값을 설정하고, 사용 가능한 경우 사용량 데이터를 기록하세요. 장기 컨텍스트 모델은 매우 큰 프롬프트를 보내기 쉽기 때문에 비용 관리는 첫 번째 프로토타입부터 프롬프트 및 완성 토큰을 측정하는 것부터 시작됩니다.

GLM 5.2를 사용해야 할 때

GLM 5.2는 작업이 일반 채팅 컨텍스트에 비해 너무 크거나 모델이 도구, 파일 또는 구조화된 출력을 사용하여 여러 단계를 조정해야 할 때 적합합니다.

좋은 평가 대상은 다음과 같습니다.

  • 리포지토리 분석: 모델에게 아키텍처 노트, 파일 맵, 종속성 설명 및 선택된 코드 발췌문을 한 번에 검토하도록 요청합니다.
  • 코딩 에이전트: 에이전트가 반복하는 동안 작업 목표, 제약 조건, 도구 스키마, 이전 결정 및 작업 노트를 컨텍스트에 유지합니다.
  • 장문 문서 종합: 정책, 기술 사양, 계약, 연구 노트 또는 제품 문서를 과도하게 분할하지 않고 요약합니다.
  • 마이그레이션 계획: 모델에게 시스템 맵, 제약 조건, 롤아웃 계획 및 위험 레지스터를 제공하고, 공백이나 순서 문제를 요청합니다.
  • 구조화된 추출: 긴 소스 문서와 엄격한 JSON 스키마를 결합하여 다운스트림 시스템에 제공합니다.

GLM 5.2가 모든 요청에 자동으로 적합한 모델은 아닙니다. 짧은 분류, 기본 채팅, 간단한 추출 또는 대량 저지연 트래픽의 경우 Novita AI 모델 라이브러리의 작은 모델과 Novita AI 가격 페이지의 현재 요율을 비교하세요. 100만 토큰 모델은 컨텍스트, 출력 제한 또는 에이전트 지향 기능이 실제로 필요할 때 가장 가치가 있습니다.

함수 호출 및 구조화된 출력

GLM 5.2 목록에는 함수 호출 및 구조화된 출력 지원이 표시됩니다. 이러한 기능은 모델이 단순한 산문이 아니라 애플리케이션이 실행할 수 있는 결과를 반환해야 할 때 유용합니다.

함수 호출은 애플리케이션이 다음과 같은 제어된 도구를 노출할 때 적합합니다.

  • 고객 기록 검색
  • 티켓 열기
  • 배포 상태 확인
  • 내부 지식 베이스 검색
  • 견적 계산
  • 또는 요청을 전문 서비스로 라우팅

다음은 최소한의 도구 호출 패턴입니다.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_release_ticket",
            "description": "Create a release ticket after risk review.",
            "parameters": {
                "type": "object",
                "properties": {
                    "title": {"type": "string"},
                    "risk_level": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "summary": {"type": "string"},
                },
                "required": ["title", "risk_level", "summary"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Assess this release and create a ticket if risk is medium or high.",
        }
    ],
    tools=tools,
    tool_choice="auto",
    max_tokens=1000,
)

print(response.choices[0].message)

구조화된 출력은 응답이 예측 가능한 스키마에 맞아야 할 때 유용합니다. JSON을 요청하더라도 애플리케이션에서 검증을 유지하세요. 모델의 출력을 생성된 후보로 취급하고, 구문 분석하고, 필수 필드를 검증하고, 복구 프롬프트 또는 폴백 경로로 오류를 처리하세요.

도구 설계에 대한 자세한 내용은 Novita AI의 함수 호출 및 구조화된 출력 가이드와 GLM 전용 GLM 함수 호출 가이드를 참조하세요.

장기 컨텍스트 사용을 위한 프로덕션 노트

헤드라인 컨텍스트 창은 최대치이며 기본 작동 모드가 아닙니다. 1,048,576 토큰 요청이 유용할 수 있지만, 대부분의 애플리케이션은 그 크기까지 점진적으로 올라가야 합니다.

다음 제어 장치로 시작하세요.

  • 프롬프트 예산 책정: 안정적인 지침, 변동 가능한 사용자 입력, 검색 결과, 도구 스키마를 분할하여 어떤 부분이 토큰 수를 늘리는지 파악할 수 있습니다.
  • 전체 채우기 전에 검색 사용: 가장 관련성 높은 파일이나 구절을 먼저 보낸 다음, 작업에 더 많은 증거가 필요할 때만 컨텍스트를 확장합니다.
  • 출력 길이 제한: GLM 5.2는 높은 최대 출력을 지원하지만, 대부분의 워크플로에 131,072개의 생성된 토큰이 필요하지는 않습니다. max_tokens를 가장 작은 유용한 값으로 설정합니다.
  • 긴 응답 스트리밍: 스트리밍은 사용자 경험을 개선하고 서비스가 긴 완성을 더 우아하게 처리할 수 있게 합니다.
  • 구조화된 결과 검증: 스키마는 모호성을 줄이지만, 애플리케이션에는 여전히 파서 검사, 재시도 및 명확한 오류 처리가 필요합니다.
  • 캐시 기회 추적: 반복되는 컨텍스트 블록은 매번 새 입력으로 보내면 비용이 많이 들 수 있습니다. 재사용 가능한 프롬프트, 정책 및 도구 정의를 조기에 식별합니다.
  • 더 작은 모델 폴백 유지: 많은 라우팅 시스템은 쉬운 경우에 더 작은 모델을 사용하고, 전체 용량이 필요한 작업을 위해 장기 컨텍스트 모델을 예약합니다.

코딩 에이전트의 경우, 한 가지 실용적인 패턴은 내구성이 있는 프로젝트 컨텍스트를 프롬프트 외부에 유지하고, 현재 작업과 관련된 파일만 검색한 다음, GLM 5.2에게 열린 결말의 에세이 대신 제한된 계획이나 패치 검토를 생성하도록 요청하는 것입니다. 이렇게 하면 비용을 명확하게 유지하면서도 모델이 시스템의 중요한 부분을 추론할 수 있는 충분한 컨텍스트를 제공할 수 있습니다.

자주 묻는 질문

GLM 5.2가 Novita AI에서 사용 가능한가요?

네. GLM 5.2는 Novita AI에서 API 모델 ID가 zai-org/glm-5.2인 서버리스 모델로 나열되어 있습니다.

Novita AI에서 GLM 5.2의 컨텍스트 창은 어떻게 되나요?

현재 Novita AI 목록에 따르면 GLM 5.2의 컨텍스트 창은 1,048,576 토큰입니다.

GLM 5.2의 최대 출력은 어떻게 되나요?

현재 Novita AI 목록에 따르면 GLM 5.2의 최대 출력은 131,072 토큰입니다. 워크플로에서 정말로 매우 긴 응답이 필요하지 않다면 더 작은 max_tokens 값을 설정하세요.

Novita AI에서 GLM 5.2의 비용은 얼마인가요?

현재 가격 페이지에 따르면 GLM 5.2의 입력 토큰 백만 개당 $1.40, 캐시된 읽기 입력 토큰 백만 개당 $0.26, 출력 토큰 백만 개당 $4.40입니다.

GLM 5.2가 함수 호출을 지원하나요?

네. 현재 GLM 5.2 목록에는 함수 호출 지원이 표시됩니다. 모델이 자연어 텍스트만 반환하는 대신 제어된 애플리케이션 도구 중에서 선택해야 할 때 사용하세요.

GLM 5.2가 구조화된 출력을 지원하나요?

네. 현재 GLM 5.2 목록에는 구조화된 출력 지원이 표시됩니다. 생성된 JSON 또는 스키마 형태의 응답을 다운스트림에서 사용하기 전에 애플리케이션에서 검증하세요.

추천 문서