Novita AI에서 GLM 5.2 API 빠른 시작

GLM 5.2 API 빠른 시작 전제 조건
GLM 5.2 API 사양 및 가격
첫 번째 GLM 5.2 API 요청 만드는 방법
GLM 5.2를 사용해야 하는 경우
함수 호출 및 구조화된 출력
장기 컨텍스트 사용을 위한 프로덕션 노트
자주 묻는 질문
추천 문서

이 빠른 시작은 Novita AI에서 OpenAI 호환 채팅 완료 API를 통해 GLM 5.2를 호출하는 방법을 보여줍니다. 검증된 모델 ID zai-org/glm-5.2, Novita AI 기본 URL을 사용하고, 모델의 1,048,576 토큰 컨텍스트 창, 131,072 토큰 최대 출력, 함수 호출, 구조화된 출력, 추론 지원 또는 현재 모델 목록에 표시된 Anthropic 호환 액세스를 테스트하기 전에 작은 첫 번째 요청을 만드세요.

GLM 5.2 API 빠른 시작 전제 조건

GLM 5.2는 Z.AI의 장기 자율 작업을 위한 대표 모델입니다. Novita AI 모델 페이지에서는 지속적인 작업(계획, 실행, 반복 최적화, 코딩, 프로덕션 수준 결과 제공)을 위해 구축된 모델이라고 설명합니다. 개발자에게 실용적인 포인트는 간단합니다. GLM 5.2는 또 다른 짧은 채팅 모델이 아닙니다. 이 모델은 대규모 작업, 코드베이스, 문서 세트 또는 에이전트 상태를 유지하기에 충분한 컨텍스트가 필요한 워크플로우에 적합합니다.

Novita AI에서 GLM 5.2는 서버리스 모델 API를 통해 노출됩니다. 이는 GPU 인프라를 구축하거나, 사용자 정의 추론 스택을 통해 트래픽을 라우팅하거나, 장기 컨텍스트 서비스를 직접 관리하지 않고 모델을 평가하려는 경우 중요합니다. Novita AI의 API 키, OpenAI 호환 엔드포인트 및 정확한 모델 ID를 사용합니다.

zai-org/glm-5.2

현재 Novita AI LLM API 가이드는 채팅 및 완료 작업을 위한 플랫폼의 OpenAI 호환 접근 방식을 문서화합니다. 채팅 완료 API 참조는 아래 예제에서 사용된 REST 경로를 문서화합니다:

https://api.novita.ai/openai/v1/chat/completions

모델 페이지를 사용하여 컨텍스트 길이, 최대 출력, 가격, 모달리티 및 지원되는 엔드포인트 제품군과 같은 모델별 세부 정보를 확인하세요. API 참조를 사용하여 요청 매개변수, 인증, 스트리밍 및 채팅 메시지 구조를 확인하세요.

GLM 5.2 API 사양 및 가격

현재 Novita AI GLM 5.2 목록은 장기 컨텍스트 및 에이전트 지향 기능을 지원하는 서버리스 텍스트 입력, 텍스트 출력 모델을 보여줍니다.

필드	현재 Novita AI 값
표시 이름	GLM 5.2
API 모델 ID	`zai-org/glm-5.2`
액세스 경로	서버리스
컨텍스트 창	1,048,576 토큰
최대 출력	131,072 토큰
입력 모달리티	텍스트
출력 모달리티	텍스트
엔드포인트 제품군	`chat/completions`, Anthropic 호환 엔드포인트
함수 호출	지원됨
구조화된 출력	지원됨
추론	지원됨
입력 가격	백만 토큰당 $1.40
캐시 읽기 입력 가격	백만 토큰당 $0.26
출력 가격	백만 토큰당 $4.40

가격은 백만 토큰당 표시됩니다. 빠른 추정을 위해서는 프롬프트 토큰에 입력 요율을 곱하고 생성된 토큰에 출력 요율을 곱하세요. 캐시 읽기 가격은 애플리케이션이 시스템 프롬프트, 도구 스키마, 정책 블록 또는 안정적인 리포지토리 요약과 같은 동일한 재사용 가능한 컨텍스트를 반복적으로 전송할 때 비용을 절감할 수 있습니다.

예를 들어, 캐시되지 않은 입력 토큰 100,000개와 출력 토큰 5,000개가 있는 요청은 다음과 같이 추정할 수 있습니다:

구성 요소	계산	예상 비용
입력	0.1 백만 토큰 x $1.40	$0.14
출력	0.005 백만 토큰 x $4.40	$0.022
합계	입력 + 출력	$0.162

이는 단순한 토큰 요율 추정일 뿐입니다. 프로덕션 비용은 프롬프트 재사용, 재시도, 잘림, 스트리밍 동작, 응답 길이 및 애플리케이션이 캐시되거나 요약될 수 있는 대규모 컨텍스트 블록을 반복적으로 포함하는지 여부에 따라 달라집니다.

첫 번째 GLM 5.2 API 요청 만드는 방법

전체 1M 토큰 컨텍스트 창을 테스트하기 전에 작은 프롬프트로 시작하세요. 그러면 인증, 모델 라우팅, 응답 형태 및 지연 시간에 대한 깨끗한 기준을 얻을 수 있습니다.

OpenAI Python SDK를 설치하고 Novita AI 키를 환경 변수에 저장하세요:

pip install openai
export NOVITA_API_KEY="YOUR_NOVITA_API_KEY"

그런 다음 Novita AI 기본 URL로 GLM 5.2를 호출합니다:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "system",
            "content": "You are a practical software architecture assistant.",
        },
        {
            "role": "user",
            "content": "Review this migration plan and list the highest-risk steps.",
        },
    ],
    max_tokens=1200,
    temperature=0.3,
)

print(response.choices[0].message.content)

직접 REST 호출을 선호하는 경우 채팅 완료 경로를 사용하세요:

curl --request POST \
  --url https://api.novita.ai/openai/v1/chat/completions \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "zai-org/glm-5.2",
    "messages": [
      {
        "role": "system",
        "content": "You are a concise engineering reviewer."
      },
      {
        "role": "user",
        "content": "Create a release-risk checklist for a payments API change."
      }
    ],
    "max_tokens": 1200,
    "temperature": 0.3
  }'

더 긴 응답의 경우 스트리밍을 활성화하면 애플리케이션이 전체 완료가 끝나기 전에 토큰 수신을 시작할 수 있습니다:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

stream = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Draft a phased plan for refactoring a monolith into services.",
        }
    ],
    max_tokens=2000,
    temperature=0.3,
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="")

API 키를 소스 제어에서 제외하고, 명시적인 max_tokens 값을 설정하며, 가능할 때 사용량 데이터를 기록하세요. 장기 컨텍스트 모델은 매우 큰 프롬프트를 쉽게 보낼 수 있으므로, 비용 관리는 첫 번째 프로토타입부터 프롬프트 및 완료 토큰을 측정하는 것에서 시작됩니다.

GLM 5.2를 사용해야 하는 경우

GLM 5.2는 작업이 일반적인 채팅 컨텍스트에 비해 너무 크거나 모델이 도구, 파일 또는 구조화된 출력으로 여러 단계를 조정해야 할 때 적합합니다.

좋은 평가 대상은 다음과 같습니다:

리포지토리 분석: 모델에게 하나의 요청에서 아키텍처 노트, 파일 맵, 종속성 설명 및 선택된 코드 발췌를 검토하도록 요청하세요.
코딩 에이전트: 에이전트가 반복하는 동안 작업 목표, 제약 조건, 도구 스키마, 이전 결정 및 작업 노트를 컨텍스트에 유지하세요.
장기 문서 합성: 정책, 기술 사양, 계약, 연구 노트 또는 제품 문서를 과도하게 분할하지 않고 요약하세요.
마이그레이션 계획: 모델에 시스템 맵, 제약 조건, 롤아웃 계획 및 위험 등록부를 제공한 후, 공백이나 시퀀싱 문제를 요청하세요.
구조화된 추출: 긴 소스 문서와 엄격한 JSON 스키마를 결합하여 다운스트림 시스템에 전달하세요.

GLM 5.2가 모든 요청에 자동으로 적합한 모델은 아닙니다. 짧은 분류, 기본 채팅, 간단한 추출 또는 대량 저지연 트래픽의 경우 Novita AI 모델 라이브러리의 더 작은 모델과 Novita AI 가격 페이지의 현재 요금을 비교하세요. 1M 토큰 모델은 실제로 컨텍스트, 출력 한도 또는 에이전트 지향 기능이 필요할 때 가장 가치가 있습니다.

함수 호출 및 구조화된 출력

GLM 5.2 목록은 함수 호출 및 구조화된 출력 지원을 보여줍니다. 이러한 기능은 모델이 단순한 산문이 아닌 애플리케이션이 실행할 수 있는 결과를 반환해야 할 때 유용합니다.

함수 호출은 애플리케이션이 다음과 같은 제어된 도구를 노출할 때 적합합니다:

고객 레코드 검색
티켓 열기
배포 상태 확인
내부 지식 베이스 검색
견적 계산
요청을 전문 서비스로 라우팅

다음은 최소한의 도구 호출 패턴입니다:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_release_ticket",
            "description": "Create a release ticket after risk review.",
            "parameters": {
                "type": "object",
                "properties": {
                    "title": {"type": "string"},
                    "risk_level": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "summary": {"type": "string"},
                },
                "required": ["title", "risk_level", "summary"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Assess this release and create a ticket if risk is medium or high.",
        }
    ],
    tools=tools,
    tool_choice="auto",
    max_tokens=1000,
)

print(response.choices[0].message)

구조화된 출력은 응답이 예측 가능한 스키마에 맞아야 할 때 유용합니다. JSON을 요청하더라도 애플리케이션에서 검증을 유지하세요. 모델의 출력을 생성된 후보로 취급하고, 파싱하고, 필수 필드를 검증하며, 복구 프롬프트나 대체 경로로 오류를 처리하세요.

도구 설계에 대한 자세한 배경은 Novita AI의 함수 호출 및 구조화된 출력 가이드와 GLM 중심의 GLM 함수 호출 가이드를 참조하세요.

장기 컨텍스트 사용을 위한 프로덕션 노트

헤드라인 컨텍스트 창은 기본 작동 모드가 아니라 한계입니다. 1,048,576 토큰 요청이 유용할 수 있지만, 대부분의 애플리케이션은 점진적으로 해당 크기에 도달해야 합니다.

다음 제어 방법으로 시작하세요:

프롬프트 예산 책정: 안정적인 지침, 변동 가능한 사용자 입력, 검색 결과 및 도구 스키마를 분할하여 어떤 부분이 토큰 수를 증가시키는지 확인할 수 있습니다.
전체 채우기 전에 검색 사용: 가장 관련성 높은 파일이나 구절을 먼저 보내고, 작업에 더 많은 증거가 필요할 때만 컨텍스트를 확장하세요.
출력 길이 제한: GLM 5.2는 높은 최대 출력을 지원하지만, 대부분의 워크플로우에는 131,072 생성 토큰이 필요하지 않습니다. max_tokens를 가장 작은 유용한 값으로 설정하세요.
긴 응답 스트리밍: 스트리밍은 사용자 경험을 개선하고 서비스가 긴 완료를 더 우아하게 처리할 수 있게 합니다.
구조화된 결과 검증: 스키마는 모호성을 줄이지만, 애플리케이션에는 파서 검사, 재시도 및 명확한 오류 처리가 필요합니다.
캐시 기회 추적: 반복되는 컨텍스트 블록은 매번 새 입력으로 전송되면 비용이 많이 들 수 있습니다. 재사용 가능한 프롬프트, 정책 및 도구 정의를 조기에 식별하세요.
더 작은 모델 대비책 유지: 많은 라우팅 시스템은 쉬운 경우에는 더 작은 모델을 사용하고, 완전한 용량이 필요한 작업을 위해 장기 컨텍스트 모델을 예약합니다.

코딩 에이전트의 경우, 한 가지 실용적인 패턴은 내구성 있는 프로젝트 컨텍스트를 프롬프트 외부에 유지하고, 현재 작업과 관련된 파일만 검색하며, GLM 5.2가 개방형 에세이 대신 경계가 있는 계획이나 패치 검토를 생성하도록 요청하는 것입니다. 이렇게 하면 비용을 명확하게 유지하면서도 모델이 시스템의 관련 부분에 걸쳐 추론할 수 있는 충분한 컨텍스트를 제공할 수 있습니다.

자주 묻는 질문

GLM 5.2는 Novita AI에서 사용할 수 있나요?

예. GLM 5.2는 Novita AI에 서버리스 모델로 등록되어 있으며 API 모델 ID는 zai-org/glm-5.2입니다.

Novita AI에서 GLM 5.2의 컨텍스트 창은 무엇인가요?

현재 Novita AI 목록에는 GLM 5.2의 1,048,576 토큰 컨텍스트 창이 표시됩니다.

GLM 5.2의 최대 출력은 무엇인가요?

현재 Novita AI 목록에는 GLM 5.2의 131,072 토큰 최대 출력이 표시됩니다. 워크플로우에서 매우 긴 응답이 정말로 필요하지 않다면 더 작은 max_tokens 값을 설정하세요.

Novita AI에서 GLM 5.2의 비용은 얼마인가요?

현재 가격 페이지에는 GLM 5.2의 입력 토큰 100만 개당 $1.40, 캐시 읽기 입력 토큰 100만 개당 $0.26, 출력 토큰 100만 개당 $4.40이 표시됩니다.

GLM 5.2가 함수 호출을 지원하나요?

예. 현재 GLM 5.2 목록에는 함수 호출 지원이 표시됩니다. 모델이 자연어 텍스트만 반환하는 대신 제어된 애플리케이션 도구 중에서 선택해야 할 때 사용하세요.

GLM 5.2가 구조화된 출력을 지원하나요?

예. 현재 GLM 5.2 목록에는 구조화된 출력 지원이 표시됩니다. 생성된 JSON 또는 스키마 형태의 응답을 다운스트림에서 사용하기 전에 애플리케이션에서 검증하세요.

Novita AI에서 GLM 5.2 API 빠른 시작

GLM 5.2 API 빠른 시작 전제 조건

GLM 5.2 API 사양 및 가격

첫 번째 GLM 5.2 API 요청 만드는 방법

GLM 5.2를 사용해야 하는 경우

함수 호출 및 구조화된 출력

장기 컨텍스트 사용을 위한 프로덕션 노트

자주 묻는 질문

GLM 5.2는 Novita AI에서 사용할 수 있나요?

Novita AI에서 GLM 5.2의 컨텍스트 창은 무엇인가요?

GLM 5.2의 최대 출력은 무엇인가요?

Novita AI에서 GLM 5.2의 비용은 얼마인가요?

GLM 5.2가 함수 호출을 지원하나요?

GLM 5.2가 구조화된 출력을 지원하나요?

추천 문서

Product

RESOURCES

Partners

Company

GLM 5.2 API 빠른 시작 전제 조건

GLM 5.2 API 사양 및 가격

첫 번째 GLM 5.2 API 요청 만드는 방법

GLM 5.2를 사용해야 하는 경우

함수 호출 및 구조화된 출력

장기 컨텍스트 사용을 위한 프로덕션 노트

자주 묻는 질문

GLM 5.2는 Novita AI에서 사용할 수 있나요?

Novita AI에서 GLM 5.2의 컨텍스트 창은 무엇인가요?

GLM 5.2의 최대 출력은 무엇인가요?

Novita AI에서 GLM 5.2의 비용은 얼마인가요?

GLM 5.2가 함수 호출을 지원하나요?

GLM 5.2가 구조화된 출력을 지원하나요?

추천 문서

관련 게시글

Product

RESOURCES

Partners

Company