Novita AI で GLM 5.2 API クイックスタート

GLM 5.2 API クイックスタートの前提条件
GLM 5.2 API の仕様と価格
最初の GLM 5.2 API リクエストを行う方法
GLM 5.2 を使用すべきタイミング
関数呼び出しと構造化出力
長いコンテキスト使用に関する本番環境での注意点
よくある質問
おすすめ記事

このクイックスタートでは、OpenAI 互換のチャット補完 API を使用して、Novita AI で GLM 5.2 を呼び出す方法を説明します。検証済みモデル ID zai-org/glm-5.2、Novita AI のベース URL を使用し、最初の小さなリクエストを行った後、モデルの 1,048,576 トークンコンテキストウィンドウ、131,072 トークンの最大出力、関数呼び出し、構造化出力、推論サポート、または現在のモデルリストに示されている Anthropic 互換アクセスをテストします。

GLM 5.2 API クイックスタートの前提条件

GLM 5.2 は、長期的な自律作業を行うための Z.AI のフラッグシップモデルです。Novita AI のモデルページでは、計画、実行、反復最適化、コーディング、プロダクショングレードの成果物の納品といった持続的なタスク向けに構築されたモデルとして説明されています。開発者にとって、実際のポイントはシンプルです。GLM 5.2 は、単なる短いチャットモデルではありません。モデルが大規模なタスク、コードベース、ドキュメントセット、エージェントの状態を把握するのに十分なコンテキストを必要とするワークフロー向けに位置づけられています。

Novita AI では、GLM 5.2 はサーバーレスモデル API を通じて公開されています。これは、GPU インフラストラクチャを構築したり、カスタム推論スタックを介してトラフィックをルーティングしたり、長いコンテキストの提供を自分で管理したりすることなく、モデルを評価したい場合に重要です。Novita AI の API キー、OpenAI 互換のエンドポイント、および正確なモデル ID を使用します。

zai-org/glm-5.2

現在の Novita AI LLM API ガイドは、チャットと補完タスクのためのプラットフォームの OpenAI 互換アプローチを文書化しています。チャット補完 API リファレンスは、以下の例で使用される REST パスを文書化しています。

https://api.novita.ai/openai/v1/chat/completions

コンテキスト長、最大出力、価格、モダリティ、サポートされているエンドポイントファミリーなどのモデル固有の詳細については、モデルページを参照してください。リクエストパラメータ、認証、ストリーミング、チャットメッセージ構造については、API リファレンスを参照してください。

GLM 5.2 API の仕様と価格

Novita AI の現在の GLM 5.2 のリストには、長いコンテキストとエージェント指向の機能をサポートするサーバーレスのテキスト入力、テキスト出力モデルが示されています。

フィールド	現在の Novita AI の値
表示名	GLM 5.2
API モデル ID	`zai-org/glm-5.2`
アクセスパス	サーバーレス
コンテキストウィンドウ	1,048,576 トークン
最大出力	131,072 トークン
入力モダリティ	テキスト
出力モダリティ	テキスト
エンドポイントファミリー	`chat/completions`、Anthropic 互換エンドポイント
関数呼び出し	サポート
構造化出力	サポート
推論	サポート
入力価格	100万トークンあたり $1.40
キャッシュ読み取り入力価格	100万トークンあたり $0.26
出力価格	100万トークンあたり $4.40

価格は 100万トークンあたりで表示されています。簡単に見積もるには、プロンプトトークンに入力レートを掛け、生成トークンに出力レートを掛けます。キャッシュ読み取り価格は、アプリケーションがシステムプロンプト、ツールスキーマ、ポリシーブロック、安定したリポジトリサマリーなど、同じ再利用可能なコンテキストを繰り返し送信する場合にコストを削減できます。

たとえば、100,000 のキャッシュされていない入力トークンと 5,000 の出力トークンを持つリクエストの見積もりは次のようになります。

コンポーネント	計算	見積もりコスト
入力	0.1 百万トークン × $1.40	$0.14
出力	0.005 百万トークン × $4.40	$0.022
合計	入力 + 出力	$0.162

これは単純なトークンレートの見積もりにすぎません。本番環境のコストは、プロンプトの再利用、リトライ、切り詰め、ストリーミング動作、応答長、およびアプリケーションがキャッシュまたは要約できる可能性のある大きなコンテキストブロックを繰り返し含めるかどうかによっても異なります。

最初の GLM 5.2 API リクエストを行う方法

完全な 100万トークンのコンテキストウィンドウをテストする前に、小さなプロンプトから始めてください。これにより、認証、モデルルーティング、応答形状、レイテンシのクリーンなベースラインが得られます。

OpenAI Python SDK をインストールし、Novita AI キーを環境変数に保存します。

pip install openai
export NOVITA_API_KEY="YOUR_NOVITA_API_KEY"

次に、Novita AI のベース URL を使用して GLM 5.2 を呼び出します。

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "system",
            "content": "あなたは実用的なソフトウェアアーキテクチャアシスタントです。",
        },
        {
            "role": "user",
            "content": "この移行計画をレビューし、最もリスクの高いステップをリストアップしてください。",
        },
    ],
    max_tokens=1200,
    temperature=0.3,
)

print(response.choices[0].message.content)

直接 REST 呼び出しを希望する場合は、チャット補完パスを使用します。

curl --request POST \
  --url https://api.novita.ai/openai/v1/chat/completions \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "zai-org/glm-5.2",
    "messages": [
      {
        "role": "system",
        "content": "あなたは簡潔なエンジニアリングレビューアです。"
      },
      {
        "role": "user",
        "content": "ペイメントAPI変更のためのリリースリスクチェックリストを作成してください。"
      }
    ],
    "max_tokens": 1200,
    "temperature": 0.3
  }'

より長い応答の場合は、ストリーミングを有効にして、アプリケーションが完全な補完が終了する前にトークンの受信を開始できるようにします。

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

stream = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "モノリスをサービスにリファクタリングするための段階的な計画を作成してください。",
        }
    ],
    max_tokens=2000,
    temperature=0.3,
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="")

API キーはソース管理外に保管し、明示的な max_tokens 値を設定し、利用可能な場合は使用状況データをログに記録してください。長いコンテキストモデルは非常に大きなプロンプトを簡単に送信できるため、コスト管理は最初のプロトタイプからプロンプトと補完トークンを測定することから始まります。

GLM 5.2 を使用すべきタイミング

GLM 5.2 は、タスクが通常のチャットコンテキストでは大きすぎる場合、またはモデルがツール、ファイル、構造化出力を使用して複数のステップを調整する必要がある場合に適しています。

適切な評価対象は次のとおりです。

リポジトリ分析: アーキテクチャノート、ファイルマップ、依存関係の説明、選択したコードの抜粋を 1 つのリクエストでモデルにレビューさせる。
コーディングエージェント: エージェントが反復処理を行う間、タスクの目標、制約、ツールスキーマ、以前の決定、作業メモをコンテキスト内に保持する。
長文書の合成: 積極的なチャンク化を行わずに、ポリシー、技術仕様書、契約書、研究ノート、製品ドキュメントを要約する。
移行計画: システムマップ、制約、ロールアウト計画、リスクレジスタをモデルに与え、ギャップや順序の問題を尋ねる。
構造化抽出: 長いソースドキュメントと、ダウンストリームシステムのための厳格な JSON スキーマを組み合わせる。

GLM 5.2 がすべてのリクエストに自動的に適切なモデルであるとは限りません。短い分類、基本的なチャット、単純な抽出、または大量の低レイテンシトラフィックの場合は、Novita AI モデルライブラリの小さなモデルと、Novita AI 価格ページの現在のレートを比較してください。100万トークンモデルは、実際にコンテキスト、出力上限、またはエージェント指向の機能が必要な場合に最も価値を発揮します。

関数呼び出しと構造化出力

GLM 5.2 のリストには、関数呼び出しと構造化出力のサポートが示されています。これらの機能は、モデルが単なる散文ではなく、アプリケーションが処理できるものを返す必要がある場合に役立ちます。

関数呼び出しは、アプリケーションが次のような制御されたツールを公開する場合に適しています。

顧客レコードの取得、
チケットのオープン、
デプロイメントステータスの確認、
内部ナレッジベースの検索、
見積もりの計算、
またはリクエストを専門サービスにルーティングする。

以下は、最小限のツール呼び出しパターンです。

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_release_ticket",
            "description": "リスクレビュー後にリリースチケットを作成します。",
            "parameters": {
                "type": "object",
                "properties": {
                    "title": {"type": "string"},
                    "risk_level": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "summary": {"type": "string"},
                },
                "required": ["title", "risk_level", "summary"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "このリリースを評価し、リスクが中または高の場合はチケットを作成してください。",
        }
    ],
    tools=tools,
    tool_choice="auto",
    max_tokens=1000,
)

print(response.choices[0].message)

構造化出力は、応答を予測可能なスキーマに適合させたい場合に役立ちます。JSON を要求する場合でも、アプリケーション内で検証を維持してください。モデルの出力は生成された候補として扱い、解析し、必須フィールドを検証し、修復プロンプトまたはフォールバックパスでエラーを処理します。

ツール設計の詳細については、Novita AI の関数呼び出しと構造化出力ガイド、および GLM に特化したGLM 関数呼び出しガイドを参照してください。

長いコンテキスト使用に関する本番環境での注意点

見出しのコンテキストウィンドウは上限であり、デフォルトの動作モードではありません。1,048,576 トークンのリクエストは有用な場合もありますが、ほとんどのアプリケーションはそのサイズに段階的に到達する必要があります。

以下の管理策から始めてください。

プロンプトを予算化する: 安定した指示、変動するユーザー入力、検索結果、ツールスキーマを分割して、どの部分がトークン数を増加させているかを把握できるようにします。
完全に詰め込む前に検索を使用する: 最初に最も関連性の高いファイルやパッセージを送信し、タスクがさらに証拠を必要とする場合にのみコンテキストを拡張します。
出力長を制限する: GLM 5.2 は高い最大出力をサポートしていますが、ほとんどのワークフローで 131,072 の生成トークンは必要ありません。max_tokens は、有用な最小の値に設定します。
長い応答をストリーミングする: ストリーミングはユーザーエクスペリエンスを向上させ、サービスが長い補完をより適切に処理できるようにします。
構造化された結果を検証する: スキーマはあいまいさを減らしますが、アプリケーションにはパーサーチェック、リトライ、明確なエラー処理が必要です。
キャッシュの機会を追跡する: 繰り返されるコンテキストブロックは、毎回新しい入力として送信すると高コストになる可能性があります。再利用可能なプロンプト、ポリシー、ツール定義を早期に特定します。
小さなモデルのフォールバックを維持する: 多くのルーティングシステムは、簡単なケースには小さなモデルを使用し、長いコンテキストモデルはその全容量を必要とするタスクのために予約します。
小さなモデルのフォールバックを維持する: 多くのルーティングシステムは、簡単なケースには小さなモデルを使用し、長いコンテキストモデルはその全容量を必要とするタスクのために予約します。

コーディングエージェントの場合、実用的なパターンの 1 つは、耐久性のあるプロジェクトコンテキストをプロンプトの外に保持し、現在のタスクに関連するファイルのみを取得し、GLM 5.2 に自由形式のエッセイではなく、限定された計画やパッチレビューを生成するように依頼することです。これにより、コストを明確に保ちながら、モデルがシステムの関連部分全体で推論するのに十分なコンテキストを提供できます。

よくある質問

GLM 5.2 は Novita AI で利用できますか？

はい。GLM 5.2 は、API モデル ID zai-org/glm-5.2 のサーバーレスモデルとして Novita AI にリストされています。

Novita AI における GLM 5.2 のコンテキストウィンドウはどれくらいですか？

現在の Novita AI のリストでは、GLM 5.2 のコンテキストウィンドウは 1,048,576 トークンと表示されています。

GLM 5.2 の最大出力はどれくらいですか？

現在の Novita AI のリストでは、GLM 5.2 の最大出力は 131,072 トークンと表示されています。ワークフローが本当に非常に長い応答を必要としない限り、より小さい max_tokens 値を設定してください。

Novita AI での GLM 5.2 の料金はいくらですか？

現在の価格ページでは、GLM 5.2 は入力トークン 100万トークンあたり $1.40、キャッシュ読み取り入力トークン 100万トークンあたり $0.26、出力トークン 100万トークンあたり $4.40 とリストされています。

GLM 5.2 は関数呼び出しをサポートしていますか？

はい。現在の GLM 5.2 のリストには関数呼び出しのサポートが示されています。モデルが自然言語テキストのみを返すのではなく、制御されたアプリケーションツールから選択する必要がある場合に使用します。

GLM 5.2 は構造化出力をサポートしていますか？

はい。現在の GLM 5.2 のリストには構造化出力のサポートが示されています。生成された JSON またはスキーマ形式の応答は、ダウンストリームで使用する前にアプリケーション内で検証してください。

Novita AI で GLM 5.2 API クイックスタート

GLM 5.2 API クイックスタートの前提条件

GLM 5.2 API の仕様と価格

最初の GLM 5.2 API リクエストを行う方法

GLM 5.2 を使用すべきタイミング

関数呼び出しと構造化出力

長いコンテキスト使用に関する本番環境での注意点

よくある質問

GLM 5.2 は Novita AI で利用できますか？

Novita AI における GLM 5.2 のコンテキストウィンドウはどれくらいですか？

GLM 5.2 の最大出力はどれくらいですか？

Novita AI での GLM 5.2 の料金はいくらですか？

GLM 5.2 は関数呼び出しをサポートしていますか？

GLM 5.2 は構造化出力をサポートしていますか？

おすすめ記事

Product

RESOURCES

Partners

Company

GLM 5.2 API クイックスタートの前提条件

GLM 5.2 API の仕様と価格

最初の GLM 5.2 API リクエストを行う方法

GLM 5.2 を使用すべきタイミング

関数呼び出しと構造化出力

長いコンテキスト使用に関する本番環境での注意点

よくある質問

GLM 5.2 は Novita AI で利用できますか？

Novita AI における GLM 5.2 のコンテキストウィンドウはどれくらいですか？

GLM 5.2 の最大出力はどれくらいですか？

Novita AI での GLM 5.2 の料金はいくらですか？

GLM 5.2 は関数呼び出しをサポートしていますか？

GLM 5.2 は構造化出力をサポートしていますか？

おすすめ記事

関連記事

Product

RESOURCES

Partners

Company