Step 3.7 Flash API on Novita AI：マルチモーダル推論ガイド

Novita AI での Step 3.7 Flash とは？
Step 3.7 Flash API のスペック、可用性、料金
どのようなマルチモーダル推論作業に適しているか？
チームは本番前にどのように評価すべきか？
立ち上げ概要とクイックスタートの比較は？
FAQ
おすすめ記事

Step 3.7 Flash API は、OpenAI 互換の Serverless LLM API を通じてマルチモーダル推論モデルを必要とする開発者向けに Novita AI で利用可能です。ワークフローでテキスト、画像、動画の入力、ツール呼び出し、構造化出力、256K コンテキストウィンドウが必要な場合は、Novita AI のチャット補完エンドポイントで stepfun/step-3.7-flash を使用してください。すぐにリクエストを送信する準備ができている場合は、Step 3.7 Flash API クイックスタートに進んでください。モデルが製品に適合するかどうかを判断する場合は、以下のスペック、料金、評価ガイダンスから始めてください。

Novita AI での Step 3.7 Flash とは？

Step 3.7 Flash は StepFun の高効率なマルチモーダル推論モデルであり、Novita AI で Serverless LLM アクセスとしてホストされています。API モデル ID は stepfun/step-3.7-flash で、このモデルはチャット補完エンドポイントを通じて公開されています。

開発者にとっての実際的な答えは単純です。ワークフローが単なるプレーンテキストのチャット以上のものを必要とする場合に Step 3.7 Flash API を使用します。長い指示、視覚的または動画のコンテキスト、構造化出力、ツールルーティングを組み合わせたエージェント的タスクに適しています。例として、製品ウォークスルー動画の分析、スクリーンショットを実装タスクに変換する、複数のメディア入力からマルチステップ操作を計画する、モデルを使用してアプリケーション機能を実行するタイミングを決定するなどがあります。

すべての小さなテキストモデルをスタックから置き換えることを意図したものではありません。アプリケーションが短い FAQ 回答、単純な抽出、または大量の分類のみを必要とする場合は、まず Novita AI モデルライブラリの現在のモデルと Novita AI 料金を比較してください。Step 3.7 Flash は、マルチモーダル入力、長いコンテキスト、またはツールを認識した計画が実際の製品要件の一部である場合に、より魅力的になります。

Step 3.7 Flash API のスペック、可用性、料金

Novita AI は現在、Step 3.7 Flash を Serverless LLM モデルとして以下の実装詳細とともにリストしています。モデルの可用性と料金は変更される可能性があるため、本番ルーティングと調達レビューの前に、ライブモデルページを確認してください。

フィールド	現在の Novita AI の値
表示名	Step 3.7 Flash
API モデル ID	`stepfun/step-3.7-flash`
アクセスパス	Serverless LLM
エンドポイント	`chat/completions`
入力モダリティ	テキスト、画像、動画
出力モダリティ	テキスト
コンテキストウィンドウ	262,144 トークン
最大出力トークン	256,000 トークン
関数呼び出し	サポート
構造化出力	サポート
推論	サポート
モデルファミリー	StepFun
アーキテクチャラベル	MoE

現在の stepfun/step-3.7-flash のトークン料金は次のとおりです。

トークンタイプ	現在の価格
入力トークン	百万トークンあたり $0.20
キャッシュ読み取り入力トークン	百万トークンあたり $0.04
出力トークン	百万トークンあたり $1.15

同じモデルリストには、T1 から T5 までのリクエストレート階層が表示されています。表示されている T1 クオータは 30 RPM および 50,000,000 TPM で、上位階層ではより高い RPM 値になります。これらはアカウント設定時に確認するプラットフォーム制限として扱い、独自の負荷テストの代用にはしないでください。

料金が重要なのは、マルチモーダルおよび長いコンテキストのリクエストが急速に増加する可能性があるためです。製品チームは、プロンプトサイズ、メディア派生コンテキスト、キャッシュ読み取りの再利用、出力長を個別に測定する必要があります。ワークフローが同じシステムプロンプト、ツールスキーマ、または大きな命令ブロックを繰り返し送信する場合、キャッシュ読み取りがコスト設計の一部になる可能性があります。応答が定期的に大きな出力サイズに達する場合、出力トークンが入力トークンよりも速く請求額を支配します。

便利な予算設定パターンの 1 つは、評価トラフィックを 3 つのバケットに分けることです。最初に、同じタスクのプレーンテキストベースラインを測定します。次に、画像または動画入力を追加し、追加のコンテキストが回答を変更する頻度を記録します。3 番目に、完全なポリシー、スキーマ、または製品ドキュメントを添付した長いコンテキストバージョンをテストします。3 番目のバケットがルーティング精度を向上させたり手動レビューを削減したりする場合は、より大きなリクエストを正当化できます。そうでない場合は、本番パスを狭く保ちます。

どのようなマルチモーダル推論作業に適しているか？

Step 3.7 Flash は、モデルが異なる種類の入力をまたいで推論し、計画、決定、または構造化された回答を生成する必要がある場合に最も興味深いものです。

プロダクトチームやサポートチームにとって、これはモデルに UI のスクリーンショットや短い動画クリップを検査させ、ユーザーの問題を特定し、チケットを適切なキューにルーティングする JSON オブジェクトを返すよう依頼することを意味します。開発者ツールにとっては、バグの画面録画、関連するエラーテキスト、ソーススニペットを読み取り、再現チェックリストを生成することを意味します。運用ワークフローにとっては、長いポリシーテキストと視覚的証拠を組み合わせ、モデルにステップバイステップの処理計画を生成させることを意味します。

重要な違いは、Step 3.7 Flash はタスクに必要な証拠を受け取るべきであるということです。決して提供されなかった詳細を推測するよう依頼しないでください。ワークフローがデータベースルックアップ、課金状態、注文ステータス、またはデプロイメントレコードに依存する場合は、モデルの一般的な知識に頼るのではなく、アプリケーションレイヤーまたはツール呼び出しを通じてそのデータを公開してください。

優れた評価プロンプトには以下が含まれます。

1 枚のスクリーンショット、ユーザーの説明、必要な JSON スキーマを含むサポートトリアージプロンプト。
短い動画入力とバグレポートテンプレートを含む製品 QA プロンプト。
モデルが create_ticket、search_docs、escalate_to_human のいずれかを選択する必要があるツールルーティングプロンプト。
同じツールスキーマとポリシーテキストがキャッシュ読み取りの恩恵を受けられる長いコンテキスト分析プロンプト。

「この動画を分析してください」や「この画像について推論してください」のような曖昧なプロンプトから始めないでください。モデルにジョブ、決定境界、出力形式を与えてください。そうすることで、モデル間の結果の比較が容易になり、追加のコンテキストとマルチモーダル入力がその価値を支払っているかどうかを測定しやすくなります。

エージェントワークフローでは、モデルのツールサポートが最も注意深くテストすべき部分です。適切なツール呼び出し評価には、正しい回答がツールを呼び出すことであるケース、正しい回答がより多くの情報を求めることであるケース、ツールを実行すべきでないケースを含める必要があります。これにより、モデルが関数呼び出しを発行できるという理由だけで、過剰に積極的なアクションを評価が報奨するのを防ぎます。

チームは本番前にどのように評価すべきか？

一般的なベンチマークプロンプトではなく、製品に似た小さなテストセットから始めてください。成功ケース、エッジケース、ツール呼び出しをトリガーすべきでないプロンプトを含めてください。アプリケーションが構造化出力を必要とする場合は、出力を手動で確認する代わりに、スキーマに対して自動検証してください。

最小限の OpenAI 互換テキストリクエストは、Novita AI LLM API のベース URL と確認済みのモデル ID を使用します。

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "system",
            "content": "You are a practical incident triage assistant. Return concise, structured recommendations.",
        },
        {
            "role": "user",
            "content": "Review this incident summary and identify the next three checks: API latency doubled after a deploy, database CPU is normal, error rate is flat.",
        },
    ],
    max_tokens=700,
    temperature=0.2,
)

print(response.choices[0].message.content)

本番評価では、実際のユーザートラフィックをルーティングする前に 4 つのチェックを追加してください。

コストチェック: 代表的なリクエストの入力、キャッシュ読み取り、出力トークンを記録します。
スキーマチェック: 構造化出力を自動的に検証し、応答が一致しない場合はリトライまたはフォールバックします。
ツールチェック: ツール呼び出しケースとツール呼び出しなしケースの両方をテストし、曖昧なプロンプトも含めます。
メディアチェック: メディアのテキスト要約だけでなく、アプリが送信する実際の画像または動画フォーマットを評価します。

関数呼び出しと構造化出力は便利ですが、アプリケーションの責任を排除するものではありません。サービスには、認可チェック、入力検証、べき等なツール実行、ユーザーデータを変更するアクションの監査ログが依然として必要です。

マルチモーダルリクエストの場合、メディア処理パスを明確に保ちます。アプリケーションのプライバシールールに従ってアセットを保存または参照し、障害をデバッグするのに十分なメタデータを保持し、使用されたリクエストフォーマットを記録します。後で本番の問題が発生した場合、モデルが元の画像または動画、圧縮バージョン、フレームサンプル、または別のサービスによって生成されたテキスト要約のどれを見たのかを知りたいでしょう。

立ち上げ概要とクイックスタートの比較は？

この記事は立ち上げと信頼できる概要です。可用性、モデル ID、料金、マルチモーダル範囲、開発者適合性についてです。別の Step 3.7 Flash API クイックスタートでは、リクエストペイロード、画像と動画の入力、関数呼び出しの例、構造化出力パターンについてより深く掘り下げています。

この分割は有用です。なぜなら、立ち上げの読者は通常、「このモデルを評価すべきか？」という質問に答える必要があるからです。クイックスタートの読者は「どの正確なリクエストを送信すればよいか？」という質問に答える必要があります。これらのジョブを分離することで、長いチュートリアルの中に料金と機能の事実を埋めることを避けながら、実装の詳細をその属する場所に残す余地を残します。

今のところ、最良の次のステップは、Step 3.7 Flash モデルページを開き、現在のレートカードとアカウントの制限を確認し、アプリケーションが必要とする同じメディア、ツールスキーマ、または構造化出力を使用した狭い評価プロンプトを実行することです。

FAQ

Step 3.7 Flash は Novita AI で利用できますか？

はい。Novita AI は現在、Step 3.7 Flash を Serverless LLM モデルとして、API モデル ID stepfun/step-3.7-flash でリストしています。

Step 3.7 Flash はどのような入力をサポートしていますか？

Novita AI のモデルページには、現在サポートされている入力モダリティとしてテキスト、画像、動画がリストされています。出力モダリティはテキストです。

Novita AI での Step 3.7 Flash のコストはいくらですか？

stepfun/step-3.7-flash の現在の Novita AI 料金は、入力トークン 100 万トークンあたり $0.20、キャッシュ読み取り入力トークン 100 万トークンあたり $0.04、出力トークン 100 万トークンあたり $1.15 です。

Step 3.7 Flash は関数呼び出しをサポートしていますか？

はい。Novita AI のモデルページには、現在 Step 3.7 Flash の関数呼び出し、構造化出力、推論サポートがリストされています。

開発者はどのエンドポイントを使用すべきですか？

Novita AI の OpenAI 互換チャット補完エンドポイントをモデル ID stepfun/step-3.7-flash で使用してください。OpenAI 互換 SDK を使用する場合のベース URL は https://api.novita.ai/openai です。