Step 3.7 Flash が Novita AI で Serverless LLM API として利用可能になりました。これは、テキスト、画像、動画の入力を受け付け、ツールを呼び出し、構造化出力を返し、チャット補完エンドポイント経由で 256K のコンテキストウィンドウで動作するマルチモーダル推論モデルを必要とする開発者向けです。ワークフローにマルチメディアコンテキストと推論に基づくアクションプランが必要な場合に使用し、小さなテキストのみのモデルで既に問題が解決できる場合には使用しないでください。
Novita AI での Step 3.7 Flash とは
Step 3.7 Flash は、StepFun の高効率マルチモーダル推論モデルであり、Novita AI 上で Serverless LLM アクセスとしてホストされています。API モデル ID は stepfun/step-3.7-flash で、モデルはチャット補完エンドポイントを通じて公開されています。
開発者にとっての実用的な答えはシンプルです。ワークフローがプレーンテキストのチャット以上のものを必要とする場合に Step 3.7 Flash を使用します。長い指示、視覚的または動画のコンテキスト、構造化出力、ツールルーティングを組み合わせたエージェントタスクに適しています。例としては、製品ウォークスルー動画の分析、スクリーンショットを実装タスクに変換、マルチメディア入力からの多段階操作の計画、アプリケーション機能を実行すべきタイミングをモデルに判断させる場合などがあります。
これはスタック内のすべての小さなテキストモデルを置き換えることを意図したものではありません。アプリケーションが短い FAQ の回答、単純な抽出、または大量の分類のみを必要とする場合は、まず Novita AI モデルライブラリ と Novita AI の料金 で現在のモデルを比較してください。マルチモーダル入力、長いコンテキスト、またはツールを認識した計画が実際の製品要件の一部である場合、Step 3.7 Flash はより魅力的になります。
Step 3.7 Flash の仕様、提供状況、料金
Novita AI は現在、Step 3.7 Flash を Serverless LLM モデルとして以下の実装詳細と共にリストしています。モデルの提供状況と料金は変更される可能性があるため、プロダクションルーティングの前にライブモデルページを確認してください。
| フィールド | 現在の Novita AI の値 |
|---|---|
| 表示名 | Step 3.7 Flash |
| API モデル ID | stepfun/step-3.7-flash |
| アクセスパス | Serverless LLM |
| エンドポイント | chat/completions |
| 入力モダリティ | テキスト、画像、動画 |
| 出力モダリティ | テキスト |
| コンテキストウィンドウ | 262,144 トークン |
| 最大出力トークン | 256,000 トークン |
| 関数呼び出し | 対応 |
| 構造化出力 | 対応 |
| 推論 | 対応 |
| モデルファミリー | StepFun |
| アーキテクチャラベル | MoE |
stepfun/step-3.7-flash の現在のトークン料金は次のとおりです。
| トークンタイプ | 現在の料金 |
|---|---|
| 入力トークン | 100 万トークンあたり $0.20 |
| キャッシュ読み取り入力トークン | 100 万トークンあたり $0.04 |
| 出力トークン | 100 万トークンあたり $1.15 |
同じモデルリストには、T1 から T5 までのリクエストレート階層が表示されています。表示されている T1 クォータは 30 RPM と 50,000,000 TPM で、上位階層ではより高い RPM 値が設定されています。これらはアカウント設定時に確認するプラットフォームの制限として扱い、独自の負荷テストの代わりにしないでください。
マルチモーダルおよび長いコンテキストのリクエストは急速に増加する可能性があるため、料金は重要です。製品チームは、プロンプトサイズ、メディア由来のコンテキスト、キャッシュ読み取りの再利用、出力長を個別に測定する必要があります。ワークフローが同じシステムプロンプト、ツールスキーマ、または大きな指示ブロックを繰り返し送信する場合、キャッシュ読み取りがコスト設計の一部になります。応答が頻繁に大きな出力サイズに達する場合、出力トークンが入力トークンよりも速く請求額を支配します。
有用な予算計画パターンの 1 つは、評価トラフィックを 3 つのバケットに分けることです。まず、同じタスクのプレーンテキストベースラインを測定します。次に、画像や動画入力を追加し、追加のコンテキストが回答を変更する頻度を記録します。3 番目に、完全なポリシー、スキーマ、または製品ドキュメントを添付した長いコンテキストバージョンをテストします。3 番目のバケットがルーティングの精度を向上させたり、手動レビューを減らしたりする場合、より大きなリクエストは正当化できます。そうでない場合は、プロダクションパスを狭く保ちます。
どのようなマルチモーダル推論作業に適しているか
Step 3.7 Flash は、モデルが異なる種類の入力にわたって推論し、その結果として計画、決定、または構造化された回答を生成する必要がある場合に最も興味深いものです。
製品チームやサポートチームにとっては、UI のスクリーンショットや短い動画クリップを検査し、ユーザーの問題を特定し、チケットを適切なキューにルーティングする JSON オブジェクトを返すようモデルに依頼することを意味します。開発者ツールにとっては、バグの画面録画、関連するエラーテキスト、ソーススニペットを読み取り、再現チェックリストを生成することを意味します。運用ワークフローにとっては、長いポリシーテキストと視覚的証拠を組み合わせ、段階的な処理計画をモデルに生成させることを意味します。
重要な区別は、Step 3.7 Flash がタスクに必要な証拠を受け取るべきであるということです。決して提供されなかった詳細を推測するように依頼しないでください。ワークフローがデータベースルックアップ、請求状態、注文ステータス、またはデプロイメントレコードに依存する場合は、モデルの一般的な知識に頼るのではなく、アプリケーション層またはツール呼び出しを通じてそのデータを公開してください。
適切な評価プロンプトの例は次のとおりです。
- 1 枚のスクリーンショット、ユーザーの説明、および必要な JSON スキーマを含むサポートトリアージプロンプト。
- 短い動画入力とバグ報告テンプレートを含む製品 QA プロンプト。
- モデルが
create_ticket、search_docs、escalate_to_humanのいずれかを選択する必要があるツールルーティングプロンプト。 - 同じツールスキーマとポリシーテキストがキャッシュ読み取りの恩恵を受ける可能性がある長いコンテキスト分析プロンプト。
「この動画を分析して」や「この画像について推論して」といった曖昧なプロンプトから始めるのは避けてください。モデルに仕事、決定境界、および出力形式を指定してください。これにより、モデル間の結果の比較が容易になり、追加のコンテキストとマルチモーダル入力がコストに見合うものかどうかの測定が容易になります。
エージェントワークフローの場合、モデルのツールサポートを最も注意深くテストする部分です。適切なツール呼び出し評価には、正解がツールを呼び出すケース、正解がさらに情報を求めるケース、ツールを実行すべきでないケースを含める必要があります。これにより、モデルが関数呼び出しを発行できるという理由だけで、過剰に積極的なアクションを評価が報いるのを防ぎます。
チームはプロダクション前にどのように評価すべきか
一般的なベンチマークプロンプトではなく、製品に似た小さなテストセットから始めてください。成功ケース、エッジケース、ツール呼び出しをトリガーすべきでないプロンプトを含めてください。アプリケーションが構造化出力を必要とする場合は、手動でチェックする代わりに、出力をスキーマに対して検証してください。
最小限の OpenAI 互換テキストリクエストは、Novita AI のベース URL と確認済みのモデル ID を使用します。
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai",
)
response = client.chat.completions.create(
model="stepfun/step-3.7-flash",
messages=[
{
"role": "system",
"content": "あなたは実用的なインシデントトリアージアシスタントです。簡潔で構造化された推奨事項を返してください。",
},
{
"role": "user",
"content": "このインシデントサマリーを確認し、次に確認すべき3つの項目を特定してください:デプロイ後にAPIレイテンシが2倍になり、データベースCPUは正常で、エラーレートは横ばいです。",
},
],
max_tokens=700,
temperature=0.2,
)
print(response.choices[0].message.content)
プロダクション評価では、実際のユーザートラフィックをルーティングする前に 4 つのチェックを追加します。
- コストチェック: 代表的なリクエストの入力、キャッシュ読み取り、出力トークンをログに記録します。
- スキーマチェック: 構造化出力を自動的に検証し、応答が一致しない場合はリトライまたはフォールバックします。
- ツールチェック: ツール呼び出しとツール呼び出しなしの両方のケース(曖昧なプロンプトを含む)をテストします。
- メディアチェック: アプリケーションが送信する実際の画像や動画フォーマットを評価し、メディアのテキスト要約のみを評価しないでください。
関数呼び出しと構造化出力は有用ですが、アプリケーションの責任を排除するものではありません。サービスには、認可チェック、入力検証、冪等なツール実行、ユーザーデータを変更するアクションの監査ログが依然として必要です。
マルチモーダルリクエストの場合、メディア処理パスを明示的に保ってください。アプリケーションのプライバシールールに従ってアセットを保存または参照し、デバッグのために十分なメタデータを保持し、使用されたリクエスト形式を記録してください。後でプロダクションの問題が発生した場合、モデルが元の画像や動画、圧縮バージョン、フレームサンプル、または別のサービスで生成されたテキスト要約のどれを見たかを知る必要があります。
Step 3.7 Flash と個別のクイックスタート記事の比較
この記事は、提供開始と信頼できる情報の概要です。提供状況、モデル ID、料金、マルチモーダルの範囲、開発者向けの適合性をカバーしています。別の Step 3.7 Flash クイックスタート記事では、リクエストペイロード、画像と動画の入力、関数呼び出しの例、構造化出力パターンについてより深く掘り下げることができます。
この分割は有用です。提供開始の読者は通常、「このモデルを評価すべきか?」という質問に答える必要があります。クイックスタートの読者は「正確にどのリクエストを送ればよいか?」という質問に答える必要があります。これらの作業を分離することで、長いチュートリアル内に料金と機能の事実が埋もれるのを防ぎ、実装の詳細を適切な場所に残すことができます。
現時点では、最良の次のステップは、Step 3.7 Flash モデルページ を開き、アカウントの現在のレートカードと制限を確認し、アプリケーションが必要とする同じメディア、ツールスキーマ、または構造化出力を使用した狭い評価プロンプトを実行することです。
FAQ
Step 3.7 Flash は Novita AI で利用可能ですか?
はい。Novita AI は現在、Step 3.7 Flash を Serverless LLM モデルとして API モデル ID stepfun/step-3.7-flash でリストしています。
Step 3.7 Flash はどのような入力に対応していますか?
Novita AI のモデルページでは、現在、テキスト、画像、動画をサポートされる入力モダリティとしてリストしています。出力モダリティはテキストです。
Novita AI での Step 3.7 Flash のコストはいくらですか?
stepfun/step-3.7-flash の現在の Novita AI の料金は、入力トークン 100 万トークンあたり $0.20、キャッシュ読み取り入力トークン 100 万トークンあたり $0.04、出力トークン 100 万トークンあたり $1.15 です。
Step 3.7 Flash は関数呼び出しをサポートしていますか?
はい。Novita AI のモデルページでは、現在、Step 3.7 Flash の関数呼び出し、構造化出力、推論のサポートをリストしています。
開発者はどのエンドポイントを使用すべきですか?
Novita AI の OpenAI 互換チャット補完エンドポイントをモデル ID stepfun/step-3.7-flash と共に使用してください。OpenAI 互換 SDK 使用時のベース URL は https://api.novita.ai/openai です。
