Step 3.7 Flash API 在 Novita AI 上：多模態推理指南

什麼是 Novita AI 上的 Step 3.7 Flash？
Step 3.7 Flash API 規格、可用性與定價
它適合哪些多模態推理工作？
團隊在正式環境前應如何評估？
上線總覽與快速入門有何比較？
常見問題
推薦文章

Step 3.7 Flash API 現已在 Novita AI 上線，專為需要透過相容 OpenAI 的 Serverless LLM API 使用多模態推理模型的開發者設計：當你的工作流程需要文字、圖片或影片輸入、工具呼叫、結構化輸出以及 256K 上下文視窗時，請使用 stepfun/step-3.7-flash 搭配 Novita AI 的聊天補全端點。如果你已經準備好發送請求，請直接前往 Step 3.7 Flash API 快速入門；如果你正在評估此模型是否適合你的產品，請從下方的規格、定價與評估指南開始。

什麼是 Novita AI 上的 Step 3.7 Flash？

Step 3.7 Flash 是 StepFun 的高效率多模態推理模型，託管於 Novita AI 上提供 Serverless LLM 存取。API 模型 ID 為 stepfun/step-3.7-flash，該模型透過聊天補全端點公開。

對開發者而言，實際答案很直接：當你的工作流程需要的功能超越純文字對話時，就使用 Step 3.7 Flash API。它非常適合結合長指令、視覺或影片上下文、結構化輸出以及工具路由的代理任務。範例包括分析產品操作影片、將螢幕截圖轉換為實作任務、從混合媒體輸入規劃多步驟操作，或使用模型來決定應用程式功能何時應執行。

它並非用來取代你技術棧中所有較小的文字模型。如果你的應用程式只需要簡短的常見問題解答、簡單的資訊萃取或高流量的分類任務，請先比較 Novita AI 模型庫與 Novita AI 定價中的現有模型。當多模態輸入、長上下文或具備工具意識的規劃是實際產品需求的一部分時，Step 3.7 Flash 會變得更具吸引力。

Step 3.7 Flash API 規格、可用性與定價

Novita AI 目前將 Step 3.7 Flash 列為 Serverless LLM 模型，實作細節如下。模型可用性與定價可能變更，請在進行正式環境路由與採購審查前，確認即時模型頁面。

欄位	目前的 Novita AI 數值
顯示名稱	Step 3.7 Flash
API 模型 ID	`stepfun/step-3.7-flash`
存取路徑	Serverless LLM
端點	`chat/completions`
輸入模態	文字、圖片、影片
輸出模態	文字
上下文視窗	262,144 個 token
最大輸出 token	256,000 個 token
函式呼叫	支援
結構化輸出	支援
推理	支援
模型系列	StepFun
架構標籤	MoE

stepfun/step-3.7-flash 目前的 token 定價如下：

Token 類型	目前價格
輸入 token	每百萬個 token $0.20 美元
快取讀取輸入 token	每百萬個 token $0.04 美元
輸出 token	每百萬個 token $1.15 美元

同一個模型列表顯示從 T1 到 T5 的請求速率層級。可看到的 T1 配額為 30 RPM 與 50,000,000 TPM，較高層級則有更高的 RPM 值。請將這些視為在帳戶設定時需確認的平台限制，而非你自行負載測試的替代方案。

定價之所以重要，是因為多模態與長上下文請求可能會快速成長。產品團隊應分別衡量提示大小、媒體產生的上下文、快取讀取的重複使用率以及輸出長度。如果某個工作流程反覆發送相同的系統提示、工具架構或大型指令區塊，快取讀取可能成為成本設計的一部分。如果回應經常接近較大的輸出大小，輸出 token 將比輸入 token 更快佔據帳單主體。

一個有用的預算規劃模式是將評估流量分為三個區塊。首先，針對相同任務測量純文字基準線。其次，加入圖片或影片輸入，並記錄額外上下文改變答案的頻率。第三，測試附有完整政策、架構或產品文件的長上下文版本。如果第三個區塊改善了路由準確性或減少了人工審查，那麼較大的請求就是合理的。如果沒有，則讓正式環境路徑保持更精簡。

它適合哪些多模態推理工作？

Step 3.7 Flash 最有價值的時候，是當模型必須針對不同類型的輸入進行推理，然後產出計劃、決策或結構化答案。

對於產品與支援團隊來說，這可能意味著要求模型檢查 UI 螢幕截圖或短片片段，識別使用者可能的問題，並回傳一個 JSON 物件來將工單路由到正確的佇列。對於開發者工具而言，這可能意味著讀取錯誤的螢幕錄影、相關的錯誤文字以及原始碼片段，然後產生重現檢查清單。對於營運工作流程，這可能意味著結合長篇政策文字與視覺證據，並要求模型產出逐步處理計劃。

重要的區別在於，Step 3.7 Flash 應接收任務所需的證據。不要要求它推斷從未提供的細節。如果工作流程依賴資料庫查詢、帳單狀態、訂單狀態或部署記錄，請透過你的應用程式層或工具呼叫來揭露這些資料，而不是依賴模型的一般知識。

良好的評估提示包括：

一個支援分類提示，附上一張螢幕截圖、使用者的描述以及所需的 JSON 架構。
一個產品品質保證提示，附上短片輸入與錯誤報告範本。
一個工具路由提示，模型必須在 create_ticket、search_docs 與 escalate_to_human 之間做選擇。
一個長上下文分析提示，其中相同的工具架構與政策文字可以受益於快取讀取。

避免從模糊的提示開始，例如「分析這段影片」或「推理這張圖片」。給模型明確的任務、決策邊界與輸出格式。這使得跨模型比較結果更加容易，也更容易衡量額外的上下文與多模態輸入是否值得。

對於代理工作流程，模型的工具支援是需要最仔細測試的部分。一個好的工具呼叫評估應包含正確答案是需要呼叫工具的情況、正確答案是要求更多資訊的情況，以及不應執行任何工具的情況。這可以防止評估因為模型能夠發出函式呼叫而獎勵過於積極的行為。

團隊在正式環境前應如何評估？

從一個類似於你產品的小型測試集開始，而不是使用通用的基準測試提示。包含成功案例、邊緣案例以及不應觸發工具呼叫的提示。如果你的應用程式需要結構化輸出，請針對你的架構進行驗證，而不是手動檢查。

一個最小化的相容 OpenAI 文字請求使用 Novita AI LLM API 基礎 URL 與已驗證的模型 ID：

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "system",
            "content": "你是一個實用的突發事件分類助手。請提供簡潔、結構化的建議。",
        },
        {
            "role": "user",
            "content": "檢視這份事件摘要並找出接下來應檢查的三個項目：部署後 API 延遲增加一倍、資料庫 CPU 正常、錯誤率持平。",
        },
    ],
    max_tokens=700,
    temperature=0.2,
)

print(response.choices[0].message.content)

對於正式環境評估，在路由真實使用者流量之前，請加入四項檢查：

成本檢查： 記錄代表性請求的輸入、快取讀取與輸出 token。
架構檢查： 自動驗證結構化輸出，並在回應不符時進行重試或降級。
工具檢查： 測試工具呼叫與非工具呼叫兩種情況，包括模糊提示。
媒體檢查： 評估你的應用程式實際發送的圖片或影片格式，而不僅僅是媒體的文字摘要。

函式呼叫與結構化輸出雖然有用，但它們並不能免除應用程式的責任。你的服務仍然需要授權檢查、輸入驗證、具備冪等性的工具執行，以及針對會更改使用者資料的行動進行稽核日誌記錄。

對於多模態請求，請保持媒體處理路徑的明確性。根據應用程式的隱私規則儲存或引用資產，保留足夠的中繼資料來除錯故障，並記錄使用了哪種請求格式。如果稍後出現正式環境問題，你會想知道模型看到的是原始圖片或影片、壓縮版本、幀取樣，還是其他服務產生的文字摘要。

上線總覽與快速入門有何比較？

本文是上線與事實來源總覽：可用性、模型 ID、定價、多模態範疇以及開發者適用性。另一篇獨立的 Step 3.7 Flash API 快速入門則深入探討請求負載、圖片與影片輸入、函式呼叫範例以及結構化輸出模式。

這種區隔很有用，因為上線文章的讀者通常需要回答：「我們應該評估這個模型嗎？」而快速入門的讀者則需要回答：「我應該發送什麼確切的請求？」將這些任務分開，可以避免將定價與能力事實埋藏在長篇教學中，同時仍為實作細節保留應有的空間。

目前來說，最好的下一步是開啟 Step 3.7 Flash 模型頁面，確認你帳戶的當前費率卡與限制，並執行一個使用你的應用程式所需的相同媒體、工具架構或結構化輸出的狹義評估提示。

常見問題

Step 3.7 Flash 在 Novita AI 上可用嗎？

是的。Novita AI 目前將 Step 3.7 Flash 列為 Serverless LLM 模型，API 模型 ID 為 stepfun/step-3.7-flash。

Step 3.7 Flash 支援哪些輸入？

Novita AI 模型頁面目前列出文字、圖片與影片作為支援的輸入模態。輸出模態為文字。

Step 3.7 Flash 在 Novita AI 上的費用是多少？

stepfun/step-3.7-flash 目前的 Novita AI 定價為每百萬個輸入 token $0.20 美元、每百萬個快取讀取輸入 token $0.04 美元，以及每百萬個輸出 token $1.15 美元。

Step 3.7 Flash 支援函式呼叫嗎？

是的。Novita AI 模型頁面目前列出 Step 3.7 Flash 支援函式呼叫、結構化輸出與推理。

開發者應該使用哪個端點？

使用 Novita AI 相容 OpenAI 的聊天補全端點，模型 ID 為 stepfun/step-3.7-flash。用於相容 OpenAI SDK 的基礎 URL 為 https://api.novita.ai/openai。