Step 3.7 Flash 現已在 Novita AI 上以 Serverless LLM API 形式提供,適合需要多模態推理模型的開發者。該模型可接受文字、圖片與影片輸入,支援工具呼叫、結構化輸出,並可透過聊天補全端點處理 256K 的上下文視窗。當工作流程需要混合媒體上下文與推理行動計畫時,可使用此模型;但若僅需小型純文字模型即可解決問題,則不必選用。
Novita AI 上的 Step 3.7 Flash 是什麼?
Step 3.7 Flash 是 StepFun 的高效率多模態推理模型,託管於 Novita AI 並以 Serverless LLM 方式提供存取。API 模型 ID 為 stepfun/step-3.7-flash,並透過聊天補全端點公開。
對開發者而言,實務上的回答很直接:當你的工作流程不僅需要純文字對話時,便可使用 Step 3.7 Flash。它適合需要結合長指令、視覺或影片上下文、結構化輸出與工具路由的代理任務。範例包括分析產品操作影片、將截圖轉換為實作任務、從混合媒體輸入規劃多步驟操作,或使用模型決定應用程式功能何時應執行。
它並非用來取代堆疊中所有較小的文字模型。如果應用程式僅需簡短的常見問題解答、簡單提取或大量分類,建議先比較 Novita AI 模型庫 與 Novita AI 定價 中的現有模型。當多模態輸入、長上下文或工具感知規劃成為實際產品需求的一部分時,Step 3.7 Flash 的優勢才會更顯著。
Step 3.7 Flash 規格、供應情況與定價
Novita AI 目前將 Step 3.7 Flash 列為 Serverless LLM 模型,實作細節如下。模型供應情況與定價可能變動,請在生產路由前查看即時模型頁面。
| 欄位 | 目前的 Novita AI 數值 |
|---|---|
| 顯示名稱 | Step 3.7 Flash |
| API 模型 ID | stepfun/step-3.7-flash |
| 存取路徑 | Serverless LLM |
| 端點 | chat/completions |
| 輸入模態 | 文字、圖片、影片 |
| 輸出模態 | 文字 |
| 上下文視窗 | 262,144 個 Token |
| 最大輸出 Token | 256,000 個 Token |
| 函式呼叫 | 已支援 |
| 結構化輸出 | 已支援 |
| 推理 | 已支援 |
| 模型系列 | StepFun |
| 架構標籤 | MoE |
目前 stepfun/step-3.7-flash 的 Token 定價如下:
| Token 類型 | 目前價格 |
|---|---|
| 輸入 Token | 每百萬 Token $0.20 |
| 快取讀取的輸入 Token | 每百萬 Token $0.04 |
| 輸出 Token | 每百萬 Token $1.15 |
同一模型列表顯示了從 T1 到 T5 的請求速率層級。可見的 T1 配額為 30 RPM 與 50,000,000 TPM,更高層級則有更高的 RPM 值。請將這些視為帳戶設定時需確認的平台限制,而非您自行負載測試的替代方案。
定價之所以重要,是因為多模態與長上下文請求可能會快速增加。產品團隊應分別測量提示大小、媒體衍生上下文、快取讀取重用與輸出長度。如果某個工作流程重複傳送相同的系統提示、工具結構描述或大型指令區塊,快取讀取便可成為成本設計的一部分。如果回覆經常接近大型輸出大小,則輸出 Token 主導帳單的速度會比輸入 Token 更快。
一個有用的預算規劃模式是將評估流量分為三個籃子。首先,針對相同任務測量純文字基準線。其次,加入圖片或影片輸入,並記錄額外上下文改變答案的頻率。第三,測試附帶完整政策、結構描述或產品文件的長上下文版本。如果第三個籃子能提升路由準確性或減少人工審核,那麼較大的請求便值得合理化;若無,則讓生產路徑保持較窄範圍。
它適合哪種多模態推理工作?
Step 3.7 Flash 最適合的情況是模型必須在不同輸入類型之間進行推理,然後產出計畫、決策或結構化答案。
對於產品與支援團隊,這可能意味著要求模型檢查 UI 截圖或短影片片段,識別使用者可能的問題,並回傳一個 JSON 物件以將工單路由到正確的佇列。對於開發者工具,可能意味著讀取錯誤的螢幕錄影、相關錯誤文字與原始碼片段,然後產出重現檢查清單。對於操作工作流程,則可能意味著將長篇政策文字與視覺證據結合,要求模型產出逐步處理計畫。
重要的區別是:Step 3.7 Flash 應接收任務所需的證據。不要要求它推斷從未提供的細節。如果工作流程依賴資料庫查詢、計費狀態、訂單狀態或部署記錄,請透過應用程式層或工具呼叫公開該資料,而非依賴模型的一般知識。
良好的評估提示包括:
- 支援分類提示:包含一張截圖、使用者描述與所需的 JSON 結構描述。
- 產品 QA 提示:包含短影片輸入與錯誤回報範本。
- 工具路由提示:模型必須在
create_ticket、search_docs與escalate_to_human之間選擇。 - 長上下文分析提示:相同的工具結構描述與政策文字可受益於快取讀取。
避免以「分析這段影片」或「推理這張圖片」等模糊提示開始。給予模型工作、決策邊界與輸出格式。這樣更容易跨模型比較結果,也更容易衡量額外的上下文與多模態輸入是否值得。
對於代理工作流程,模型的工具支援是必須仔細測試的部分。好的工具呼叫評估應包含正確答案是呼叫工具、要求更多資訊、以及不應執行任何工具的情況。這樣可防止評估因模型能夠發出函式呼叫而獎勵過度積極的行為。
團隊在上線前應如何評估?
從類似產品的少量測試集開始,而非通用基準提示。包含成功案例、邊界情況以及不應觸發工具呼叫的提示。如果應用程式需要結構化輸出,請自動驗證輸出是否符合結構描述,而非手動檢查。
一個最小化的 OpenAI 相容文字請求使用 Novita AI 基礎 URL 與驗證過的模型 ID:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai",
)
response = client.chat.completions.create(
model="stepfun/step-3.7-flash",
messages=[
{
"role": "system",
"content": "你是一個實用的突發事件分類助手。請提供簡潔、結構化的建議。",
},
{
"role": "user",
"content": "檢視此突發事件摘要,並識別接下來三個檢查項目:部署後 API 延遲翻倍、資料庫 CPU 正常、錯誤率平穩。",
},
],
max_tokens=700,
temperature=0.2,
)
print(response.choices[0].message.content)
對於生產環境的評估,在路由真實使用者流量前,請加入四項檢查:
- 成本檢查:針對代表性請求記錄輸入 Token、快取讀取 Token 與輸出 Token。
- 結構描述檢查:自動驗證結構化輸出,並在回應不符時重試或降級。
- 工具檢查:測試需呼叫工具與不需呼叫工具的情況,包括模糊提示。
- 媒體檢查:評估應用程式實際傳送的圖片或影片格式,而非僅使用媒體的文字摘要。
函式呼叫與結構化輸出雖然有用,但不會減輕應用程式的責任。您的服務仍需授權檢查、輸入驗證、冪等工具執行,以及針對更改使用者資料的動作進行稽核記錄。
對於多模態請求,請保持媒體處理路徑明確。根據應用程式的隱私規則儲存或參考資產,保留足夠的中繼資料以除錯失敗情況,並記錄使用了哪種請求格式。如果後續出現生產問題,您會想知道模型看到的是原始圖片或影片、壓縮版本、幀取樣,還是由其他服務產生的文字摘要。
Step 3.7 Flash 與獨立的快速入門指南如何比較?
本文是上線與事實來源的總覽:供應情況、模型 ID、定價、多模態範圍與開發者適用性。獨立的 Step 3.7 Flash 快速入門文章可以更深入介紹請求負載、圖片與影片輸入、函式呼叫範例與結構化輸出模式。
這種拆分之所以有用,是因為上線讀者通常需要回答:「我們應該評估這個模型嗎?」快速入門讀者則需要回答:「我應該傳送哪個確切請求?」將這兩項任務分開,可避免將定價與功能事實埋藏在冗長的教學中,同時仍保留實作細節的空間。
目前,最佳的下一步是開啟 Step 3.7 Flash 模型頁面,確認您帳戶的當前費率表與限制,然後執行一個狹義的評估提示,該提示使用應用程式所需的相同媒體、工具結構描述或結構化輸出。
常見問題
Step 3.7 Flash 在 Novita AI 上是否可用?
是的。Novita AI 目前將 Step 3.7 Flash 列為 Serverless LLM 模型,API 模型 ID 為 stepfun/step-3.7-flash。
Step 3.7 Flash 支援哪些輸入?
Novita AI 模型頁面目前將文字、圖片與影片列為支援的輸入模態。輸出模態為文字。
Step 3.7 Flash 在 Novita AI 上的費用是多少?
目前 stepfun/step-3.7-flash 在 Novita AI 的定價為每百萬輸入 Token $0.20、每百萬快取讀取輸入 Token $0.04,以及每百萬輸出 Token $1.15。
Step 3.7 Flash 是否支援函式呼叫?
是的。Novita AI 模型頁面目前列出 Step 3.7 Flash 支援函式呼叫、結構化輸出與推理。
開發者應使用哪個端點?
使用 Novita AI 的 OpenAI 相容聊天補全端點,模型 ID 為 stepfun/step-3.7-flash。OpenAI 相容 SDK 使用的基礎 URL 為 https://api.novita.ai/openai。
