Step 3.7 Flash API on Novita AI:多模態推理、定價與上線

Step 3.7 Flash API on Novita AI:多模態推理、定價與上線

Step 3.7 Flash 現已在 Novita AI 上以 Serverless LLM API 形式提供,適合需要多模態推理模型的開發者。該模型可接受文字、圖片與影片輸入,支援工具呼叫、結構化輸出,並可透過聊天補全端點處理 256K 的上下文視窗。當工作流程需要混合媒體上下文與推理行動計畫時,可使用此模型;但若僅需小型純文字模型即可解決問題,則不必選用。

Novita AI 上的 Step 3.7 Flash 是什麼?

Step 3.7 Flash 是 StepFun 的高效率多模態推理模型,託管於 Novita AI 並以 Serverless LLM 方式提供存取。API 模型 ID 為 stepfun/step-3.7-flash,並透過聊天補全端點公開。

對開發者而言,實務上的回答很直接:當你的工作流程不僅需要純文字對話時,便可使用 Step 3.7 Flash。它適合需要結合長指令、視覺或影片上下文、結構化輸出與工具路由的代理任務。範例包括分析產品操作影片、將截圖轉換為實作任務、從混合媒體輸入規劃多步驟操作,或使用模型決定應用程式功能何時應執行。

它並非用來取代堆疊中所有較小的文字模型。如果應用程式僅需簡短的常見問題解答、簡單提取或大量分類,建議先比較 Novita AI 模型庫Novita AI 定價 中的現有模型。當多模態輸入、長上下文或工具感知規劃成為實際產品需求的一部分時,Step 3.7 Flash 的優勢才會更顯著。

Step 3.7 Flash 規格、供應情況與定價

Novita AI 目前將 Step 3.7 Flash 列為 Serverless LLM 模型,實作細節如下。模型供應情況與定價可能變動,請在生產路由前查看即時模型頁面。

欄位 目前的 Novita AI 數值
顯示名稱 Step 3.7 Flash
API 模型 ID stepfun/step-3.7-flash
存取路徑 Serverless LLM
端點 chat/completions
輸入模態 文字、圖片、影片
輸出模態 文字
上下文視窗 262,144 個 Token
最大輸出 Token 256,000 個 Token
函式呼叫 已支援
結構化輸出 已支援
推理 已支援
模型系列 StepFun
架構標籤 MoE

目前 stepfun/step-3.7-flash 的 Token 定價如下:

Token 類型 目前價格
輸入 Token 每百萬 Token $0.20
快取讀取的輸入 Token 每百萬 Token $0.04
輸出 Token 每百萬 Token $1.15

同一模型列表顯示了從 T1 到 T5 的請求速率層級。可見的 T1 配額為 30 RPM 與 50,000,000 TPM,更高層級則有更高的 RPM 值。請將這些視為帳戶設定時需確認的平台限制,而非您自行負載測試的替代方案。

定價之所以重要,是因為多模態與長上下文請求可能會快速增加。產品團隊應分別測量提示大小、媒體衍生上下文、快取讀取重用與輸出長度。如果某個工作流程重複傳送相同的系統提示、工具結構描述或大型指令區塊,快取讀取便可成為成本設計的一部分。如果回覆經常接近大型輸出大小,則輸出 Token 主導帳單的速度會比輸入 Token 更快。

一個有用的預算規劃模式是將評估流量分為三個籃子。首先,針對相同任務測量純文字基準線。其次,加入圖片或影片輸入,並記錄額外上下文改變答案的頻率。第三,測試附帶完整政策、結構描述或產品文件的長上下文版本。如果第三個籃子能提升路由準確性或減少人工審核,那麼較大的請求便值得合理化;若無,則讓生產路徑保持較窄範圍。

它適合哪種多模態推理工作?

Step 3.7 Flash 最適合的情況是模型必須在不同輸入類型之間進行推理,然後產出計畫、決策或結構化答案。

對於產品與支援團隊,這可能意味著要求模型檢查 UI 截圖或短影片片段,識別使用者可能的問題,並回傳一個 JSON 物件以將工單路由到正確的佇列。對於開發者工具,可能意味著讀取錯誤的螢幕錄影、相關錯誤文字與原始碼片段,然後產出重現檢查清單。對於操作工作流程,則可能意味著將長篇政策文字與視覺證據結合,要求模型產出逐步處理計畫。

重要的區別是:Step 3.7 Flash 應接收任務所需的證據。不要要求它推斷從未提供的細節。如果工作流程依賴資料庫查詢、計費狀態、訂單狀態或部署記錄,請透過應用程式層或工具呼叫公開該資料,而非依賴模型的一般知識。

良好的評估提示包括:

  • 支援分類提示:包含一張截圖、使用者描述與所需的 JSON 結構描述。
  • 產品 QA 提示:包含短影片輸入與錯誤回報範本。
  • 工具路由提示:模型必須在 create_ticketsearch_docsescalate_to_human 之間選擇。
  • 長上下文分析提示:相同的工具結構描述與政策文字可受益於快取讀取。

避免以「分析這段影片」或「推理這張圖片」等模糊提示開始。給予模型工作、決策邊界與輸出格式。這樣更容易跨模型比較結果,也更容易衡量額外的上下文與多模態輸入是否值得。

對於代理工作流程,模型的工具支援是必須仔細測試的部分。好的工具呼叫評估應包含正確答案是呼叫工具、要求更多資訊、以及不應執行任何工具的情況。這樣可防止評估因模型能夠發出函式呼叫而獎勵過度積極的行為。

團隊在上線前應如何評估?

從類似產品的少量測試集開始,而非通用基準提示。包含成功案例、邊界情況以及不應觸發工具呼叫的提示。如果應用程式需要結構化輸出,請自動驗證輸出是否符合結構描述,而非手動檢查。

一個最小化的 OpenAI 相容文字請求使用 Novita AI 基礎 URL 與驗證過的模型 ID:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "system",
            "content": "你是一個實用的突發事件分類助手。請提供簡潔、結構化的建議。",
        },
        {
            "role": "user",
            "content": "檢視此突發事件摘要,並識別接下來三個檢查項目:部署後 API 延遲翻倍、資料庫 CPU 正常、錯誤率平穩。",
        },
    ],
    max_tokens=700,
    temperature=0.2,
)

print(response.choices[0].message.content)

對於生產環境的評估,在路由真實使用者流量前,請加入四項檢查:

  • 成本檢查:針對代表性請求記錄輸入 Token、快取讀取 Token 與輸出 Token。
  • 結構描述檢查:自動驗證結構化輸出,並在回應不符時重試或降級。
  • 工具檢查:測試需呼叫工具與不需呼叫工具的情況,包括模糊提示。
  • 媒體檢查:評估應用程式實際傳送的圖片或影片格式,而非僅使用媒體的文字摘要。

函式呼叫與結構化輸出雖然有用,但不會減輕應用程式的責任。您的服務仍需授權檢查、輸入驗證、冪等工具執行,以及針對更改使用者資料的動作進行稽核記錄。

對於多模態請求,請保持媒體處理路徑明確。根據應用程式的隱私規則儲存或參考資產,保留足夠的中繼資料以除錯失敗情況,並記錄使用了哪種請求格式。如果後續出現生產問題,您會想知道模型看到的是原始圖片或影片、壓縮版本、幀取樣,還是由其他服務產生的文字摘要。

Step 3.7 Flash 與獨立的快速入門指南如何比較?

本文是上線與事實來源的總覽:供應情況、模型 ID、定價、多模態範圍與開發者適用性。獨立的 Step 3.7 Flash 快速入門文章可以更深入介紹請求負載、圖片與影片輸入、函式呼叫範例與結構化輸出模式。

這種拆分之所以有用,是因為上線讀者通常需要回答:「我們應該評估這個模型嗎?」快速入門讀者則需要回答:「我應該傳送哪個確切請求?」將這兩項任務分開,可避免將定價與功能事實埋藏在冗長的教學中,同時仍保留實作細節的空間。

目前,最佳的下一步是開啟 Step 3.7 Flash 模型頁面,確認您帳戶的當前費率表與限制,然後執行一個狹義的評估提示,該提示使用應用程式所需的相同媒體、工具結構描述或結構化輸出。

常見問題

Step 3.7 Flash 在 Novita AI 上是否可用?

是的。Novita AI 目前將 Step 3.7 Flash 列為 Serverless LLM 模型,API 模型 ID 為 stepfun/step-3.7-flash

Step 3.7 Flash 支援哪些輸入?

Novita AI 模型頁面目前將文字、圖片與影片列為支援的輸入模態。輸出模態為文字。

Step 3.7 Flash 在 Novita AI 上的費用是多少?

目前 stepfun/step-3.7-flash 在 Novita AI 的定價為每百萬輸入 Token $0.20、每百萬快取讀取輸入 Token $0.04,以及每百萬輸出 Token $1.15。

Step 3.7 Flash 是否支援函式呼叫?

是的。Novita AI 模型頁面目前列出 Step 3.7 Flash 支援函式呼叫、結構化輸出與推理。

開發者應使用哪個端點?

使用 Novita AI 的 OpenAI 相容聊天補全端點,模型 ID 為 stepfun/step-3.7-flash。OpenAI 相容 SDK 使用的基礎 URL 為 https://api.novita.ai/openai

推薦文章