Step 3.7 Flash API 在 Novita AI 上:多模態快速入門

Step 3.7 Flash API 在 Novita AI 上:多模態快速入門

Step 3.7 Flash 在 Novita AI 上以 Serverless LLM 形式提供,模型 ID 為 stepfun/step-3.7-flash,支援 OpenAI 相容的 chat/completions、文字、圖片與影片輸入、文字輸出、函式呼叫、結構化輸出以及推理功能(如模型頁面所列)。本快速入門聚焦於開發者工作流程:如何呼叫 API、目前可安全使用的請求模式、需納入預算的定價欄位,以及在將多模態或推理行為整合至正式環境前應注意的地方。

呼叫 API 前需要準備什麼?

首先準備三項配置:

項目
API 金鑰 建立並儲存 Novita AI API 金鑰,可放在環境變數中,例如 NOVITA_API_KEY
OpenAI 相容的基礎 URL https://api.novita.ai/openai
聊天補全端點 POST https://api.novita.ai/openai/v1/chat/completions
模型 ID stepfun/step-3.7-flash

Novita AI 文件索引 列出了 OpenAI 相容的基礎 URL,而聊天補全 API 參考則說明了 POST https://api.novita.ai/openai/v1/chat/completions 的請求和回應欄位。

請勿將 API 金鑰放入原始碼管理中。在本機開發時,可在 shell 中匯出;在正式環境中,則從密碼管理工具載入:

export NOVITA_API_KEY="your_api_key"

如果你的應用程式已在使用 OpenAI 相容的聊天補全介面,遷移路徑通常很簡單:將客戶端指向 Novita AI 的基礎 URL、設定 Authorization bearer token,並使用 Step 3.7 Flash 模型 ID 即可。

哪些 Step 3.7 Flash 的事實對實作很重要?

在程式碼中使用確切的模型 ID,在使用者介面中則使用顯示名稱。目前 Novita 的模型頁面將 Step 3.7 Flash 列為 StepFun 系列中的聊天模型。

欄位 目前的 Novita 值
顯示名稱 Step 3.7 Flash
API 模型 ID stepfun/step-3.7-flash
Novita 顯示的模型系列 StepFun
託管類型 Serverless LLM
端點 chat/completions
輸入模態 文字、圖片、影片
輸出模態 文字
上下文視窗 262,144 個 token
最大輸出 token 數 256,000
列出功能 Serverless、函式呼叫、結構化輸出、推理
列出標籤 MoE、>100B、NEW、Featured
預設 T1 速率限制 30 RPM 及 50,000,000 TPM

截至 2026 年 6 月 18 日,Novita 針對 stepfun/step-3.7-flash 列出以下 token 定價:

Token 類型 列示價格
輸入 token 每 1M tokens $0.20
輸出 token 每 1M tokens $1.15
快取讀取輸入 token 每 1M tokens $0.04

定價、模型可用性、速率限制及支援的請求參數可能會變動。請在採購審查、正式環境上線或任何對外定價承諾前,查閱 Step 3.7 Flash 模型頁面Novita AI 定價頁面

如何使用 cURL 呼叫 Step 3.7 Flash?

首次冒煙測試時,請僅使用純文字請求。這樣可在加入工具、schema、圖片或影片前,先確認驗證、模型路由、回應解析及基本生成能力。

curl "https://api.novita.ai/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${NOVITA_API_KEY}" \
  -d '{
    "model": "stepfun/step-3.7-flash",
    "messages": [
      {
        "role": "system",
        "content": "You are a concise technical assistant."
      },
      {
        "role": "user",
        "content": "Create a four-step checklist for testing a multimodal support bot before release."
      }
    ],
    "max_tokens": 512,
    "temperature": 0.2
  }'

成功的回應會遵循 Novita AI 所記載的聊天補全格式:包含 choices 陣列、帶有生成 content 的訊息、created/model 中繼資料,以及(若回傳使用量時)一個 usage 物件。對於串流回應,API 參考指出使用量會出現在最終回應區塊中。

使用此冒煙測試來驗證:

  • API 金鑰有效。
  • 模型 ID 被接受。
  • 你的客戶端能正確解析 choices[0].message.content
  • 你的日誌記錄能捕捉提示、補全及總 token 使用量,而不儲存機密。
  • 你的逾時與重試策略適合提示的大小。

如何從 Python 呼叫 Step 3.7 Flash?

OpenAI Python SDK 的模式在設定 Novita 基礎 URL 後即可用於 Novita AI。請根據你的相依性政策,在你的專案中安裝並鎖定 SDK 版本。

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key=os.environ["NOVITA_API_KEY"],
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {"role": "system", "content": "You are a concise technical assistant."},
        {
            "role": "user",
            "content": "Summarize the release risks for a customer support workflow that accepts screenshots and long text tickets.",
        },
    ],
    max_tokens=512,
    temperature=0.2,
)

print(response.choices[0].message.content)

在應用程式程式碼中,建議將此包裝成一個小型模型閘道器,而不是將原始 API 呼叫散落在程式庫各處。閘道器能讓你強制執行預設 token 限制、設定各路由的逾時、正規化錯誤,以及在評估時切換模型而不需修改業務邏輯。

一個實用的正式環境包裝器應擷取以下資訊:

  • modelprompt_tokenscompletion_tokenstotal_tokens
  • 請求延遲與重試次數。
  • HTTP 狀態與 API 錯誤類別。
  • 是否使用了 tools、JSON schema、圖片輸入或影片輸入。
  • 已遮蔽的請求摘要,排除 API 金鑰與敏感使用者內容。

這些遙測資料之所以重要,是因為 Step 3.7 Flash 具有大型上下文視窗與高最大輸出限制。這些限制雖然實用,但正式系統仍應設定明確的 max_tokens、在使用者上傳過大內容時於模型呼叫前拒絕,並監控輸出長度。

如何處理多模態輸入?

Novita 列出 Step 3.7 Flash 的輸入模態包括文字、圖片與影片,輸出模態為文字。請先將此視為支援的能力邊界,然後在整合多模態功能前,透過目前的 Novita 文件或主控台確認實際的 payload 格式。

對於快速入門,建議依此順序進行:

  1. 執行純文字的冒煙測試。
  2. 使用目前 Novita 聊天訊息格式,加入一張圖片輸入。
  3. 針對你的實際任務驗證回應品質及回應格式。
  4. 只有在確認了請求格式、大小限制、延遲與成本行為後,再加入較大的圖片批次或影片。

請勿假設每個與 OpenAI 相容的多模態 payload 格式都能被每個 Novita 託管的模型接受。Step 3.7 Flash 模型頁面已驗證圖片與影片輸入支援,但影片請求範例在檔案處理、URL 存取、持續時間、大小與模型特定格式上更為敏感。如果目前文件或主控台範例未顯示你所需的確切影片 payload 格式,請避免直接套用其他供應商文件中的範例。

適合首次使用圖片的情境包括:

  • 將支援截圖與使用者工單文字一同摘要。
  • 從產品截圖中提取 UI 狀態,供內部分流助理使用。
  • 檢閱視覺 QA 圖片並產生文字檢查清單。

影片應更謹慎地測試。從短片段開始,記錄有效的請求形式、延遲與 token 使用量,並為影片輸入被拒絕、過大或對路由而言過慢的情況定義降級行為。

函式呼叫與結構化輸出如何運作?

Step 3.7 Flash 被列為支援函式呼叫與結構化輸出。在聊天補全 API 中,函式呼叫透過 tools 提供,結構化輸出則透過 response_format 提供。

當模型應選擇一個工具並回傳 JSON 引數(而非直接回答使用者)時,使用函式呼叫。API 參考文件說明了函式工具的 typefunction,包含 function.namedescription、JSON Schema parameters 以及可選的 strict 設定。

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_support_ticket",
            "description": "Create an internal support ticket from a user-reported issue.",
            "parameters": {
                "type": "object",
                "properties": {
                    "summary": {"type": "string"},
                    "priority": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "needs_human_review": {"type": "boolean"},
                },
                "required": ["summary", "priority", "needs_human_review"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "user",
            "content": "The payment settings page returns a 500 error after I upload a screenshot.",
        }
    ],
    tools=tools,
    temperature=0.1,
)

當你的應用程式需要經過驗證的 JSON 回應且不需要外部工具呼叫時,請使用結構化輸出。Novita 的聊天補全 API 參考文件說明了帶有 json_schemaresponse_format,並指出嚴格模式支援 JSON Schema 的子集。初期 schema 應保持簡潔,避免使用特殊的 schema 功能,並在模型回應未通過驗證時採用安全降級策略。

對於推理功能,請區分模型能力與請求行為。Step 3.7 Flash 模型頁面將推理列為一項功能,而聊天補全 API 參考文件則說明了與推理相關的參數,並附有模型特定支援說明。在正式環境解析器中依賴推理欄位之前,請先用 stepfun/step-3.7-flash 進行 API 測試,並處理你帳戶實際收到的回應格式。

團隊應如何在正式環境前進行預算規劃與測試?

使用列示的 token 定價來估算初始預算,然後以實際使用日誌進行驗證。Step 3.7 Flash 對於輸入、輸出與快取讀取有不同的定價,因此長提示、冗長輸出與重複上下文會有不同的成本曲線。

例如,發送大型支援記錄的應用程式可能將大部分預算花在輸入 token 上。要求長篇計畫的代理程式可能花更多在輸出 token 上。重用上下文的檢索或記憶工作流程,若快取行為適用於已部署的請求模式,則可受益於快取讀取定價。

在正式環境前,請執行包含以下項目的評估集:

  • 針對延遲與基礎回答品質的短篇純文字提示。
  • 接近你預期上限(而非最大上下文視窗)的長上下文提示。
  • 符合真實上傳來源與檔案處理的圖片提示。
  • 工具呼叫提示,其中正確行為是呼叫某個函式。
  • 刻意測試無效、遺漏與邊界欄位的 JSON schema 提示。
  • 針對過大輸入、缺少媒體、無效 API 金鑰與逾時的失敗案例。

請勿僅根據功能清單將所有流量導向新模型。功能標誌告訴你可用的功能,但評估才能告訴你模型是否遵循你的指令、schema、安全規則以及在你工作負載下的延遲預算。

常見問題

Step 3.7 Flash 是否可透過 Novita AI 使用?

是的。Novita 將 Step 3.7 Flash 列為 Serverless LLM,API 模型 ID 為 stepfun/step-3.7-flash

我應該使用哪個端點來呼叫 Step 3.7 Flash?

請使用 OpenAI 相容的聊天補全端點:POST https://api.novita.ai/openai/v1/chat/completions

Step 3.7 Flash 支援圖片與影片輸入嗎?

Novita 列出 Step 3.7 Flash 的輸入模態包括文字、圖片與影片,輸出模態為文字。在正式環境前,請使用目前的 Novita 文件或主控台範例來驗證確切的圖片或影片 payload 格式。

Step 3.7 Flash 的費用是多少?

截至 2026 年 6 月 18 日,Novita 列出 stepfun/step-3.7-flash 的定價為:每 1M 輸入 tokens $0.20、每 1M 輸出 tokens $1.15、每 1M 快取讀取輸入 tokens $0.04。

Step 3.7 Flash 支援函式呼叫與結構化輸出嗎?

是的。Novita 將函式呼叫與結構化輸出列為 Step 3.7 Flash 的功能。請使用 tools 進行函式呼叫,使用 response_format 進行結構化輸出,然後在正式環境前測試你確切的 schema 與解析器。

我應該直接複製其他供應商的影片 payload 嗎?

不建議。即使 API 是 OpenAI 相容的,多模態檔案與 URL 處理方式仍可能不同。請使用經目前 Novita 文件、主控台範例或你對 stepfun/step-3.7-flash 成功 API 測試驗證過的 payload 格式。

推薦文章