Step 3.7 Flash 在 Novita AI 上：多模態快速入門

呼叫 API 前需要準備什麼？
Step 3.7 Flash 的哪些資訊對實作很重要？
如何使用 cURL 呼叫 Step 3.7 Flash？
如何從 Python 呼叫 Step 3.7 Flash？
應該如何處理多模態輸入？
函式呼叫與結構化輸出如何運作？
團隊在正式上線前應如何編列預算與測試？
常見問題
推薦文章

Step 3.7 Flash 在 Novita AI 上以 Serverless LLM 的形式提供，模型 ID 為 stepfun/step-3.7-flash，支援 OpenAI 相容的 chat/completions、文字、圖片與影片輸入、文字輸出、函式呼叫、結構化輸出，以及模型頁面上所列的推理功能。本快速入門聚焦於開發者工作流程：如何呼叫 API、哪些請求模式可以安全使用、需要為哪些定價欄位編列預算，以及在將多模態或推理行為整合至正式環境前應注意的地方。若想更全面了解模型功能與定位，請參閱 Step 3.7 Flash API 概覽。

呼叫 API 前需要準備什麼？

首先準備三項設定：

項目	數值
API 金鑰	建立並儲存 Novita AI API 金鑰至環境變數，例如 `NOVITA_API_KEY`。
OpenAI 相容的基礎 URL	`https://api.novita.ai/openai`
聊天補全方位點	`POST https://api.novita.ai/openai/v1/chat/completions`
模型 ID	`stepfun/step-3.7-flash`

Novita AI 文件索引列出了 OpenAI 相容的基礎 URL，而聊天補全 API 參考則說明了 POST https://api.novita.ai/openai/v1/chat/completions 的請求與回應欄位。

請勿將 API 金鑰放入版本控管。在本地開發時，請在 shell 中匯出。在正式環境中，請從您的密碼管理工具載入：

export NOVITA_API_KEY="your_api_key"

如果您的應用程式已使用 OpenAI 相容的聊天補全，遷移路徑通常很簡單：將客戶端指向 Novita AI 的基礎 URL，設定 Authorization Bearer Token，然後使用 Step 3.7 Flash 的模型 ID。

Step 3.7 Flash 的哪些資訊對實作很重要？

在程式碼中使用確切的模型 ID，在使用者介面中使用顯示名稱。目前 Novita 的模型頁面將 Step 3.7 Flash 歸類為 StepFun 系列中的 Chat 模型。

欄位	目前 Novita 數值
顯示名稱	Step 3.7 Flash
API 模型 ID	`stepfun/step-3.7-flash`
Novita 顯示的模型系列	StepFun
託管類型	Serverless LLM
端點	`chat/completions`
輸入模態	文字、圖片、影片
輸出模態	文字
上下文視窗	262,144 tokens
最大輸出 tokens	256,000
列出的功能	Serverless、函式呼叫、結構化輸出、推理
列出的標籤	MoE、>100B、NEW、Featured
預設列出的 T1 速率限制	30 RPM 及 50,000,000 TPM

截至 2026 年 6 月 18 日，Novita 對 stepfun/step-3.7-flash 列出以下 token 價格：

Token 類型	列出價格
輸入 tokens	每 1M tokens $0.20
輸出 tokens	每 1M tokens $1.15
快取讀取輸入 tokens	每 1M tokens $0.04

定價、模型可用性、速率限制及支援的請求參數可能有所變動。在進行採購審查、正式上線或做出任何面向客戶的定價承諾前，請查閱 Step 3.7 Flash 模型頁面及 Novita AI 定價頁面。

如何使用 cURL 呼叫 Step 3.7 Flash？

第一次快速測試時，請保持請求僅含文字。這可以在加入工具、結構化資料、圖片或影片之前，確認身分驗證、模型路由、回應解析及基本生成功能是否正常。

curl "https://api.novita.ai/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${NOVITA_API_KEY}" \
  -d '{
    "model": "stepfun/step-3.7-flash",
    "messages": [
      {
        "role": "system",
        "content": "You are a concise technical assistant."
      },
      {
        "role": "user",
        "content": "Create a four-step checklist for testing a multimodal support bot before release."
      }
    ],
    "max_tokens": 512,
    "temperature": 0.2
  }'

成功回應會遵循 Novita AI 記錄的聊天補全格式：包含 choices 陣列、帶有生成 content 的訊息、created/model 元資料，以及一個 usage 物件（當有回傳用量時）。對於串流回應，API 參考說明用量會出現在最後一個回應區塊中。

使用這個快速測試來驗證：

API 金鑰有效。
模型 ID 被接受。
您的客戶端能夠解析 choices[0].message.content。
您的日誌記錄能夠擷取提示、補全及總 token 用量，且不儲存機密資訊。
您的逾時與重試策略適合提示的大小。

如何從 Python 呼叫 Step 3.7 Flash？

當您設定 Novita 基礎 URL 時，OpenAI Python SDK 模式適用於 Novita AI。請根據您的相依性政策，在自己的專案中安裝並固定 SDK 版本。

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key=os.environ["NOVITA_API_KEY"],
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {"role": "system", "content": "You are a concise technical assistant."},
        {
            "role": "user",
            "content": "Summarize the release risks for a customer support workflow that accepts screenshots and long text tickets.",
        },
    ],
    max_tokens=512,
    temperature=0.2,
)

print(response.choices[0].message.content)

在應用程式程式碼中，請將此包裝在一個小型模型閘道中，而不是將原始 API 呼叫分散在整個程式碼庫中。閘道可讓您強制執行預設 token 限制、設定各路由的逾時、標準化錯誤，以及在評估時切換模型，而無需更改業務邏輯。

一個實用的正式環境包裝器應擷取以下資訊：

model、prompt_tokens、completion_tokens 及 total_tokens。
請求延遲與重試次數。
HTTP 狀態與 API 錯誤類別。
是否使用了工具、JSON schema、圖片輸入或影片輸入。
一份排除 API 金鑰與敏感使用者內容的修訂版請求摘要。

這些遙測資料之所以重要，是因為 Step 3.7 Flash 擁有大型上下文視窗與高最大輸出限制。這些限制很有用，但正式系統仍應設定明確的 max_tokens、在模型呼叫前拒絕過大的使用者上傳，並監控輸出長度。

應該如何處理多模態輸入？

Novita 將文字、圖片與影片列為 Step 3.7 Flash 的輸入模態，並將文字列為輸出模態。請將此視為支援能力邊界，然後在推出多模態整合前，確認當前 Novita 文件或主控台中的確切請求格式。

對於快速入門，請依此順序進行：

執行純文字快速測試。
使用當前文件記載的 Novita 聊天訊息格式，加入一張圖片輸入。
根據您的實際任務驗證回應品質與回應結構。
只有在您確認請求格式、大小限制、延遲與成本行為後，再加入較大的圖片批次或影片。

請不要假設每個 OpenAI 相容的多模態請求格式都能被每個 Novita 託管的模型接受。Step 3.7 Flash 模型頁面驗證了圖片與影片輸入支援，但影片請求範例對檔案處理、URL 存取、持續時間、大小及模型特定格式更為敏感。如果當前文件或主控台範例並未顯示您所需的確切影片請求格式，請避免從其他提供者的文件中硬編碼一個。

適合首次使用圖片的案例包括：

將支援截圖與使用者的工單文字一同摘要。
從產品截圖中提取 UI 狀態，供內部分流助理使用。
檢閱視覺 QA 圖片並產生文字檢查清單。

影片應以更保守的方式測試。從短片開始，記錄實際可行的請求形式、記錄延遲與 token 用量，並定義當影片輸入被拒絕、過大或對您的路由來說太慢時的備用行為。

函式呼叫與結構化輸出如何運作？

Step 3.7 Flash 被列為支援函式呼叫與結構化輸出。在聊天補全 API 中，函式呼叫透過 tools 暴露，結構化輸出則透過 response_format 暴露。

當模型應選擇工具並回傳 JSON 引數，而非直接回答使用者時，請使用函式呼叫。API 參考文件說明了函式工具，包含 type 為 function、function.name、description、JSON Schema parameters，以及可選的 strict 設定。

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_support_ticket",
            "description": "Create an internal support ticket from a user-reported issue.",
            "parameters": {
                "type": "object",
                "properties": {
                    "summary": {"type": "string"},
                    "priority": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "needs_human_review": {"type": "boolean"},
                },
                "required": ["summary", "priority", "needs_human_review"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "user",
            "content": "The payment settings page returns a 500 error after I upload a screenshot.",
        }
    ],
    tools=tools,
    temperature=0.1,
)

當您的應用程式需要經過驗證的 JSON 回應，且無需外部工具呼叫時，請使用結構化輸出。Novita 的聊天補全 API 參考文件說明了 response_format 搭配 json_schema，並指出嚴格模式支援 JSON Schema 的子集。保持早期 schema 簡單、避免奇特的 schema 功能，並在模型回應無法驗證時採取安全關閉措施。

對於推理功能，請區分模型能力與請求行為。Step 3.7 Flash 模型頁面將推理列為一項功能，而聊天補全 API 參考文件則說明了推理相關參數，並附有模型特定的支援說明。在依賴生產解析器中的推理欄位之前，請使用 stepfun/step-3.7-flash 執行 API 測試，並處理您的帳戶實際收到的確切回應格式。

團隊在正式上線前應如何編列預算與測試？

使用列出的 token 價格來估算初始預算，然後以實際用量日誌進行驗證。Step 3.7 Flash 對輸入、輸出與快取讀取有不同的定價，因此長提示、冗長輸出與重複的上下文會產生不同的成本結構。如果您正在比較 Novita AI 與其他 LLM API 提供者，2026 年最佳 LLM API 提供者指南涵蓋了定價層級、速率限制與提供者的取捨。對於仍在評估哪個推論提供者適合代理工作負載的團隊，為 AI 代理選擇推論提供者一文介紹了關鍵評估標準。

舉例來說，傳送大型支援對話記錄的應用程式，可能會將大部分預算花在輸入 token 上。要求長篇計劃的代理，則可能在輸出 token 上花費更多。重複使用上下文的檢索或記憶工作流程，若快取行為適用於已部署的請求模式，則可能受益於快取讀取定價。

在正式上線前，請執行包含以下項目的評估集：

僅含文字的短提示，用於測試延遲與基準答案品質。
接近您預期上限（而非最大上下文視窗）的長上下文提示。
符合您實際上傳來源與檔案處理方式的圖片提示。
正確行為應為呼叫函式的工具呼叫提示。
刻意測試無效、遺漏與邊界情況欄位的 JSON schema 提示。
針對過大輸入、遺漏媒體、無效 API 金鑰與逾時的失敗情況。

請不要僅根據功能列表將所有流量路由到新模型。功能標籤告訴您有哪些可用功能；評估則告訴您模型是否遵循您的指示、結構化資料、安全規則，以及在您的工作負載下是否符合延遲預算。

常見問題

Step 3.7 Flash 可以透過 Novita AI 使用嗎？

可以。Novita 將 Step 3.7 Flash 列為 Serverless LLM，API 模型 ID 為 stepfun/step-3.7-flash。

我應該使用哪個端點來使用 Step 3.7 Flash？

請使用 OpenAI 相容的聊天補全方位點：POST https://api.novita.ai/openai/v1/chat/completions。

Step 3.7 Flash 支援圖片與影片輸入嗎？

Novita 將文字、圖片與影片列為 Step 3.7 Flash 的輸入模態，並將文字列為輸出模態。在正式上線前，請使用當前的 Novita 文件或主控台範例，驗證確切的圖片或影片請求格式。

Step 3.7 Flash 的費用是多少？

截至 2026 年 6 月 18 日，Novita 列出 stepfun/step-3.7-flash 的價格為每 1M 輸入 tokens $0.20、每 1M 輸出 tokens $1.15，以及每 1M 快取讀取輸入 tokens $0.04。

Step 3.7 Flash 支援函式呼叫與結構化輸出嗎？

支援。Novita 將函式呼叫與結構化輸出列為 Step 3.7 Flash 的功能。請使用 tools 進行函式呼叫，使用 response_format 進行結構化輸出，然後在正式上線前測試您的確切 schema 與解析器。

我應該從其他提供者複製影片請求格式嗎？

不建議。即使 API 是 OpenAI 相容的，多模態的檔案與 URL 處理方式仍可能有所不同。請使用在當前 Novita 文件、主控台範例或您自己針對 stepfun/step-3.7-flash 的成功 API 測試中驗證過的請求格式。

Step 3.7 Flash 在 Novita AI 上：多模態快速入門

呼叫 API 前需要準備什麼？

Step 3.7 Flash 的哪些資訊對實作很重要？

如何使用 cURL 呼叫 Step 3.7 Flash？

如何從 Python 呼叫 Step 3.7 Flash？

應該如何處理多模態輸入？

函式呼叫與結構化輸出如何運作？

團隊在正式上線前應如何編列預算與測試？

常見問題

Step 3.7 Flash 可以透過 Novita AI 使用嗎？

我應該使用哪個端點來使用 Step 3.7 Flash？

Step 3.7 Flash 支援圖片與影片輸入嗎？

Step 3.7 Flash 的費用是多少？

Step 3.7 Flash 支援函式呼叫與結構化輸出嗎？

我應該從其他提供者複製影片請求格式嗎？

推薦文章

Product

RESOURCES

Partners

Company

呼叫 API 前需要準備什麼？

Step 3.7 Flash 的哪些資訊對實作很重要？

如何使用 cURL 呼叫 Step 3.7 Flash？

如何從 Python 呼叫 Step 3.7 Flash？

應該如何處理多模態輸入？

函式呼叫與結構化輸出如何運作？

團隊在正式上線前應如何編列預算與測試？

常見問題

Step 3.7 Flash 可以透過 Novita AI 使用嗎？

我應該使用哪個端點來使用 Step 3.7 Flash？

Step 3.7 Flash 支援圖片與影片輸入嗎？

Step 3.7 Flash 的費用是多少？

Step 3.7 Flash 支援函式呼叫與結構化輸出嗎？

我應該從其他提供者複製影片請求格式嗎？

推薦文章

相關文章

Product

RESOURCES

Partners

Company