Step 3.7 Flash API 在 Novita AI 上：多模态推理指南

Novita AI 上的 Step 3.7 Flash 是什么？
Step 3.7 Flash API 规格、可用性及定价
它适合哪些多模态推理工作？
团队在生产前应如何评估？
启动概览与快速入门有何不同？
常见问题
推荐文章

Step 3.7 Flash API 现已登陆 Novita AI，专为需要通过 OpenAI 兼容的 Serverless LLM API 使用多模态推理模型的开发者设计：当你的工作流需要文本、图像或视频输入、工具调用、结构化输出以及 256K 上下文窗口时，可调用 stepfun/step-3.7-flash 并连接 Novita AI 的对话补全端点。如果你已准备好发送请求，可直接查看 Step 3.7 Flash API 快速入门；如果你仍在评估该模型是否适合你的产品，请先从以下规格、定价和评估指南开始。

Novita AI 上的 Step 3.7 Flash 是什么？

Step 3.7 Flash 是阶跃星辰（StepFun）的高效多模态推理模型，托管于 Novita AI 提供 Serverless LLM 访问。API 模型 ID 为 stepfun/step-3.7-flash，通过对话补全端点对外暴露。

对开发者而言，答案很直接：当你的工作流不只是纯文本对话时，就使用 Step 3.7 Flash API。它适用于需要结合长指令、视觉或视频上下文、结构化输出和工具路由的智能体任务。例如：分析产品操作演示视频、将截图转化为实现任务、根据混合媒体输入规划多步操作、或用模型来判断某个应用功能是否应运行。

它并非要替代你技术栈中的每一个小型文本模型。如果你的应用只需要简短的常见问题解答、简单的信息提取或高并发的分类任务，建议先对比 Novita AI 模型库和 Novita AI 定价中的当前模型。只有当多模态输入、长上下文或具备工具感知能力的规划成为产品的实际需求时，Step 3.7 Flash 才会变得更有吸引力。

Step 3.7 Flash API 规格、可用性及定价

Novita AI 目前将 Step 3.7 Flash 列为 Serverless LLM 模型，具体实现细节如下。模型可用性和定价可能发生变化，因此在生产路由和采购审批前请检查实时模型页面。

字段	当前 Novita AI 值
显示名称	Step 3.7 Flash
API 模型 ID	`stepfun/step-3.7-flash`
访问路径	Serverless LLM
端点	`chat/completions`
输入模态	文本、图像、视频
输出模态	文本
上下文窗口	262,144 个 token
最大输出 token	256,000 个 token
函数调用	支持
结构化输出	支持
推理	支持
模型系列	StepFun
架构标签	MoE

当前针对 stepfun/step-3.7-flash 的 token 定价如下：

Token 类型	当前价格
输入 token	每百万 token 0.20 美元
缓存命中输入 token	每百万 token 0.04 美元
输出 token	每百万 token 1.15 美元

同一模型列表中还显示 T1 至 T5 的请求速率层级。可见的 T1 配额为 30 RPM 和 50,000,000 TPM，更高层级对应更高的 RPM 值。请将这些视为账号设置时需验证的平台限制，而非替代你自己的压力测试。

定价之所以重要，是因为多模态和长上下文请求的数据量会迅速增长。产品团队应分别测量提示词大小、媒体衍生上下文、缓存命中复用和输出长度。如果某个工作流反复发送相同的系统提示词、工具架构或大块指令，缓存命中应纳入成本设计。如果响应频繁接近较大输出大小，输出 token 将比输入 token 更快地占据账单大头。

一个实用的预算模式是将评估流量分为三组。首先，测量同一任务的纯文本基线。其次，加入图像或视频输入，记录额外上下文改变答案的频率。第三，测试长上下文版本，附加完整策略、架构或产品文档。如果第三组能提升路由准确性或减少人工审核，那么更大的请求就可以被证明合理；如果不能，则应保持生产路径更窄。

它适合哪些多模态推理工作？

Step 3.7 Flash 最有趣的应用场景是模型需要跨越不同输入类型进行推理，然后生成计划、决策或结构化答案。

对于产品和支持团队，这可以意味着让模型检查 UI 截图或短视频片段，识别用户可能遇到的问题，并返回一个 JSON 对象将工单路由到正确的队列。对于开发者工具，它可以读取 bug 的屏幕录制、相关错误文本和源代码片段，然后生成重现步骤检查清单。对于运营工作流，它可以结合长策略文本和视觉证据，要求模型生成逐步处理计划。

关键是，Step 3.7 Flash 应接收到完成任务所需的证据。不要让它推断从未提供过的细节。如果工作流依赖于数据库查询、账单状态、订单状态或部署记录，应通过你的应用层或工具调用暴露这些数据，而不是依赖模型的一般知识。

良好的评估提示词包括：

一个支持工单分类提示词，包含一张截图、用户描述以及所需的 JSON 架构。
一个产品 QA 提示词，包含短视频输入和 bug 报告模板。
一个工具路由提示词，模型必须在 create_ticket、search_docs 和 escalate_to_human 之间选择。
一个长上下文分析提示词，相同的工具架构和策略文本可以从缓存命中中受益。

避免从“分析这个视频”或“推理这张图片”这类模糊提示词开始。要给模型明确的任务、决策边界和输出格式。这样更容易跨模型比较结果，也更容易衡量额外上下文和多模态输入是否物有所值。

对于智能体工作流，模型对工具的支持是最需要仔细测试的部分。一个好的工具调用评估应包括正确答案是调用工具的情况、正确答案是请求更多信息的情况，以及不应运行任何工具的情况。这样可以防止评估仅因模型能够发出函数调用而奖励过度活跃的操作。

团队在生产前应如何评估？

从一组模拟你产品的小型测试集开始，而不是通用基准提示词。包括成功案例、边缘案例以及不应触发工具调用的提示词。如果你的应用需要结构化输出，请针对你的架构自动验证输出，而不是手动检查。

一个最小的 OpenAI 兼容文本请求使用 Novita AI LLM API 基础 URL 和已验证的模型 ID：

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "system",
            "content": "你是一个实用的事件分类助手。请返回简洁、结构化的建议。",
        },
        {
            "role": "user",
            "content": "审查以下事件摘要，确定接下来三个检查项：部署后 API 延迟翻倍，数据库 CPU 正常，错误率持平。",
        },
    ],
    max_tokens=700,
    temperature=0.2,
)

print(response.choices[0].message.content)

对于生产评估，在路由真实用户流量之前，添加四个检查：

成本检查： 记录代表性请求的输入、缓存命中和输出 token。
架构检查： 自动验证结构化输出，并在响应不匹配时重试或降级。
工具检查： 测试工具调用和不应调用工具的情况，包括模糊提示词。
媒体检查： 评估你的应用实际发送的图像或视频格式，而不仅仅是媒体的文本摘要。

函数调用和结构化输出很有用，但它们不会减轻应用的责任。你的服务仍需要授权检查、输入验证、幂等的工具执行以及针对更改用户数据的操作进行审计日志记录。

对于多模态请求，保持媒体处理路径明确。根据应用的隐私规则存储或引用资源，保留足够的元数据以便调试故障，并记录使用的请求格式。如果日后出现生产问题，你将需要知道模型看到的是原始图像或视频、压缩版本、帧样本还是由其他服务生成的文本摘要。

启动概览与快速入门有何不同？

本文是启动和权威概览：可用性、模型 ID、定价、多模态范围和开发者适用性。单独的 Step 3.7 Flash API 快速入门更深入地介绍请求负载、图像和视频输入、函数调用示例以及结构化输出模式。

这种分离很有用，因为启动阶段的读者通常需要回答“我们应该评估这个模型吗？”而快速入门的读者需要回答“我应该发送什么确切的请求？”将这两项任务分开，可以避免将定价和能力事实埋没在冗长的教程中，同时为实施细节保留应有的位置。

目前，最好的下一步是打开 Step 3.7 Flash 模型页面，确认你账号当前的费率卡和限制，然后运行一个使用你应用所需的媒体、工具架构或结构化输出的窄范围评估提示词。

常见问题

Step 3.7 Flash 在 Novita AI 上可用吗？

是的。Novita AI 目前将 Step 3.7 Flash 列为 Serverless LLM 模型，API 模型 ID 为 stepfun/step-3.7-flash。

Step 3.7 Flash 支持哪些输入？

Novita AI 模型页面目前列出文本、图像和视频作为支持的输入模态。输出模态为文本。

Step 3.7 Flash 在 Novita AI 上的费用是多少？

目前 Novita AI 对 stepfun/step-3.7-flash 的定价为：输入 token 每百万 0.20 美元，缓存命中输入 token 每百万 0.04 美元，输出 token 每百万 1.15 美元。

Step 3.7 Flash 支持函数调用吗？

是的。Novita AI 模型页面目前列出 Step 3.7 Flash 支持函数调用、结构化输出和推理。

开发者应使用哪个端点？

使用 Novita AI 的 OpenAI 兼容对话补全端点，模型 ID 为 stepfun/step-3.7-flash。OpenAI 兼容 SDK 的基础 URL 为 https://api.novita.ai/openai。