Step 3.7 Flash 现已在 Novita AI 上以 Serverless LLM API 的形式提供,适用于需要多模态推理模型的开发者。该模型可接受文本、图像和视频输入,支持工具调用、结构化输出,并通过聊天补全端点提供 256K 上下文窗口。当工作流需要混合媒体上下文和经过推理的行动计划时,请使用此模型;而若仅需小型纯文本模型即可解决问题,则无需使用。
什么是 Novita AI 上的 Step 3.7 Flash?
Step 3.7 Flash 是 StepFun 的高效多模态推理模型,托管在 Novita AI 上以 Serverless LLM 方式提供访问。API 模型 ID 为 stepfun/step-3.7-flash,通过聊天补全端点暴露。
对于开发者而言,实际答案简单明了:当工作流超出纯文本聊天的需求时,使用 Step 3.7 Flash。它适用于需要结合长指令、视觉或视频上下文、结构化输出以及工具路由的智能体任务。例如:分析产品演示视频、将截图转化为实施任务、根据混合媒体输入规划多步骤操作,或使用模型决定何时应运行应用程序功能。
它并非旨在取代技术栈中的每一个较小的文本模型。如果你的应用仅需要简短的 FAQ 答案、简单的提取或高容量的分类,请首先比较 Novita AI 模型库和 Novita AI 定价中的当前模型。当多模态输入、长上下文或工具感知规划成为实际产品需求的一部分时,Step 3.7 Flash 才更具吸引力。
Step 3.7 Flash 规格、可用性与定价
Novita AI 当前将 Step 3.7 Flash 列为 Serverless LLM 模型,具体实现细节如下。模型可用性与定价可能变动,请在生产路由前检查实时模型页面。
| 字段 | 当前 Novita AI 值 |
|---|---|
| 显示名称 | Step 3.7 Flash |
| API 模型 ID | stepfun/step-3.7-flash |
| 访问路径 | Serverless LLM |
| 端点 | chat/completions |
| 输入模态 | 文本、图像、视频 |
| 输出模态 | 文本 |
| 上下文窗口 | 262,144 tokens |
| 最大输出 tokens | 256,000 tokens |
| 函数调用 | 支持 |
| 结构化输出 | 支持 |
| 推理 | 支持 |
| 模型家族 | StepFun |
| 架构标签 | MoE |
当前 stepfun/step-3.7-flash 的 token 定价如下:
| Token 类型 | 当前价格 |
|---|---|
| 输入 tokens | 每百万 tokens 0.20 美元 |
| 缓存读取输入 tokens | 每百万 tokens 0.04 美元 |
| 输出 tokens | 每百万 tokens 1.15 美元 |
同一模型列表显示了从 T1 到 T5 的请求速率层级。可见的 T1 配额为 30 RPM 和 50,000,000 TPM,更高层级具有更高的 RPM 值。请将这些视为平台限制,在账户设置时进行验证,但不可替代你自己的负载测试。
定价很重要,因为多模态和长上下文请求的规模可能会迅速增长。产品团队应分别测量提示大小、媒体衍生上下文、缓存读取复用以及输出长度。如果某个工作流反复发送相同的系统提示、工具模式或大型指令块,缓存读取可能会成为成本设计的一部分。如果响应经常接近较大的输出大小,输出 token 将比输入 token 更快地主导账单。
一种有用的预算规划模式是将评估流量分为三类。首先,测量同一任务的纯文本基线。其次,添加图像或视频输入,并记录额外上下文改变答案的频率。第三,测试附带了完整策略、模式或产品文档的长上下文版本。如果第三类提高了路由准确性或减少了人工评审,那么较大的请求就是合理的。如果没有,则保持生产路径更狭窄。
它适合什么样的多模态推理工作?
Step 3.7 Flash 最有趣的地方在于,模型必须跨不同类型的输入进行推理,然后产生计划、决策或结构化答案。
对于产品和支持团队,这可以意味着让模型检查 UI 截图或短视频片段,识别用户可能的问题,并返回一个用于将工单路由至正确队列的 JSON 对象。对于开发者工具,它可以意味着读取错误的屏幕录制、相关的错误文本以及源代码片段,然后生成复现检查清单。对于运维工作流,它可以意味着将长策略文本与视觉证据结合起来,让模型生成逐步处理计划。
重要区别在于,Step 3.7 Flash 应收到任务所需的证据。不要要求它推断从未提供过的细节。如果工作流依赖于数据库查询、计费状态、订单状态或部署记录,请通过你的应用层或工具调用来暴露这些数据,而不是依赖模型的通用知识。
好的评估提示包括:
- 一个支持分诊提示,附带一张截图、用户的描述和所需的 JSON 模式。
- 一个产品 QA 提示,附带短视频输入和 bug 报告模板。
- 一个工具路由提示,模型必须选择
create_ticket、search_docs或escalate_to_human。 - 一个长上下文分析提示,其中相同的工具模式和政策文本可从缓存读取中受益。
避免从一开始就使用模糊的提示,例如 “分析这个视频” 或 “推理这张图片”。给模型指定任务、决策边界和输出格式。这样更容易跨模型比较结果,也更容易衡量额外上下文和多模态输入是否物有所值。
对于智能体工作流,模型的工具支持是需要最仔细测试的部分。一个好的工具调用评估应包括正确答案是调用工具的情况、正确答案是询问更多信息的情况,以及不应运行任何工具的情况。这样可以防止评估仅因为模型能够发出函数调用而奖励过度激进的行动。
团队在生产前应如何评估?
从一个小型测试集开始,该数据集要反映你的产品,而不是一个通用的基准提示。包括成功案例、边界案例以及不应触发工具调用的提示。如果你的应用需要结构化输出,请针对你的模式验证输出,而不是手动检查。
一个最小的 OpenAI 兼容文本请求使用 Novita AI 的 base URL 和已验证的模型 ID:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai",
)
response = client.chat.completions.create(
model="stepfun/step-3.7-flash",
messages=[
{
"role": "system",
"content": "你是一个实用的事件分诊助手。返回简洁、结构化的建议。",
},
{
"role": "user",
"content": "审查此事件摘要并确定接下来要检查的三项内容:部署后 API 延迟加倍,数据库 CPU 正常,错误率持平。",
},
],
max_tokens=700,
temperature=0.2,
)
print(response.choices[0].message.content)
在生产评估之前,请添加四项检查,然后再路由真实用户流量:
- 成本检查:记录代表请求的输入、缓存读取和输出 token。
- 模式检查:自动验证结构化输出,当响应不匹配时重试或降级。
- 工具检查:测试工具调用和不调用工具的情况,包括模糊提示。
- 媒体检查:评估应用实际发送的图像或视频格式,而不仅仅是媒体的文本摘要。
函数调用和结构化输出很有用,但它们不会免除应用程序的责任。你的服务仍需进行授权检查、输入验证、幂等工具执行以及对更改用户数据的操作进行审计日志记录。
对于多模态请求,保持媒体处理路径清晰。根据应用程序的隐私规则存储或引用资产,保留足够的元数据以调试故障,并记录所使用的请求格式。如果后期出现生产问题,你需要知道模型看到的是原始图像或视频、压缩版本、帧样本还是由其他服务生成的文本摘要。
Step 3.7 Flash 与单独的快速入门文章相比如何?
本文是发布及核心信息概览:可用性、模型 ID、定价、多模态范围和开发者适用性。另一篇单独的 Step 3.7 Flash 快速入门文章可以更深入地讲解请求负载、图像和视频输入、函数调用示例以及结构化输出模式。
这种分离是有效的,因为发布读者通常需要回答:“我们应该评估这个模型吗?”快速入门读者需要回答:“我应该发送什么精确的请求?”将这两项任务分开,可以避免将定价和功能信息埋没在冗长的教程中,同时仍然为需要实现细节的地方留出空间。
现在,最佳下一步是打开 Step 3.7 Flash 模型页面,为你的账户确认当前的费率卡和限制,然后运行一个使用你的应用所需的相同媒体、工具模式或结构化输出的窄评估提示。
常见问题 (FAQ)
Step 3.7 Flash 在 Novita AI 上可用吗?
是的。Novita AI 当前将 Step 3.7 Flash 列为 Serverless LLM 模型,API 模型 ID 为 stepfun/step-3.7-flash。
Step 3.7 Flash 支持哪些输入?
Novita AI 模型页面当前列出支持的输入模态为文本、图像和视频。输出模态为文本。
Step 3.7 Flash 在 Novita AI 上的费用是多少?
当前 Novita AI 对 stepfun/step-3.7-flash 的定价为:输入 tokens 每百万 0.20 美元,缓存读取输入 tokens 每百万 0.04 美元,输出 tokens 每百万 1.15 美元。
Step 3.7 Flash 支持函数调用吗?
是的。Novita AI 模型页面当前列出 Step 3.7 Flash 支持函数调用、结构化输出和推理。
开发者应使用哪个端点?
使用 Novita AI 的 OpenAI 兼容聊天补全端点,模型 ID 为 stepfun/step-3.7-flash。用于 OpenAI 兼容 SDK 的 base URL 是 https://api.novita.ai/openai。
