Novita AI 激动地宣布,GPT OSS——OpenAI 突破性的开放权重语言模型——现已通过我们的推理 API 提供。GPT OSS 系列包含两个最先进的推理模型:gpt-oss-120b 和 gpt-oss-20b。两者均以 Apache 2.0 许可发布。
据 OpenAI 称,此次发布是他们致力于开源生态系统的有意义的一步,符合其让 AI 好处广泛可及的既定使命。这些模型专为智能体工作流、工具使用和复杂推理任务而设计,使其成为构建复杂 AI 应用的理想选择,而无需受制于专有系统的限制。
Novita AI 以如下价格提供 GPT OSS:
gpt-oss-120b:输入 $0.10 / 输出 $0.50 每百万 tokens
gpt-oss-20b:输入 $0.05 / 输出 $0.20 每百万 tokens
模型概览与能力
GPT OSS 模型是混合专家模型 (MoE),采用 4 位量化方案 (MXFP4)。这使得推理速度快且资源消耗低。两个模型均支持思维链推理,具有可调节的推理努力级别、指令遵循和工具使用能力。
| 模型 | 层数 | 总参数 | 每 token 活跃参数 | 总专家数 | 每 token 活跃专家数 | 上下文长度 |
|---|---|---|---|---|---|---|
| gpt-oss-120b | 36 | 117B | 5.1B | 128 | 4 | 128k |
| gpt-oss-20b | 24 | 21B | 3.6B | 32 | 4 | 128k |
gpt-oss-120b:高性能推理
gpt-oss-120b 模型总参数为 117B,活跃参数 5.1B。它在核心推理基准上接近 OpenAI o4-mini 的水平,同时在优化后的基础设施上高效运行。
该模型在竞赛编程 (Codeforces)、通用问题解决 (MMLU 和 HLE) 以及工具调用 (TauBench) 上优于 OpenAI o3‑mini,并达到或超过 OpenAI o4-mini 的水平。
gpt-oss-20b:高效边缘推理
gpt-oss-20b 模型总参数为 21B,活跃参数 3.6B。它专为高效部署场景设计。120B 模型可单卡运行在 H100 GPU 上,而 20B 模型仅需 16GB 内存,非常适合消费级硬件和端侧应用。
尽管规模较小,它在标准基准上仍能达到或超过 OpenAI o3‑mini,甚至在竞赛数学 (AIME 2024 & 2025) 和健康相关查询 (HealthBench) 上表现更优。
核心功能与技术规格
架构细节
- 总参数 21B 和 117B,活跃参数分别为 3.6B 和 5.1B
- 4 位量化方案,采用 mxfp4 格式,仅应用于 MoE 权重
- Token 选择 MoE,使用 SwiGLU 激活函数和 softmax-after-topk 进行专家选择
- RoPE 注意力,所有注意力层均支持 128K 上下文长度
- 交替注意力层:全上下文和滑动 128-token 窗口模式
- 每头学习的注意力吸收点,用于改善长上下文性能
关键能力
推理模型:仅文本模型,支持思维链和可调节的推理努力级别(“低”、“中”、“高”)
工具使用支持:内置对网络搜索、Python 代码执行和自定义工具集成的支持
结构化输出:原生支持 JSON、XML 及其他结构化数据格式,并带 Schema 验证
Responses API 兼容性:完全兼容 OpenAI 的 Responses API——OpenAI 最先进的聊天模型接口,专为更灵活、更直观的交互而设计
Apache 2.0 许可:为商业和研究用途提供最大灵活性。据 OpenAI 称,他们希望其工具安全、负责任且民主地使用,同时最大化用户对自己使用方式的控制。使用 gpt-oss 即表示用户同意遵守所有适用法律。
基准测试表现

安全评估结果
OpenAI 根据其 Preparedness Framework 进行了全面的安全测试,包括测试对抗性微调版本的 gpt-oss-120b。其方法经过外部专家审查,标志着在制定开放权重模型新安全标准方面迈出一步:
- 可扩展能力评估:OpenAI 确认,默认模型在三个跟踪类别(生物与化学能力、网络能力、AI 自我改进)中均未达到高能力指示阈值
- 对抗性微调测试:即使利用 OpenAI 业界领先的训练栈进行稳健微调,gpt-oss-120b 在生物与化学风险或网络风险方面也未达到高能力
- 前沿风险评估:在大多数评估中,现有开放模型的默认性能接近于匹配 gpt-oss-120b 对抗性微调后的性能
- 外部审查:OpenAI 的安全咨询小组 (SAG) 审查了该测试,并得出结论认为模型符合安全标准
通过 Novita AI 的 API 访问
Novita AI 通过 Serverless 和专用端点全面提供 GPT OSS 模型,完全兼容 OpenAI API。
定价与模型详情
模型名称:openai/gpt-oss-120b
- 输入/输出价格 (Novita AI):
- 输入:每百万 tokens $0.10
- 输出:每百万 tokens $0.50
- 上下文大小:131,072
- 立即尝试:在 Playground 中测试 gpt-oss-120b
模型名称:openai/gpt-oss-20b
- 输入/输出价格 (Novita AI):
- 输入:每百万 tokens $0.05
- 输出:每百万 tokens $0.20
- 上下文大小:131,072
- 最大输出:32,768
- 立即尝试:在 Playground 中测试 gpt-oss-20b
开始使用 Novita AI
使用 Playground(无需编码)
- 即时访问:注册 后即可在数秒内开始使用 GPT OSS 模型
- 交互式界面:实时测试复杂推理提示,可视化思维链输出
- 模型对比:将 GPT OSS 与其他主流模型对比,选择最适合您用例的模型
通过 API 集成(面向开发者) 通过 Novita AI 的统一 REST API 将 GPT OSS 连接到您的应用。
选项 1:直接 API 集成(Python 示例)
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "openai/gpt-oss-120b"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
关键特性:
- 兼容 OpenAI 的 API,无缝集成
- 灵活的参数控制,精细调整响应
- 流式支持,实现实时响应
选项 2:使用 OpenAI Agents SDK 构建多智能体工作流 利用 GPT OSS 构建复杂的多智能体系统:
- 即插即用集成:在任何 OpenAI Agents 工作流中使用 GPT OSS
- 高级智能体能力:支持交接、路由和工具集成,具备出色的推理性能
- 可扩展架构:设计利用 GPT OSS 统一推理、编码和智能体能力的智能体
对接第三方平台
- 开发工具:通过兼容 OpenAI 的 API,无缝集成到流行的 IDE 和开发环境(如 Cursor、Trae、Cline)
- 编排框架:使用官方连接器连接 LangChain、Dify、CrewAI、Langflow 等 AI 编排平台
- Hugging Face 集成:Novita AI 是 Hugging Face 的官方推理提供商
模型架构与训练
预训练与模型开发
模型使用混合强化学习以及基于 OpenAI 最先进内部模型(包括 o3 和其他前沿系统)的技术进行训练。它们经过了大量训练,能在推理过程中利用工具使用。
后训练优化
基于人类反馈的强化学习 (RLHF):全面的对齐训练,确保有用、无害和诚实的回答
安全训练:大量的安全评估和对抗性测试,确保负责任地部署
推理校准:微调推理努力控制,允许针对不同任务复杂度进行优化
技术创新
历史性的开源回归:这是自五年前发布 GPT-2 以来,OpenAI 首次发布开放权重语言模型,代表了其对开源生态系统承诺的有意义一步
先进的 MoE 架构:成熟的混合专家实现,采用 Token 选择路由和优化的专家选择模式
高效量化:原生 4 位量化,使用 mxfp4 格式,实现快速推理且资源消耗低;120B 模型可单卡运行在 80GB GPU 上,20B 模型仅需 16GB 内存
总结
OpenAI 的 GPT OSS 模型代表了开源 AI 的突破,在 Apache 2.0 许可下提供了前沿推理能力。通过 Novita AI 的 API 基础设施,开发者可以通过 Serverless 和专用端点访问这些强大模型,并完全兼容 OpenAI。
无论是构建智能体工作流、进行学术研究还是开发生产应用,GPT OSS 都为下一代 AI 解决方案奠定了基础。凭借先进的推理能力、工具使用支持和灵活的许可,这些模型为各行业的 AI 创新创造了前所未有的机遇。
准备好开始了吗? 立即在 Novita AI 的模型 Playground 体验 GPT OSS 模型——无需编码。注册 后即可用 OpenAI 最先进的开源模型开始构建。
Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷方式,同时也提供经济实惠且可靠的 GPU 云用于构建和扩展。
