Novita AI 興奮地宣布,GPT OSS —— OpenAI 劃時代的開放權重語言模型,現已透過我們的推理 API 提供。GPT OSS 系列包含兩個最先進的推理模型:gpt-oss-120b 與 gpt-oss-20b,兩者均以 Apache 2.0 授權釋出。
根據 OpenAI 的說法,此次釋出是他們對開源生態系承諾中具有意義的一步,與其「讓 AI 的益處能被廣泛取得」的使命相符。這些模型專為代理型工作流程、工具使用以及複雜推理任務而設計,是建立複雜 AI 應用程式而不受封閉系統限制的理想選擇。
Novita AI 提供的 GPT OSS 定價如下:
gpt-oss-120b:每百萬 tokens 輸入 $0.10 / 輸出 $0.50
gpt-oss-20b:每百萬 tokens 輸入 $0.05 / 輸出 $0.20
模型概覽與能力
GPT OSS 模型是採用 4-bit 量化方案(MXFP4)的混合專家模型(MoE)。這能在保持低資源消耗的同時實現快速推理。兩個模型都支援思維鏈推理,可調整推理努力程度、遵循指令以及使用工具的能力。
| 模型 | 層數 | 總參數 | 每 Token 活躍參數 | 專家總數 | 每 Token 活躍專家數 | 上下文長度 |
|---|---|---|---|---|---|---|
| gpt-oss-120b | 36 | 117B | 5.1B | 128 | 4 | 128k |
| gpt-oss-20b | 24 | 21B | 3.6B | 32 | 4 | 128k |
gpt-oss-120b:高效能推理
gpt-oss-120b 模型擁有 117B 總參數與 5.1B 活躍參數。在核心推理基準上接近 OpenAI o4-mini 的表現,同時在最佳化的基礎設施上高效運行。
該模型在競賽程式設計(Codeforces)、一般問題解決(MMLU 與 HLE)以及工具呼叫(TauBench)方面優於 o3‑mini,並與 o4-mini 相當或超越。
gpt-oss-20b:高效邊緣推理
gpt-oss-20b 模型包含 21B 總參數與 3.6B 活躍參數。專為高效部署場景設計。120B 模型可裝在一張 H100 GPU 上,而 20B 模型僅需 16GB 記憶體即可運行,非常適合消費級硬體與裝置端應用。
儘管規模較小,它在標準基準上與 OpenAI o3‑mini 相當甚至超越,特別是在競賽數學(AIME 2024 與 2025)以及健康相關查詢(HealthBench)方面表現更佳。
核心功能與技術規格
架構細節
- 總參數 21B 與 117B,活躍參數分別為 3.6B 與 5.1B
- 4-bit 量化方案,使用 mxfp4 格式,僅應用於 MoE 權重
- Token-choice MoE,搭配 SwiGLU 激活函數與 softmax-after-topk 專家選擇機制
- RoPE 注意力,所有注意力層均支援 128K 上下文長度
- 交替注意力層:完整上下文與滑動 128 token 視窗模式
- 每頭學習注意力匯集(Learned attention sink),改善長上下文表現
關鍵能力
推理模型:純文字模型,支援思維鏈與可調整的推理努力程度(「低」、「中」、「高」)
工具使用支援:內建支援網頁搜尋、Python 程式碼執行以及自訂工具整合
結構化輸出:原生支援 JSON、XML 及其他結構化資料格式,並含 schema 驗證
Responses API 相容性:完全相容 OpenAI 的 Responses API(目前最先進的聊天模型界面),提供更靈活直覺的互動
Apache 2.0 授權:為商業與研究用途提供最大彈性。根據 OpenAI 的說法,他們希望工具能被安全、負責任且民主地使用,同時最大化使用者對如何使用這些工具的控制權。使用 gpt-oss 即表示使用者同意遵守所有適用法律。
基準測試表現

安全性評估結果
OpenAI 根據其「準備框架」進行了全面的安全性測試,包括測試經過對抗性微調的 gpt-oss-120b 版本。他們的方法經外部專家審查,是在開放權重模型安全性標準上邁出的一步:
- 可擴展能力評估:OpenAI 確認預設模型在三個追蹤類別(生物與化學能力、網路能力、AI 自我改進)中均未達「高」能力閾值
- 對抗性微調測試:即使使用 OpenAI 業界領先的訓練堆疊進行強健的微調,gpt-oss-120b 在生物與化學風險或網路風險方面仍未達到「高」能力
- 前沿風險評估:對於大多數評估,現有開放模型的預設表現接近於 gpt-oss-120b 對抗性微調後的表現
- 外部審查:OpenAI 的安全性諮詢小組審查了此測試,並得出模型符合安全標準的結論
透過 Novita AI 的 API 存取
Novita AI 提供對 GPT OSS 模型的全面存取,包括無伺服器與專用端點,並完全相容 OpenAI API。
定價與模型詳情
模型名稱:openai/gpt-oss-120b
- 輸入/輸出價格(Novita AI):
- 輸入:每百萬 tokens $0.10
- 輸出:每百萬 tokens $0.50
- 上下文大小:131,072
- 立即嘗試:在遊樂場測試 gpt-oss-120b
模型名稱:openai/gpt-oss-20b
- 輸入/輸出價格(Novita AI):
- 輸入:每百萬 tokens $0.05
- 輸出:每百萬 tokens $0.20
- 上下文大小:131,072
- 最大輸出:32,768
- 立即嘗試:在遊樂場測試 gpt-oss-20b
開始使用 Novita AI
使用遊樂場(無需編寫程式碼)
- 立即存取:註冊後即可在數秒內開始體驗 GPT OSS 模型
- 互動式介面:即時測試複雜推理提示並視覺化思維鏈輸出
- 模型比較:針對您的使用案例,比較 GPT OSS 與其他領先模型
透過 API 整合(開發者適用):使用 Novita AI 的統一 REST API 將 GPT OSS 連接到您的應用程式。
選項 1:直接 API 整合(Python 範例)
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "openai/gpt-oss-120b"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
主要功能:
- 相容 OpenAI 的 API,實現無縫整合
- 靈活的參數控制,可用於微調回應
- 串流支援,實現即時回應
選項 2:使用 ** OpenAI Agents SDK ** 建立多代理工作流程:利用 GPT OSS 建立複雜的多代理系統:
- 即插即用整合:在任何 OpenAI Agents 工作流程中使用 GPT OSS
- 進階代理能力:支援交接、路由與工具整合,並擁有卓越的推理表現
- 可擴展架構:設計利用 GPT OSS 統一推理、程式碼與代理能力的代理
連接第三方平台
- 開發工具:透過相容 OpenAI 的 API,與熱門 IDE 及開發環境(如 Cursor、Trae、Cline 等)無縫整合
- 編排框架:使用官方連接器與 LangChain、Dify、CrewAI、Langflow 等 AI 編排平台連接
- Hugging Face 整合:Novita AI 是 Hugging Face 的官方推理提供商
模型架構與訓練
預訓練與模型開發
這些模型是透過強化學習以及來自 OpenAI 最先進內部模型(包括 o3 及其他前沿系統)的技術混合訓練而成。它們經過大量訓練,能將工具使用融入推理過程中。
後訓練最佳化
從人類回饋進行強化學習(RLHF):全面的對齊訓練,以提供有益、無害且誠實的回應
安全性訓練:廣泛的安全性評估與對抗性測試,確保負責任的部署
推理校準:精細調整的推理努力程度控制,可針對不同任務複雜度進行最佳化
技術創新
歷史性的開源回歸:這是 OpenAI 自 GPT-2(已發布超過五年)以來的第一個開放權重語言模型,代表他們對開源生態系承諾中具有意義的一步
先進的 MoE 架構:採用 token-choice 路由與最佳化專家選擇模式的複雜混合專家實作
高效量化:原生 4-bit 量化(mxfp4 格式)能在保持低資源消耗的同時實現快速推理,120B 模型可裝入單張 80GB GPU,20B 模型則僅需 16GB 記憶體
結論
OpenAI 的 GPT OSS 模型代表了開源 AI 的突破,在 Apache 2.0 授權下提供了前沿的推理能力。透過 Novita AI 的 API 基礎設施,開發者可透過無伺服器與專用端點存取這些強大模型,並完全相容 OpenAI。
無論是建立代理型工作流程、進行研究,還是開發生產應用,GPT OSS 都為下一代 AI 解決方案奠定了基礎。憑藉先進的推理、工具使用支援以及靈活的授權,這些模型為各行各業的 AI 創新創造了前所未有的機會。
準備好開始了嗎? 立即在 Novita AI 模型遊樂場體驗 GPT OSS 模型,無需編寫程式碼。 註冊帳號,開始使用 OpenAI 最先進的開源模型進行建構。
Novita AI 是一個 AI 雲端平台,為開發者提供透過簡單 API 輕鬆部署 AI 模型的途徑,同時提供經濟實惠且可靠的 GPU 雲端服務,用於建構與擴展規模。
