Ling-2.6-1T 在 Novita AI 上:免費 API、SWE-Bench SOTA、1T 參數模型

Ling-2.6-1T 在 Novita AI 上:免費 API、SWE-Bench SOTA、1T 參數模型

目前最強大的開源模型往往讓你面臨抉擇:要原始智慧,還是要 Token 效率?思考型模型每次請求會消耗 3–5 倍的 Token。較小的非推理模型能降低成本,但能力上限也較低。Ling-2.6-1T 正是為打破這個取捨而設計。

Ling-2.6-1T 是螞蟻集團(inclusionAI)推出的超大規模綜合旗艦模型,專為即時任務執行而打造。它採用 MLA + Hybrid Linear Attention 架構,實現了卓越的智慧與 Token 比率:強大的基準測試表現,同時最小化輸出 Token 開銷。在 AIME26 上,它顯著優於其他非推理模型。在代理執行基準測試——SWE-bench Verified、BFCLv4、TAU2-Bench、Claw-Eval——上達到開源 SOTA 水準。目前由 Novita AI 獨家提供推理支援。

簡而言之:Ling-2.6-1T 為代理工作負載提供了全面的前沿能力——複雜推理、工具使用、多步驟執行以及長上下文指令遵循——而 Token 成本僅為思考型模型的一小部分。

立即體驗由 Novita AI 支援的 Ling-2.6-1T

Ling-2.6-1T 是什麼?

Ling-2.6-1T 是螞蟻集團(AntLingAGI)旗下 AI 研究機構 inclusionAI 最新的旗艦模型。這是一個 1 兆參數的混合專家(MoE)模型——迄今為止發布的最大 FP8 訓練基礎模型——在超過 20T 的高品質 Token 上進行訓練,後期階段包含超過 40% 的推理密集型資料。

與在回答前輸出冗長思維鏈的思考型模型(DeepSeek-R1、QwQ)不同,Ling-2.6-1T 採用「快速思考」機制:它將推理內化,而不將冗長的思考過程外部化。這使得 Token 輸出保持精簡,同時維持強大的分析深度。每個 Token 激活約 50B 參數,使得在 1T 規模下進行推理成為可能。

  • 架構:MLA + Hybrid Linear Attention,總參數 1T,每個 Token 激活參數約 50B
  • 上下文窗口:262,144 個 Token(透過 YaRN 位置編碼擴展),最大輸出 32,768 個 Token
  • 訓練:FP8 混合精度,20T+ Token,>40% 推理密集型資料
  • 範式:快速思考——內化推理,無冗長思維鏈輸出
  • 授權:MIT——完全開放權重
  • 可用性:由 Novita AI 獨家支援(OpenRouter 提供商)

主要特色:為何 Ling-2.6-1T 與眾不同

優越的智慧與 Token 比率

思考型模型會產生令人印象深刻的結果,但會膨脹您的 Token 帳單——在實際答案之前需要數百個推理 Token。Ling-2.6-1T 在中期訓練中採用演化式思維鏈(Evo-CoT),將推理內化而非外部化。結果:在 AIME26(優於其他非推理模型)、LiveCodeBench 和 Omni-MATH 上取得強勁基準分數——無需支付思考過程的費用。根據官方模型卡,其智慧輸出效率可與 GPT-5.4(非推理版)媲美,相較前代 Ling-1T 有重大飛躍。對於高吞吐量的生產工作負載,這直接降低了成本。

代理執行的開源 SOTA

代理工作負載不僅需要孤立的數學和編碼——還需要工具使用、多步驟執行以及真實條件下可靠的指令遵循。Ling-2.6-1T 在關鍵代理基準測試上達到開源 SOTA(根據 inclusionAI 模型卡):

  • SWE-bench Verified——真實世界軟體工程任務解決
  • BFCLv4——Berkeley 函數調用排行榜 v4,複雜工具使用
  • TAU2-Bench——長期代理任務完成
  • Claw-Eval——多輪命令執行
  • PinchBench——綜合代理能力評估

在 LiveCodeBench(2024 年 8 月 – 2025 年 5 月)上,其得分為 61.68——超越 DeepSeek-V3.1(48.02)、Kimi-K2-0905(48.95)和 GPT-5-main(48.57)超過 13 分。在前端生成方面,ArtifactsBench 得分為 59.31——在此比較組中僅次於 Gemini-2.5-Pro(lowthink) 的 60.28(根據 inclusionAI 模型卡)。

長上下文與指令遵循

憑藉 262,144 個 Token 的上下文(YaRN 位置編碼),Ling-2.6-1T 可以在單次呼叫中容納整個程式碼庫、長文件或擴展的多輪代理對話。在 MRCR 基準測試(16K–256K 上下文範圍)中,它持續保持檢索準確性——這對於處理長工具輸出或文件語料庫的代理管道至關重要。IFBench 得分為 56.9%,展示了在擴展上下文下強大的複雜指令遵循能力。

基準測試表現

來自 Artificial Analysis 的獨立測量將 Ling-2.6-1T 的智慧指數定為 33.6——優於 495 個測量模型中的 73%,在開放權重的大型非推理類別中排名第 2。以下為 inclusionAI 模型卡中自行報告的分數(對比 DeepSeek-V3.1-terminus、Kimi-K2-0905、GPT-5-main 和 Gemini-2.5-Pro(lowthink)),以及經過獨立驗證的 AA 分數。

數學與推理(根據 inclusionAI 模型卡)

基準測試 Ling-2.6-1T DeepSeek-V3.1 Kimi-K2-0905 GPT-5-main Gemini-2.5-Pro*
AIME26 70.42 55.21 50.16 59.43 70.10
Omni-MATH 74.46 64.77 62.42 61.09 72.02
OptMATH 57.68 35.99 35.84 39.16 42.77
FinanceReasoning 87.45 86.44 84.83 86.28 86.65
BBEH 47.34 42.86 34.83 39.75 29.08
KOR-Bench 76.00 73.76 73.20 70.56 59.68
ARC-AGI-1 43.81 14.69 22.19 14.06 18.94

*Gemini-2.5-Pro(lowthink)。來源:inclusionAI 模型卡。最後驗證時間:2026-04-24。

程式碼表現(根據 inclusionAI 模型卡)

基準測試 Ling-2.6-1T DeepSeek-V3.1 Kimi-K2-0905 GPT-5-main Gemini-2.5-Pro*
LiveCodeBench 61.68 48.02 48.95 48.57 45.43
MultiPL-E 77.91 77.68 73.54 76.66 71.48
CodeForces Rating 1901 1582 1574 1120 1675
FullStack Bench 56.55 55.48 54.00 50.92 48.19
ArtifactsBench 59.31 43.29 44.87 41.04 60.28
Aider Code Editing 83.65 88.16 85.34 84.40 89.85

*Gemini-2.5-Pro(lowthink)。來源:inclusionAI 模型卡。最後驗證時間:2026-04-24。注意:模型版本名稱(例如 “gpt-5-main”、“DeepSeek-V3.1-terminus”)為 inclusionAI 所報告,可能與公開發布的版本不一致。

代理執行基準測試(根據 inclusionAI 模型卡)

Ling-2.6-1T 在特定代理評估中達到開源 SOTA。部分基準測試未公布競爭對手確切分數;以下結果按官方模型卡報告列出。

基準測試 測量內容 Ling-2.6-1T
SWE-bench Verified 真實 GitHub 問題解決 開源 SOTA
BFCLv4 複雜多步驟函數/工具調用 開源 SOTA
TAU2-Bench 長期代理任務完成 開源 SOTA
Claw-Eval 多輪命令執行 開源 SOTA
PinchBench 綜合代理能力 開源 SOTA
IFBench 複雜指令遵循 56.9%

來源:inclusionAI 模型卡。「開源 SOTA」為 inclusionAI 宣稱;獨立每項分數數據尚不可用。最後驗證時間:2026-04-24。

獨立基準測試(Artificial Analysis)

指標 Ling-2.6-1T 備註
AA 智慧指數 33.6 優於 495 個模型中的 73%
AA 編碼指數 33.0 優於 78% 的模型
AA 代理指數 48.2 優於 80% 的模型
GPQA Diamond 75.2% 研究生級科學推理
τ²-Bench Telecom 89.8% 對話式代理任務
IFBench 56.9% 指令遵循
輸出速度 67.7 tok/s 經由 Novita AI 在 OpenRouter

來源:Artificial Analysis。最後驗證時間:2026-04-24。

如何使用由 Novita AI 支援的 Ling-2.6-1T

選項 1:Playground(無程式碼)

立即在 novita.ai/models/model-detail/inclusionai-ling-2.6-1t 上試用模型——無需設定。對於在整合到應用程式之前快速測試提示詞很有用。

選項 2:API(Python)

Ling-2.6-1T 完全相容 OpenAI。替換您的 Novita API 金鑰和模型 ID:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

response = client.chat.completions.create(
    model="inclusionai/ling-2.6-1t",
    messages=[{"role": "user", "content": "您的提示詞在這裡"}],
    temperature=0.7,
    top_p=0.95,
)

print(response.choices[0].message.content)

novita.ai/settings 獲取您的 API 金鑰。該模型還支援串流、透過 tool_use 進行函數調用以及結構化輸出。

選項 3:第三方工具

由於 Novita AI 相容 OpenAI,Ling-2.6-1T 可與任何接受自訂 base URL 的工具搭配使用——包括 CursorClaude CodeOpenWebUILangChainLlamaIndex。將 base URL 設為 https://api.novita.ai/v3/openai,模型設為 inclusionai/ling-2.6-1t

使用案例

Ling-2.6-1T 結合了 1T 參數容量、快速思考範式和 262K 上下文,非常適合以下場景:

  • 編碼代理: 憑藉 CodeForces 評級 1901 和強勁的 LiveCodeBench 分數,它能處理競賽級程式設計任務。將其與 Novita 的 Agent Sandbox 配合使用,無需管理基礎設施即可實現完全隔離的程式碼執行。
  • 金融分析: FinanceReasoning 得分 87.45(根據 inclusionAI 模型卡,在其比較組中排名第一),使其適用於自動化報告分析、收益摘要和量化研究工作流程。
  • 前端生成: 訓練中的混合語法-功能-美學獎勵機制特別針對 UI 程式碼品質。ArtifactsBench 得分 59.31 在其比較組中排名第二——僅落後 Gemini-2.5-Pro(lowthink) 0.97 分。
  • 長文件處理: 262,144 個 Token 的上下文可一次處理數百頁的文件、完整儲存庫分析或擴展的法律/研究語料庫。
  • 高量生產 API: 非推理範式意味著 Token 數量可預測且延遲變異較低——對於每天運行數千次請求的場景非常重要。

從 DeepSeek V3 或 Kimi K2 遷移?

如果您目前透過其他提供商使用 DeepSeek V3 或 Kimi K2,切換到由 Novita AI 支援的 Ling-2.6-1T 只需修改一行程式碼——相同的 OpenAI 相容 API,相同的請求格式。模型 ID 變為 inclusionai/ling-2.6-1t

在編碼任務上,Ling-2.6-1T 在 LiveCodeBench(61.68 對比 48.02 和 48.95)上優於 DeepSeek-V3.1 和 Kimi-K2-0905;在數學推理上,它在 AIME26 和 OptMATH 上均領先。如果您的工作負載以推理為重,但又不希望有冗長的思維鏈,那麼相較於切換到思考型模型,這是一條更乾淨的升級路徑。

定價

模型 輸入($/1M Token) 輸出($/1M Token) 上下文
Ling-2.6-1T(Novita AI) $0.30 $2.50 262,144
DeepSeek V3.2 $0.28 $0.42 128K
Qwen3-235B-A22B $0.455 $1.82 131K
Kimi K2(OpenRouter) $0.57 $2.30 131K

Novita AI 定價透過 novita.ai。競爭對手定價透過 OpenRouter。最後驗證時間:2026-04-24。

Ling-2.6-1T 的輸出定價($2.50/M)高於 DeepSeek V3.2——但其在推理和編碼任務上具有明顯更強的基準測試表現。如果每次呼叫的 Token 成本是主要限制,Ling-2.6-flash(104B 參數,7.4B 激活)是更便宜的兄弟模型,也由 Novita AI 獨家提供。

免費 tier: Ling-2.6-1T 可透過 OpenRouter 上的 inclusionai/ling-2.6-1t:free 端點免費使用,由 Novita AI 獨家提供。此免費時段有時效限制——請在 openrouter.ai/inclusionai/ling-2.6-1t:free 查看當前可用性。

結論

總結: Ling-2.6-1T 是目前在競賽級數學和編碼基準測試中最強的開放權重非推理模型,也是如果您需要 262K 上下文而不願支付思維鏈冗長費用的最強開源選擇。它不是每 Token 最便宜的選項,但對於思考型模型會膨脹帳單的複雜推理任務,它是目前最實用的前沿開源替代方案。

由 Novita AI 獨家支援——唯一在 OpenRouter 上同時提供 Ling-2.6-1T 和 Ling-2.6-flash 的提供商——您可獲得穩定的推理端點、99.9% 正常運行時間以及 OpenAI 相容的 API,無需自行管理最低 32 GPU 的部署。

立即開始使用 Ling-2.6-1T

常見問題

什麼是 Ling-2.6-1T?

Ling-2.6-1T 是螞蟻集團(inclusionAI)開發的 1 兆參數混合專家語言模型。每個 Token 激活約 50B 參數,支援 262,144 個 Token 的上下文窗口,被設計為快速思考、非推理模型——在沒有思維鏈開銷的情況下提供強大的基準測試表現。MIT 授權,完全開放權重。

如何透過 API 存取 Ling-2.6-1T?

在任何相容 OpenAI 的客戶端中設定 base_url="https://api.novita.ai/v3/openai"model="inclusionai/ling-2.6-1t"。在 novita.ai/settings 獲取您的 API 金鑰。也可透過 OpenRouter 使用相同的模型 ID 存取。

Ling-2.6-1T 與 DeepSeek V3 相比如何?

根據自我報告的基準測試(inclusionAI 模型卡),Ling-2.6-1T 在 AIME26(70.42 對比 55.21)、LiveCodeBench(61.68 對比 48.02)和 ARC-AGI-1(43.81 對比 14.69)上優於 DeepSeek-V3.1。DeepSeek V3.2 在 Artificial Analysis 智慧指數上得分更高(42 對比 34),但 Ling-2.6-1T 提供更大的上下文窗口(262K 對比 128K),且定價相似(輸入 $0.30/M)。

Ling-2.6-1T 的上下文窗口是多少?

262,144 個 Token(從原生 128K 透過 YaRN 位置編碼擴展)。最大輸出長度為 32,768 個 Token。

Ling-2.6-1T 可以免費使用嗎?

可以,暫時免費。OpenRouter 上的 inclusionai/ling-2.6-1t:free 端點由 Novita AI 獨家提供。免費時段有時效限制。透過 Novita AI 的付費 tier 為輸入 $0.30/M Token,輸出 $2.50/M Token。

推薦文章