代理代幣費用正在螺旋式上漲:多步驟工具調用、長上下文規劃和擴展輸出,使得原本看似低廉的單價代幣最終變成了一筆非常昂貴的月度賬單。業界給出的解決方案——透過增加推理軌跡來提高基準測試分數——反而使經濟效益更加糟糕。
Ling-2.6-flash 是一種不同的模型。它基於混合線性注意力架構構建,最高可達 340 令牌/秒 在 4× H20 硬體上,性能卓越。 Nemotron-3-Super 的預填充吞吐量是其 2.2 倍並且僅使用 約15萬個輸出代幣 為了完成完整的人工智慧分析智慧指數——大致 十分之一 Nemotron-3-Super 的功耗是多少?簡而言之:Ling-2.6-flash 是一款 104B MoE 模型(7.4B 活動內存),擁有 256K 的上下文窗口,針對代理工作負載進行了優化,在這些工作負載中,速度、成本和穩定性比單一的基準測試結果更為重要。它現已上市。 Novita AI.
Ling-2.6-flash 是什麼?
Ling-2.6-flash 是一個稀疏混合專家語言模型, 總參數 104B 以及 每次前傳遞有 7.4 億個活躍參數. 由 Ling 團隊(InclusionAI)開發,它被設計成一個“即時”類別模型——針對生產代理部署進行了優化,其中令牌消耗和延遲是實際成本,而不僅僅是基準標題。
- 總計 104 億 / 7.4 億個活動參數 — 具有高稀疏性的 MoE 架構
- 256K 令牌上下文視窗 ——由混合線性注意力機制實現
- 峰值吞吐量為 340 個令牌/秒 在 4× H20 (TP=4)
- 混合型 1:7 MLA + 閃電線性注意力 — 長時間上下文吞吐量提高 4 倍
- 頂級經紀人基準 — 領先 BFCL-V4 (67.04)、PinchBench (81.10)、IFBench (58.10)、Multi-IF Turn-3 (74.85)
- BF16、FP8 和 INT4 變體 計劃透過凌河發布開源版本
- 已在生產環境中驗證 — OpenRouter上線數日內,每日代幣交易量約100億枚。
混合線性架構:Ling-2.6 快閃記憶體如何大規模提升速度
大多數 MoE 模型將標準的 Transformer 注意力機制與稀疏 FFN 層結合使用。 Ling-2.6-flash 用一個…取代了大部分注意力機制。 閃電線性 圖層,創建 1:7 MLA + Lightning Linear 混合型注意力成本隨上下文長度線性增長,而不是二次方增長——這對長時間的智能體會話至關重要。

解碼吞吐量:長輸出時最高可達 4.38 倍
在 4× H20-3e (TP=4,批次大小 32) 上,Ling-2.6-flash 達到 4.38 倍歸一化解碼吞吐量 在輸出長度為 65,536 個 Token 的情況下,Qwen3.5-122B-A10B 的性能比 GLM-4.5-Air 基線高出 1.90 倍;Nemotron-3-Super 的性能比為 3.37 倍。隨著任務輸出長度的增加,這種差距會進一步擴大。

預填充吞吐量:長上下文下 Nemotron 的 2.2 倍
Ling-2.6-flash 實現 在 65K 上下文中,歸一化預填吞吐量約為 4.68 倍 相比之下,Nemotron-3-Super 的成本約為 2.12 倍。對於 RAG 管線和具有較長系統提示的多輪代理而言,這直接降低了每次請求的成本。

代幣效率:15萬代幣 vs. 110億代幣解決相同基準測試
在完整的人工智慧分析智慧指數中,凌2.6-flash 使用 約15萬個輸出代幣Nemotron-3-Super 使用 110M + 對於在代理任務上得分較低的模型而言,成本約為其 7 倍。對於每天運行數十萬個代理任務的應用程式來說,這部分成本差距直接影響預算。


基準測試結果:凌-2.6-快閃記憶體領先
在 7 個類別的 19 項基準測試中,與 Qwen3-57B-A14B、Qwen3.5-122B-A10B、GLM-4.5-Air、Nemotron-3-Super 和 MiniMax-M1-80k 進行了比較:


Ling-2.6-閃光導線
- BFCL-V4(函數呼叫): 67.04-最接近的競爭對手Nemotron為35.12(差距90%)
- PinchBench(智能體任務): 81.10 對比 Nemotron 73.10
- IFBench(操作說明如下): 58.10
- 多IF回合3: 74.85-強烈的多輪指令堅持性
- LongBench-v2: 54.80——長篇幅類別最高
- CCAlignBench(中文): 7.44-在所有測試型號中最佳
他人引領
- 數學(AIME 2025,MATH-500): Nemotron-3-Super 和 Qwen3 推理變體獲勝
- 編碼(LiveCodeBench): Qwen3.5-122B-A10B 領先;Ling 有競爭力但非第一。
- GPQA-鑽石: GLM-4.5-Air 和 Nemotron 得分較高
快速比較表
| 型號 | 活動參數 | BFCL-V4 ↑ | 捏握凳 ↑ | 解碼 TP @ 65K ↑ | 輸出標記 ↓ |
|---|---|---|---|---|---|
| Ling-2.6-flash | 7.4B | 67.04 | 81.10 | 4.38× | ~15M |
| Nemotron-3-Super | 總計 49B | 35.12 | 73.10 | 3.37× | 〜110M + |
| Qwen3.5-122B-A10B | 10B | 78.20 | 1.90× | ||
| GLM-4.5-空氣 | 50.67 | 73.30 | 1.00×(基線) | ||
| MiniMax-M1-80k | 44.07 | 75.70 | |||
| Qwen3-57B-A14B | 14B | 52.32 | 76.30 |
Access Ling-2.6-flash 由以下方式支持 Novita AI
Ling-2.6-flash 現已推出。立即試用! 開放路由器 — 免費版,無需設定:
開始使用 OpenRouter — inclusionai/ling-2.6-flash:free提供免費版本,OpenAI相容客戶端無需修改程式碼。
Ling-2.6-flash 可與 LangChain、LlamaIndex 和 OpenAI Agent SDK 搭配使用-無需轉接器或程式碼變更。它支援串流、函數呼叫和結構化輸出。可與以下組件搭配使用: Novita 代理沙盒 用於安全執行程式碼以及進行推理。
社區的評價
Ling-2.6-flash 在 OpenRouter 上啟動 “大像阿爾法” 在正式發布之前,短短幾天內,它就處理了約 100 億枚代幣,並登上了平台熱門排行榜榜首——而這一切都沒有任何官方公告。
“Ling-2.6-flash 比較注重實際應用。比大型模型簡潔約 75%。雖然還有一些樣板程式碼,但就編寫程式碼而言——它幾乎完美。”
— X/Twitter 的早期用戶
「我只是用 Ling-2.6-flash 處理了一些 llama.cpp 程式碼任務。效果遠超預期。它能可靠地處理工具調用,而且不會在輸出中添加不必要的解釋。”
— Reddit早期用戶
「減少 75% 的冗餘」這一說法與人工智慧分析基準測試中 15 萬個令牌與 110 億個令牌之間的差距完全吻合。訓練目標似乎獎勵直接、完整的答案——這項特性在生產規模下能夠顯著降低成本。
哪些人應該使用 Ling-2.6-flash?
- ✅ 高容量函數呼叫/工具使用代理 — BFCL-V4 以較大優勢領先
- ✅ 多輪代理會話 — 在漫長的對話歷史中保持一致
- ✅ 長上下文 RAG 管道 — 256K 代幣窗口,線性成本預填充
- ✅ 成本敏感的生產部署 — 比 Nemotron 的輸出代幣數量少約 7 倍
- ✅ 中文應用程式 — CCAlignBench 頂部
- ❌ 數學競賽/AIME式推理 — 使用 Nemotron 或 Qwen3 推理變體
- ❌ 最高編碼基準效能 — Qwen3.5-122B-A10B 領先
立即報名
Ling-2.6-flash 現已發布。可透過以下方式存取: OpenRouter 模型頁面 — 免費版本即刻可用,OpenAI 相容用戶端無需任何程式碼變更。同時也提供 Agent Sandbox,供團隊將推理和安全執行結合使用。
常見問題
Ling-2.6-flash是什麼?
Ling-2.6-flash 是一個 104B MoE 模型(7.4B 活躍),具有混合線性注意力機制、256K 上下文視窗和高達 340 tokens/s 的推理速度,專為代理工作負載而最佳化。
如何透過 API 使用 Ling-2.6-flash?
將 OpenRouter 與您的裝置一起使用 Novita AI API金鑰(自備金鑰)。請在此處新增您的Novita金鑰。 openrouter.人工智慧/設定/集成, 選擇 諾維塔 作為提供者,並將請求路由到 inclusionai/ling-2.6-flash:free 透過與 OpenAI 相容的端點:
POST https://openrouter.ai/api/v1/chat/completionsAuthorization: Bearer YOUR_OPENROUTER_API_KEY{ "model": "inclusionai/ling-2.6-flash:free", "provider": { "order": ["Novita"], "api_key": "YOUR_NOVITA_API_KEY" }, "messages": [{"role": "user", "content": "Hello!"}]}
觀看 OpenRouter BYOK 文檔 完整設定請參閱此處。使用 BYOK 時,OpenRouter 不收取任何費用——您直接以免費套餐價格向 Novita 付款。
Ling-2.6-flash 與 Nemotron-3-Super 相比如何?
Ling 在 BFCL-V4(67.04 對 35.12)和 PinchBench(81.10 對 73.10)測試中領先,並且使用的輸出代幣數量減少了約 7 倍。 Nemotron 在數學運算方面更勝一籌。對於代理工作負載而言,Ling-2.6-flash 是更經濟的選擇。
什麼是上下文視窗?
256萬個代幣(262,144),採用混合線性注意力機制,預填充成本線性降低。長時間的RAG任務和多輪會話能夠有效率地擴展。
Ling-2.6-flash 是開源軟體嗎?
BF16、FP8 和 INT4 變體以及 Linghe 核心計畫開源發布。具體時間待定-請查看相關資訊。 Ling官方網站 更新。
你可能還喜歡
- Kimi K2.6:13 小時程式設計課程的開源代理 — 1T MoE 型號,256K 上下文,SWE-Bench Pro 得分 58.6%
- GLM-5.1 API Novita AI:長時程智能體模型 — SWE-Bench Pro 得分 58.4 分,位列榜首,並能自主運行 8 小時編碼任務。
- 2026 年開源模型頂級推理 API 提供商 - 比較 Novita AITogether AI、Fireworks、DeepInfra 與 Groq
探索 Novita 的更多內容
訂閱以將最新貼文發送到您的電子郵件。





