Ling-2.6-flash on Novita AI:340 個代幣/秒,代幣效率約為原來的 7 倍

代理代幣費用正在螺旋式上漲:多步驟工具調用、長上下文規劃和擴展輸出,使得原本看似低廉的單價代幣最終變成了一筆非常昂貴的月度賬單。業界給出的解決方案——透過增加推理軌跡來提高基準測試分數——反而使經濟效益更加糟糕。

Ling-2.6-flash 是一種不同的模型。它基於混合線性注意力架構構建,最高可達 340 令牌/秒 在 4× H20 硬體上,性能卓越。 Nemotron-3-Super 的預填充吞吐量是其 2.2 倍並且僅使用 約15萬個輸出代幣 為了完成完整的人工智慧分析智慧指數——大致 十分之一 Nemotron-3-Super 的功耗是多少?簡而言之:Ling-2.6-flash 是一款 104B MoE 模型(7.4B 活動內存),擁有 256K 的上下文窗口,針對代理工作負載進行了優化,在這些工作負載中,速度、成本和穩定性比單一的基準測試結果更為重要。它現已上市。 Novita AI.

Ling-2.6-flash 是什麼?

Ling-2.6-flash 是一個稀疏混合專家語言模型, 總參數 104B 以及 每次前傳遞有 7.4 億個活躍參數. 由 Ling 團隊(InclusionAI)開發,它被設計成一個“即時”類別模型——針對生產代理部署進行了優化,其中令牌消耗和延遲是實際成本,而不僅僅是基準標題。

  • 總計 104 億 / 7.4 億個活動參數 — 具有高稀疏性的 MoE 架構
  • 256K 令牌上下文視窗 ——由混合線性注意力機制實現
  • 峰值吞吐量為 340 個令牌/秒 在 4× H20 (TP=4)
  • 混合型 1:7 MLA + 閃電線性注意力 — 長時間上下文吞吐量提高 4 倍
  • 頂級經紀人基準 — 領先 BFCL-V4 (67.04)、PinchBench (81.10)、IFBench (58.10)、Multi-IF Turn-3 (74.85)
  • BF16、FP8 和 INT4 變體 計劃透過凌河發布開源版本
  • 已在生產環境中驗證 — OpenRouter上線數日內,每日代幣交易量約100億枚。

混合線性架構:Ling-2.6 快閃記憶體如何大規模提升速度

大多數 MoE 模型將標準的 Transformer 注意力機制與稀疏 FFN 層結合使用。 Ling-2.6-flash 用一個…取代了大部分注意力機制。 閃電線性 圖層,創建 1:7 MLA + Lightning Linear 混合型注意力成本隨上下文長度線性增長,而不是二次方增長——這對長時間的智能體會話至關重要。

Ling-2.6-flash混合線性注意力MoE架構圖
Ling-2.6-flash架構:157K詞彙表,256K上下文,1:7 MLA + Lightning Linear混合格式,256個可選專家 [來源:Ling官方部落格]

解碼吞吐量:長輸出時最高可達 4.38 倍

在 4× H20-3e (TP=4,批次大小 32) 上,Ling-2.6-flash 達到 4.38 倍歸一化解碼吞吐量 在輸出長度為 65,536 個 Token 的情況下,Qwen3.5-122B-A10B 的性能比 GLM-4.5-Air 基線高出 1.90 倍;Nemotron-3-Super 的性能比為 3.37 倍。隨著任務輸出長度的增加,這種差距會進一步擴大。

Ling-2.6-快閃記憶體歸一化解碼吞吐量與產生長度的關係
解碼吞吐量對比,4×H20-3e,TP=4,Batch=32 [來源:凌官方部落格]

預填充吞吐量:長上下文下 Nemotron 的 2.2 倍

Ling-2.6-flash 實現 在 65K 上下文中,歸一化預填吞吐量約為 4.68 倍 相比之下,Nemotron-3-Super 的成本約為 2.12 倍。對於 RAG 管線和具有較長系統提示的多輪代理而言,這直接降低了每次請求的成本。

Ling-2.6-快閃記憶體預填吞吐量與上下文長度
預灌封吞吐量對比,4× H20-3e,TP=4,批次=32 [來源:凌官方部落格]

代幣效率:15萬代幣 vs. 110億代幣解決相同基準測試

在完整的人工智慧分析智慧指數中,凌2.6-flash 使用 約15萬個輸出代幣Nemotron-3-Super 使用 110M + 對於在代理任務上得分較低的模型而言,成本約為其 7 倍。對於每天運行數十萬個代理任務的應用程式來說,這部分成本差距直接影響預算。

代幣使用量比較:Ling 2.6 Flash 15萬 vs Nemotron 110億+
完成人工智慧分析智慧指數的輸出代幣-Ling 2.6 Flash:約 15 萬 vs Nemotron-3-Super:約 110 億+ [資料來源:人工智慧分析]
智慧與產出代幣散佈圖 — Ling 2.6 閃電效率區
智力型衍生物 vs. 產出型衍生物:凌 2.6 閃現落入高效區 [來源:人工分析]

基準測試結果:凌-2.6-快閃記憶體領先

在 7 個類別的 19 項基準測試中,與 Qwen3-57B-A14B、Qwen3.5-122B-A10B、GLM-4.5-Air、Nemotron-3-Super 和 MiniMax-M1-80k 進行了比較:

Ling-2.6-flash完整基準測試表:6款機型,19項基準測試,7個類別
綜合基準測試表 [來源:凌官方部落格]
Ling-2.6 快閃記憶體代理程式基準測試對比-BFCL-V4 和 PinchBench 的領先地位
代理商基準:Ling-2.6-flash 在工具使用和多輪 IF 方面領先 [來源:Ling 官方部落格]

Ling-2.6-閃光導線

  • BFCL-V4(函數呼叫): 67.04-最接近的競爭對手Nemotron為35.12(差距90%)
  • PinchBench(智能體任務): 81.10 對比 Nemotron 73.10
  • IFBench(操作說明如下): 58.10
  • 多IF回合3: 74.85-強烈的多輪指令堅持性
  • LongBench-v2: 54.80——長篇幅類別最高
  • CCAlignBench(中文): 7.44-在所有測試型號中最佳

他人引領

  • 數學(AIME 2025,MATH-500): Nemotron-3-Super 和 Qwen3 推理變體獲勝
  • 編碼(LiveCodeBench): Qwen3.5-122B-A10B 領先;Ling 有競爭力但非第一。
  • GPQA-鑽石: GLM-4.5-Air 和 Nemotron 得分較高

快速比較表

型號活動參數BFCL-V4 ↑捏握凳 ↑解碼 TP @ 65K ↑輸出標記 ↓
Ling-2.6-flash7.4B67.0481.104.38×~15M
Nemotron-3-Super總計 49B35.1273.103.37×〜110M +
Qwen3.5-122B-A10B10B 78.201.90×
GLM-4.5-空氣 50.6773.301.00×(基線)
MiniMax-M1-80k 44.0775.70
Qwen3-57B-A14B14B52.3276.30

Access Ling-2.6-flash 由以下方式支持 Novita AI

Ling-2.6-flash 現已推出。立即試用! 開放路由器 — 免費版,無需設定:

開始使用 OpenRouter — inclusionai/ling-2.6-flash:free提供免費版本,OpenAI相容客戶端無需修改程式碼。

Ling-2.6-flash 可與 LangChain、LlamaIndex 和 OpenAI Agent SDK 搭配使用-無需轉接器或程式碼變更。它支援串流、函數呼叫和結構化輸出。可與以下組件搭配使用: Novita 代理沙盒 用於安全執行程式碼以及進行推理。

社區的評價

Ling-2.6-flash 在 OpenRouter 上啟動 “大像阿爾法” 在正式發布之前,短短幾天內,它就處理了約 100 億枚代幣,並登上了平台熱門排行榜榜首——而這一切都沒有任何官方公告。

“Ling-2.6-flash 比較注重實際應用。比大型模型簡潔約 75%。雖然還有一些樣板程式碼,但就編寫程式碼而言——它幾乎完美。”

— X/Twitter 的早期用戶

「我只是用 Ling-2.6-flash 處理了一些 llama.cpp 程式碼任務。效果遠超預期。它能可靠地處理工具調用,而且不會在輸出中添加不必要的解釋。”

— Reddit早期用戶

「減少 75% 的冗餘」這一說法與人工智慧分析基準測試中 15 萬個令牌與 110 億個令牌之間的差距完全吻合。訓練目標似乎獎勵直接、完整的答案——這項特性在生產規模下能夠顯著降低成本。

哪些人應該使用 Ling-2.6-flash?

  • 高容量函數呼叫/工具使用代理 — BFCL-V4 以較大優勢領先
  • 多輪代理會話 — 在漫長的對話歷史中保持一致
  • 長上下文 RAG 管道 — 256K 代幣窗口,線性成本預填充
  • 成本敏感的生產部署 — 比 Nemotron 的輸出代幣數量少約 7 倍
  • 中文應用程式 — CCAlignBench 頂部
  • 數學競賽/AIME式推理 — 使用 Nemotron 或 Qwen3 推理變體
  • 最高編碼基準效能 — Qwen3.5-122B-A10B 領先

立即報名

Ling-2.6-flash 現已發布。可透過以下方式存取: OpenRouter 模型頁面 — 免費版本即刻可用,OpenAI 相容用戶端無需任何程式碼變更。同時也提供 Agent Sandbox,供團隊將推理和安全執行結合使用。

常見問題

Ling-2.6-flash是什麼?

Ling-2.6-flash 是一個 104B MoE 模型(7.4B 活躍),具有混合線性注意力機制、256K 上下文視窗和高達 340 tokens/s 的推理速度,專為代理工作負載而最佳化。

如何透過 API 使用 Ling-2.6-flash?

將 OpenRouter 與您的裝置一起使用 Novita AI API金鑰(自備金鑰)。請在此處新增您的Novita金鑰。 openrouter.人工智慧/設定/集成, 選擇 諾維塔 作為提供者,並將請求路由到 inclusionai/ling-2.6-flash:free 透過與 OpenAI 相容的端點:

POST https://openrouter.ai/api/v1/chat/completions
Authorization: Bearer YOUR_OPENROUTER_API_KEY
{
"model": "inclusionai/ling-2.6-flash:free",
"provider": {
"order": ["Novita"],
"api_key": "YOUR_NOVITA_API_KEY"
},
"messages": [{"role": "user", "content": "Hello!"}]
}

觀看 OpenRouter BYOK 文檔 完整設定請參閱此處。使用 BYOK 時,OpenRouter 不收取任何費用——您直接以免費套餐價格向 Novita 付款。

Ling-2.6-flash 與 Nemotron-3-Super 相比如何?

Ling 在 BFCL-V4(67.04 對 35.12)和 PinchBench(81.10 對 73.10)測試中領先,並且使用的輸出代幣數量減少了約 7 倍。 Nemotron 在數學運算方面更勝一籌。對於代理工作負載而言,Ling-2.6-flash 是更經濟的選擇。

什麼是上下文視窗?

256萬個代幣(262,144),採用混合線性注意力機制,預填充成本線性降低。長時間的RAG任務和多輪會話能夠有效率地擴展。

Ling-2.6-flash 是開源軟體嗎?

BF16、FP8 和 INT4 變體以及 Linghe 核心計畫開源發布。具體時間待定-請查看相關資訊。 Ling官方網站 更新。


你可能還喜歡


探索 Novita 的更多內容

訂閱以將最新貼文發送到您的電子郵件。

發表評論

回到頁首

探索 Novita 的更多內容

立即訂閱以繼續閱讀並存取完整檔案。

繼續閱讀