代理代币费用正在螺旋式上涨:多步骤工具调用、长上下文规划和扩展输出,使得原本看似低廉的单价代币最终变成了一笔非常昂贵的月度账单。业界给出的解决方案——通过增加推理轨迹来提高基准测试分数——反而使经济效益更加糟糕。
Ling-2.6-flash 是一种不同的模型。它基于混合线性注意力架构构建,最高可达 340 个代币/秒 在 4× H20 硬件上,性能卓越。 Nemotron-3-Super 的预填充吞吐量是其 2.2 倍并且仅使用 约15万个输出代币 为了完成完整的人工智能分析智能指数——大致 十分之一 Nemotron-3-Super 的功耗是多少?简而言之:Ling-2.6-flash 是一款 104B MoE 模型(7.4B 活动内存),拥有 256K 的上下文窗口,针对代理工作负载进行了优化,在这些工作负载中,速度、成本和稳定性比单一的基准测试结果更为重要。它现已上市。 Novita AI.
Ling-2.6-flash 是什么?
Ling-2.6-flash 是一个稀疏混合专家语言模型, 总参数 104B 以及 每次前向传递有 7.4 亿个活跃参数. 由 Ling 团队(InclusionAI)开发,它被设计成一个“即时”类别模型——针对生产代理部署进行了优化,其中令牌消耗和延迟是实际成本,而不仅仅是基准标题。
- 总计 104 亿 / 7.4 亿个活动参数 — 具有高稀疏性的 MoE 架构
- 256K 令牌上下文窗口 ——由混合线性注意力机制实现
- 峰值吞吐量为 340 个令牌/秒 在 4× H20 (TP=4)
- 混合型 1:7 MLA + 闪电线性注意力 — 长时间上下文吞吐量提高 4 倍
- 顶级经纪人基准 — 领先于 BFCL-V4 (67.04)、PinchBench (81.10)、IFBench (58.10)、Multi-IF Turn-3 (74.85)
- BF16、FP8 和 INT4 变体 计划通过凌河发布开源版本
- 已在生产环境中验证 — OpenRouter上线数日内,每日代币交易量约为100亿枚。
混合线性架构:Ling-2.6 闪存如何大规模提升速度
大多数 MoE 模型将标准的 Transformer 注意力机制与稀疏 FFN 层结合使用。Ling-2.6-flash 用一个……替换了大部分注意力机制。 闪电线性 图层,创建 1:7 MLA + Lightning Linear 混合型注意力成本随上下文长度线性增长,而不是二次方增长——这对长时间的智能体会话至关重要。

解码吞吐量:长输出时最高可达 4.38 倍
在 4× H20-3e (TP=4,批次大小 32) 上,Ling-2.6-flash 达到 4.38 倍归一化解码吞吐量 在输出长度为 65,536 个 Token 的情况下,Qwen3.5-122B-A10B 的性能比 GLM-4.5-Air 基线高出 1.90 倍;Nemotron-3-Super 的性能比为 3.37 倍。随着任务输出长度的增加,这种差距会进一步扩大。

预填充吞吐量:长上下文下 Nemotron 的 2.2 倍
Ling-2.6-flash 实现 在 65K 上下文中,归一化预填充吞吐量约为 4.68 倍 相比之下,Nemotron-3-Super 的成本约为 2.12 倍。对于 RAG 流水线和具有较长系统提示的多轮代理而言,这直接降低了每次请求的成本。

代币效率:15万代币 vs. 110亿代币解决相同基准测试
在完整的人工智能分析智能指数中,凌2.6-flash 使用 约15万个输出代币Nemotron-3-Super 使用 110M + 对于在代理任务上得分较低的模型而言,成本大约是其 7 倍。对于每天运行数十万个代理任务的应用程序来说,这部分成本差距直接影响到预算。


基准测试结果:凌-2.6-闪存领先
在 7 个类别的 19 项基准测试中,与 Qwen3-57B-A14B、Qwen3.5-122B-A10B、GLM-4.5-Air、Nemotron-3-Super 和 MiniMax-M1-80k 进行了比较:


Ling-2.6-闪光导线
- BFCL-V4(函数调用): 67.04——最接近的竞争对手Nemotron为35.12(差距90%)
- PinchBench(智能体任务): 81.10 对比 Nemotron 73.10
- IFBench(操作说明如下): 58.10
- 多IF回合3: 74.85——强烈的多轮指令坚持性
- LongBench-v2: 54.80——长篇幅类别最高
- CCAlignBench(中文): 7.44——在所有测试型号中最佳
他人引领
- 数学(AIME 2025,MATH-500): Nemotron-3-Super 和 Qwen3 推理变体获胜
- 编码(LiveCodeBench): Qwen3.5-122B-A10B 领先;Ling 有竞争力但并非第一。
- GPQA-钻石: GLM-4.5-Air 和 Nemotron 得分更高
快速比较表
| 型号 | 活动参数 | BFCL-V4 ↑ | 捏握凳 ↑ | 解码 TP @ 65K ↑ | 输出标记 ↓ |
|---|---|---|---|---|---|
| Ling-2.6-flash | 7.4B | 67.04 | 81.10 | 4.38× | 〜15M |
| Nemotron-3-Super | 总计 49B | 35.12 | 73.10 | 3.37× | 〜110M + |
| Qwen3.5-122B-A10B | 10B | - | 78.20 | 1.90× | - |
| GLM-4.5-空气 | - | 50.67 | 73.30 | 1.00×(基线) | - |
| MiniMax-M1-80k | - | 44.07 | 75.70 | - | - |
| Qwen3-57B-A14B | 14B | 52.32 | 76.30 | - | - |
Access Ling-2.6-flash 由以下方式支持 Novita AI
Ling-2.6-flash 现已推出。立即试用! 开放路由器 — 免费版,无需设置:
开始使用 OpenRouter — inclusionai/ling-2.6-flash:free提供免费版本,OpenAI兼容客户端无需修改代码。
Ling-2.6-flash 可与 LangChain、LlamaIndex 和 OpenAI Agent SDK 配合使用——无需适配器或代码更改。它支持流式传输、函数调用和结构化输出。可与以下组件配合使用: Novita 代理沙盒 用于安全执行代码以及进行推理。
社区的反馈
Ling-2.6-flash 在 OpenRouter 上启动 “大象阿尔法” 在正式发布之前,短短几天内,它就处理了约 100 亿枚代币,并登上了平台热门排行榜榜首——而这一切都没有任何官方公告。
“Ling-2.6-flash 比较注重实际应用。比大型模型简洁约 75%。虽然还有一些样板代码,但就编写代码而言——它几乎完美。”
— X/Twitter 的早期用户
“我刚用 Ling-2.6-flash 处理了一些 llama.cpp 代码任务。效果远超预期。它能可靠地处理工具调用,而且不会在输出中添加不必要的解释。”
— Reddit早期用户
“减少 75% 的冗余”这一说法与人工智能分析基准测试中 15 万个令牌与 110 亿个令牌之间的差距完全吻合。训练目标似乎奖励直接、完整的答案——这一特性在生产规模下能够显著降低成本。
哪些人应该使用 Ling-2.6-flash?
- ✅ 高容量函数调用/工具使用代理 — BFCL-V4 以较大优势领先
- ✅ 多轮代理会话 — 在较长的对话历史中保持一致
- ✅ 长上下文 RAG 管道 — 256K 代币窗口,线性成本预填充
- ✅ 成本敏感的生产部署 — 比 Nemotron 的输出代币数量少约 7 倍
- ✅ 中文应用程序 — CCAlignBench 顶部
- ❌ 数学竞赛/AIME式推理 — 使用 Nemotron 或 Qwen3 推理变体
- ❌ 最高编码基准性能 — Qwen3.5-122B-A10B 领先
立即开启合作
Ling-2.6-flash 现已发布。可通过以下方式访问: OpenRouter 模型页面 — 免费版本即刻可用,OpenAI 兼容客户端无需任何代码更改。同时还提供 Agent Sandbox,供团队将推理和安全执行结合起来使用。
常見問題解答
Ling-2.6-flash是什么?
Ling-2.6-flash 是一个 104B MoE 模型(7.4B 活跃),具有混合线性注意力机制、256K 上下文窗口和高达 340 tokens/s 的推理速度,专为代理工作负载而优化。
如何通过 API 使用 Ling-2.6-flash?
将 OpenRouter 与您的设备一起使用 Novita AI API密钥(自带密钥)。请在此处添加您的Novita密钥。 openrouter.人工智能/设置/集成, 选择 NOVITA 作为提供商,并将请求路由到 inclusionai/ling-2.6-flash:free 通过与 OpenAI 兼容的端点:
POST https://openrouter.ai/api/v1/chat/completionsAuthorization: Bearer YOUR_OPENROUTER_API_KEY{ "model": "inclusionai/ling-2.6-flash:free", "provider": { "order": ["Novita"], "api_key": "YOUR_NOVITA_API_KEY" }, "messages": [{"role": "user", "content": "Hello!"}]}
参见 OpenRouter BYOK 文档 完整设置请参见此处。使用 BYOK 时,OpenRouter 不收取任何费用——您直接按免费套餐价格向 Novita 付款。
Ling-2.6-flash 与 Nemotron-3-Super 相比如何?
Ling 在 BFCL-V4(67.04 对 35.12)和 PinchBench(81.10 对 73.10)测试中领先,并且使用的输出令牌数量减少了约 7 倍。Nemotron 在数学运算方面更胜一筹。对于代理工作负载而言,Ling-2.6-flash 是更经济的选择。
什么是上下文窗口?
256万个代币(262,144),采用混合线性注意力机制,预填充成本线性降低。长时间的RAG任务和多轮会话能够高效扩展。
Ling-2.6-flash 是开源软件吗?
BF16、FP8 和 INT4 变体以及 Linghe 内核计划开源发布。具体时间待定——请查看相关信息。 Ling官方网站 更新。
大家还喜欢这些
- Kimi K2.6:13 小时编程课程的开源代理 — 1T MoE 型号,256K 上下文,SWE-Bench Pro 得分 58.6%
- GLM-5.1 API Novita AI:长时程智能体模型 — SWE-Bench Pro 得分 58.4 分,位列榜首,并能自主运行 8 小时编码任务。
- 2026 年开源模型顶级推理 API 提供商 - 比较 Novita AITogether AI、Fireworks、DeepInfra 和 Groq
探索 Novita 的更多内容
订阅即可将最新帖子发送到您的电子邮箱。





