大多数强大的开源模型都让你做出选择:原始智能还是 token 效率。思考模型每次请求会消耗 3-5 倍的 token。较小的非推理模型降低了成本,但限制了能力。Ling-2.6-1T 旨在打破这种权衡。
Ling-2.6-1T 是蚂蚁集团(inclusionAI)推出的万亿级综合旗舰模型,专为即时任务执行而设计。它基于 MLA + 混合线性注意力 架构,实现了卓越的智能与 token 比率:在最小输出 token 开销下获得强大的基准性能。在 AIME26 上,它显著优于其他非思考模型。在智能体执行基准测试——SWE-bench Verified、BFCLv4、TAU2-Bench、Claw-Eval——上,它达到了开源 SOTA。现在由 Novita AI 独家提供推理支持。
简而言之:Ling-2.6-1T 为智能体工作负载提供了全面的前沿能力——复杂推理、工具使用、多步骤执行和长上下文指令遵循——而 token 成本仅为思考模型的一小部分。
什么是 Ling-2.6-1T?
Ling-2.6-1T 是蚂蚁集团 AI 研究部门 inclusionAI 的最新旗舰模型。它是一个 1 万亿参数的混合专家模型——迄今为止发布的最大的 FP8 训练基础模型——在 20T+ 高质量 token 上训练,后期阶段超过 40% 是推理密集型数据。
与在回答前输出长思维链轨迹的思考模型(DeepSeek-R1、QwQ)不同,Ling-2.6-1T 使用“快速思考”机制:它将推理内化,而不外化冗长的思维链。这保持了 token 输出的精简,同时保持了强大的分析深度。每个 token 激活约 50B 参数,使得在 1T 规模下进行推理变得实用。
- 架构: MLA + 混合线性注意力,总参数 1T,每个 token 激活约 50B 参数
- 上下文窗口: 262,144 个 token(通过 YaRN 旋转位置缩放),最大输出 32,768 个 token
- 训练: FP8 混合精度,20T+ token,>40% 推理密集型数据
- 范式: 快速思考——内化推理,无冗长思维链输出
- 许可证: MIT——完全开放权重
- 可用性: 由 Novita AI 独家支持(OpenRouter 提供商)
主要特点:Ling-2.6-1T 为何脱颖而出
卓越的智能与 Token 比率
思考模型产生令人印象深刻的结果,但会膨胀你的 token 账单——在实际答案之前有数百个推理 token。Ling-2.6-1T 在中期训练中使用了进化思维链(Evo-CoT),将推理内化而不是外化。结果:在 AIME26(优于其他非思考模型)、LiveCodeBench 和 Omni-MATH 上获得强大的基准分数——而无需为思考过程付费。根据官方模型卡,其智能输出效率与 GPT-5.4(非推理)相当,相比其前身 Ling-1T 实现了重大飞跃。对于高吞吐量的生产工作负载,这直接降低了成本。
智能体执行的开源 SOTA
智能体工作负载需要的不仅仅是孤立的数学和编码——它们需要工具使用、多步骤执行以及在现实条件下可靠的指令遵循。Ling-2.6-1T 在关键智能体基准测试上达到了开源 SOTA(根据 inclusionAI 模型卡):
- SWE-bench Verified——现实世界软件工程任务解决
- BFCLv4——伯克利函数调用排行榜 v4,复杂工具使用
- TAU2-Bench——长周期智能体任务完成
- Claw-Eval——多轮命令执行
- PinchBench——复合智能体能力评估
在 LiveCodeBench(2024 年 8 月–2025 年 5 月)上,它得分 61.68——比 DeepSeek-V3.1(48.02)、Kimi-K2-0905(48.95)和 GPT-5-main(48.57)高出 13 分以上。对于前端生成,ArtifactsBench 得分为 59.31——在该比较组中仅次于 Gemini-2.5-Pro(lowthink) 的 60.28(根据 inclusionAI 模型卡)。
长上下文 + 指令遵循
凭借 262,144 个 token 的上下文(YaRN 旋转位置缩放),Ling-2.6-1T 可以在单次调用中容纳整个代码库、长文档或扩展的多轮智能体对话。在 MRCR 基准测试(16K–256K 上下文范围)上,它始终保持检索准确性——这是处理长工具输出或文档语料库的智能体管道的关键要求。IFBench 得分为 56.9%,展示了在扩展上下文下强大的复杂指令遵循能力。
基准测试性能
来自 Artificial Analysis 的独立测量将 Ling-2.6-1T 的智能指数定为 33.6——优于 495 个测量模型中的 73%,在开放权重大型非推理类别中排名第二。以下是 inclusionAI 模型卡中自我报告的分数(与 DeepSeek-V3.1-terminus、Kimi-K2-0905、GPT-5-main 和 Gemini-2.5-Pro(lowthink) 比较),随后是独立验证的 AA 分数。
数学与推理(根据 inclusionAI 模型卡)
| 基准测试 | Ling-2.6-1T | DeepSeek-V3.1 | Kimi-K2-0905 | GPT-5-main | Gemini-2.5-Pro* |
|---|---|---|---|---|---|
| AIME26 | 70.42 | 55.21 | 50.16 | 59.43 | 70.10 |
| Omni-MATH | 74.46 | 64.77 | 62.42 | 61.09 | 72.02 |
| OptMATH | 57.68 | 35.99 | 35.84 | 39.16 | 42.77 |
| FinanceReasoning | 87.45 | 86.44 | 84.83 | 86.28 | 86.65 |
| BBEH | 47.34 | 42.86 | 34.83 | 39.75 | 29.08 |
| KOR-Bench | 76.00 | 73.76 | 73.20 | 70.56 | 59.68 |
| ARC-AGI-1 | 43.81 | 14.69 | 22.19 | 14.06 | 18.94 |
*Gemini-2.5-Pro(lowthink)。来源:inclusionAI 模型卡。最后验证:2026-04-24。
代码性能(根据 inclusionAI 模型卡)
| 基准测试 | Ling-2.6-1T | DeepSeek-V3.1 | Kimi-K2-0905 | GPT-5-main | Gemini-2.5-Pro* |
|---|---|---|---|---|---|
| LiveCodeBench | 61.68 | 48.02 | 48.95 | 48.57 | 45.43 |
| MultiPL-E | 77.91 | 77.68 | 73.54 | 76.66 | 71.48 |
| CodeForces Rating | 1901 | 1582 | 1574 | 1120 | 1675 |
| FullStack Bench | 56.55 | 55.48 | 54.00 | 50.92 | 48.19 |
| ArtifactsBench | 59.31 | 43.29 | 44.87 | 41.04 | 60.28 |
| Aider Code Editing | 83.65 | 88.16 | 85.34 | 84.40 | 89.85 |
*Gemini-2.5-Pro(lowthink)。来源:inclusionAI 模型卡。最后验证:2026-04-24。注意:模型版本名称(例如“gpt-5-main”、“DeepSeek-V3.1-terminus”)按 inclusionAI 报告,可能不对应于公开发布的版本。
智能体执行基准测试(根据 inclusionAI 模型卡)
Ling-2.6-1T 在智能体特定评估上达到开源 SOTA。并非所有基准测试都公布了确切的竞争对手分数;结果按官方模型卡报告列出。
| 基准测试 | 测量内容 | Ling-2.6-1T |
|---|---|---|
| SWE-bench Verified | 现实世界 GitHub 问题解决 | 开源 SOTA |
| BFCLv4 | 复杂多步骤函数/工具调用 | 开源 SOTA |
| TAU2-Bench | 长周期智能体任务完成 | 开源 SOTA |
| Claw-Eval | 多轮命令执行 | 开源 SOTA |
| PinchBench | 复合智能体能力 | 开源 SOTA |
| IFBench | 复杂指令遵循 | 56.9% |
来源:inclusionAI 模型卡。“开源 SOTA”由 inclusionAI 声称;独立每项分数数据尚不可用。最后验证:2026-04-24。
独立基准测试(Artificial Analysis)
| 指标 | Ling-2.6-1T | 备注 |
|---|---|---|
| AA 智能指数 | 33.6 | 优于 495 个模型中的 73% |
| AA 编码指数 | 33.0 | 优于 78% 的模型 |
| AA 智能体指数 | 48.2 | 优于 80% 的模型 |
| GPQA Diamond | 75.2% | 研究生级科学推理 |
| τ²-Bench Telecom | 89.8% | 对话式智能体任务 |
| IFBench | 56.9% | 指令遵循 |
| 输出速度 | 67.7 tok/s | 通过 Novita AI 在 OpenRouter 上 |
来源:Artificial Analysis。最后验证:2026-04-24。
如何使用由 Novita AI 支持的 Ling-2.6-1T
选项 1:Playground(无需代码)
在 novita.ai/models/model-detail/inclusionai-ling-2.6-1t 上立即尝试该模型——无需设置。在集成到你的应用之前快速测试提示时很有用。
选项 2:API(Python)
Ling-2.6-1T 完全兼容 OpenAI。替换你的 Novita API 密钥和模型 ID:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="YOUR_NOVITA_API_KEY",
)
response = client.chat.completions.create(
model="inclusionai/ling-2.6-1t",
messages=[{"role": "user", "content": "Your prompt here"}],
temperature=0.7,
top_p=0.95,
)
print(response.choices[0].message.content)
在 novita.ai/settings 获取你的 API 密钥。该模型还支持流式传输、通过 tool_use 进行函数调用以及结构化输出。
选项 3:第三方工具
由于 Novita AI 兼容 OpenAI,Ling-2.6-1T 可与任何接受自定义 base URL 的工具一起使用——包括 Cursor、Claude Code、OpenWebUI、LangChain 和 LlamaIndex。将 base URL 设置为 https://api.novita.ai/v3/openai,模型设置为 inclusionai/ling-2.6-1t。
使用场景
Ling-2.6-1T 结合了 1T 参数容量、快速思考范式和 262K 上下文,非常适合以下场景:
- 编码智能体: 凭借 CodeForces 评级 1901 和强大的 LiveCodeBench 分数,它可以处理竞赛级编程任务。将其与 Novita 的 Agent Sandbox 配对,无需管理基础设施即可实现完全隔离的代码执行。
- 金融分析: FinanceReasoning 得分 87.45(根据 inclusionAI 模型卡,在其比较组中排名第一),使其适用于自动报告分析、收益摘要和定量研究工作流程。
- 前端生成: 训练中的混合语法-功能-美学奖励专门针对 UI 代码质量。ArtifactsBench 得分 59.31 在其比较组中排名第二——仅比 Gemini-2.5-Pro(lowthink) 低 0.97 分。
- 长文档处理: 262,144 个 token 的上下文可处理数百页的文档、完整仓库分析或扩展的法律/研究语料库,单次调用即可完成。
- 高容量生产 API: 非推理范式意味着可预测的 token 计数和更低的延迟变化——当你每天运行数千个请求时,这一点很重要。
从 DeepSeek V3 或 Kimi K2 迁移?
如果你目前通过其他提供商使用 DeepSeek V3 或 Kimi K2,切换到由 Novita AI 支持的 Ling-2.6-1T 只需更改一行代码——相同的 OpenAI 兼容 API,相同的请求格式。模型 ID 变为 inclusionai/ling-2.6-1t。
在编码任务上,Ling-2.6-1T 在 LiveCodeBench 上优于 DeepSeek-V3.1 和 Kimi-K2-0905(61.68 对比 48.02 和 48.95),在数学推理上,它在 AIME26 和 OptMATH 上都领先于两者。如果你的工作负载是推理密集型,但你不想要思维链的冗长,这是比切换到思考模型更清晰的升级路径。
定价
| 模型 | 输入($/1M token) | 输出($/1M token) | 上下文 |
|---|---|---|---|
| Ling-2.6-1T(Novita AI) | $0.30 | $2.50 | 262,144 |
| DeepSeek V3.2 | $0.28 | $0.42 | 128K |
| Qwen3-235B-A22B | $0.455 | $1.82 | 131K |
| Kimi K2(OpenRouter) | $0.57 | $2.30 | 131K |
Novita AI 定价通过 novita.ai。竞争对手定价通过 OpenRouter。最后验证:2026-04-24。
Ling-2.6-1T 的输出定价($2.50/M)高于 DeepSeek V3.2——权衡是在推理和编码任务上获得明显更强的基准性能。如果每次调用的 token 成本是主要限制,Ling-2.6-flash(104B 参数,7.4B 激活)是更便宜的兄弟模型,也由 Novita AI 独家提供。
免费层: Ling-2.6-1T 可通过 OpenRouter 上的 inclusionai/ling-2.6-1t:free 端点免费使用,由 Novita AI 独家提供。此免费窗口有时间限制——在 openrouter.ai/inclusionai/ling-2.6-1t:free 查看当前可用性。
结论
总结: Ling-2.6-1T 目前是竞争性数学和编码基准测试中最强的开放权重非推理模型,也是如果你需要 262K 上下文而不为思维链冗长付费的最佳开源选择。它不是每 token 最便宜的选项,但对于思考模型会膨胀账单的复杂推理任务,它是目前最实用的前沿开源替代方案。
由 Novita AI 独家支持——唯一在 OpenRouter 上同时提供 Ling-2.6-1T 和 Ling-2.6-flash 的提供商——你可以获得稳定的推理端点、99.9% 的正常运行时间和兼容 OpenAI 的 API,而无需自行管理至少 32 个 GPU 的部署。
常见问题
什么是 Ling-2.6-1T?
Ling-2.6-1T 是蚂蚁集团(inclusionAI)开发的 1 万亿参数混合专家语言模型。每个 token 激活约 50B 参数,支持 262,144 个 token 的上下文窗口,被设计为快速思考、非推理模型——强大的基准性能,无需思维链开销。MIT 许可,完全开放权重。
如何通过 API 访问 Ling-2.6-1T?
在任何兼容 OpenAI 的客户端中设置 base_url="https://api.novita.ai/v3/openai" 和 model="inclusionai/ling-2.6-1t"。在 novita.ai/settings 获取你的 API 密钥。它也可以通过 OpenRouter 使用相同的模型 ID 访问。
Ling-2.6-1T 与 DeepSeek V3 相比如何?
在自我报告的基准测试(inclusionAI 模型卡)上,Ling-2.6-1T 在 AIME26(70.42 对比 55.21)、LiveCodeBench(61.68 对比 48.02)和 ARC-AGI-1(43.81 对比 14.69)上优于 DeepSeek-V3.1。DeepSeek V3.2 在 Artificial Analysis 智能指数上得分更高(42 对比 34),但 Ling-2.6-1T 提供更大的上下文窗口(262K 对比 128K),定价相似($0.30/M 输入)。
Ling-2.6-1T 的上下文窗口是多少?
262,144 个 token(通过 YaRN 旋转位置缩放从原生 128K 扩展)。最大输出长度为 32,768 个 token。
Ling-2.6-1T 是免费使用的吗?
是的,暂时免费。OpenRouter 上的 inclusionai/ling-2.6-1t:free 端点由 Novita AI 独家提供。免费窗口有时间限制。通过 Novita AI 的付费层为输入 $0.30/M token,输出 $2.50/M token。
推荐文章
- Ling-2.6-flash:340 Tokens/s,约 7 倍效率 | Novita AI——较小的兄弟模型——当速度比规模更重要时。
- 哪个推理提供商适合 AI 智能体——如何为智能体工作负载选择推理 API。
- 2026 年开源模型顶级推理 API 提供商——全面比较谁为开放权重模型提供了什么。
