Ling-2.6-1T 在 Novita AI 上:免费 API、SWE-Bench SOTA、1T 参数模型

Ling-2.6-1T 在 Novita AI 上:免费 API、SWE-Bench SOTA、1T 参数模型

大多数强大的开源模型都让你做出选择:原始智能还是 token 效率。思考模型每次请求会消耗 3-5 倍的 token。较小的非推理模型降低了成本,但限制了能力。Ling-2.6-1T 旨在打破这种权衡。

Ling-2.6-1T 是蚂蚁集团(inclusionAI)推出的万亿级综合旗舰模型,专为即时任务执行而设计。它基于 MLA + 混合线性注意力 架构,实现了卓越的智能与 token 比率:在最小输出 token 开销下获得强大的基准性能。在 AIME26 上,它显著优于其他非思考模型。在智能体执行基准测试——SWE-bench Verified、BFCLv4、TAU2-Bench、Claw-Eval——上,它达到了开源 SOTA。现在由 Novita AI 独家提供推理支持。

简而言之:Ling-2.6-1T 为智能体工作负载提供了全面的前沿能力——复杂推理、工具使用、多步骤执行和长上下文指令遵循——而 token 成本仅为思考模型的一小部分。

尝试由 Novita AI 支持的 Ling-2.6-1T

什么是 Ling-2.6-1T?

Ling-2.6-1T 是蚂蚁集团 AI 研究部门 inclusionAI 的最新旗舰模型。它是一个 1 万亿参数的混合专家模型——迄今为止发布的最大的 FP8 训练基础模型——在 20T+ 高质量 token 上训练,后期阶段超过 40% 是推理密集型数据。

与在回答前输出长思维链轨迹的思考模型(DeepSeek-R1、QwQ)不同,Ling-2.6-1T 使用“快速思考”机制:它将推理内化,而不外化冗长的思维链。这保持了 token 输出的精简,同时保持了强大的分析深度。每个 token 激活约 50B 参数,使得在 1T 规模下进行推理变得实用。

  • 架构: MLA + 混合线性注意力,总参数 1T,每个 token 激活约 50B 参数
  • 上下文窗口: 262,144 个 token(通过 YaRN 旋转位置缩放),最大输出 32,768 个 token
  • 训练: FP8 混合精度,20T+ token,>40% 推理密集型数据
  • 范式: 快速思考——内化推理,无冗长思维链输出
  • 许可证: MIT——完全开放权重
  • 可用性: 由 Novita AI 独家支持(OpenRouter 提供商)

主要特点:Ling-2.6-1T 为何脱颖而出

卓越的智能与 Token 比率

思考模型产生令人印象深刻的结果,但会膨胀你的 token 账单——在实际答案之前有数百个推理 token。Ling-2.6-1T 在中期训练中使用了进化思维链(Evo-CoT),将推理内化而不是外化。结果:在 AIME26(优于其他非思考模型)、LiveCodeBench 和 Omni-MATH 上获得强大的基准分数——而无需为思考过程付费。根据官方模型卡,其智能输出效率与 GPT-5.4(非推理)相当,相比其前身 Ling-1T 实现了重大飞跃。对于高吞吐量的生产工作负载,这直接降低了成本。

智能体执行的开源 SOTA

智能体工作负载需要的不仅仅是孤立的数学和编码——它们需要工具使用、多步骤执行以及在现实条件下可靠的指令遵循。Ling-2.6-1T 在关键智能体基准测试上达到了开源 SOTA(根据 inclusionAI 模型卡):

  • SWE-bench Verified——现实世界软件工程任务解决
  • BFCLv4——伯克利函数调用排行榜 v4,复杂工具使用
  • TAU2-Bench——长周期智能体任务完成
  • Claw-Eval——多轮命令执行
  • PinchBench——复合智能体能力评估

在 LiveCodeBench(2024 年 8 月–2025 年 5 月)上,它得分 61.68——比 DeepSeek-V3.1(48.02)、Kimi-K2-0905(48.95)和 GPT-5-main(48.57)高出 13 分以上。对于前端生成,ArtifactsBench 得分为 59.31——在该比较组中仅次于 Gemini-2.5-Pro(lowthink) 的 60.28(根据 inclusionAI 模型卡)。

长上下文 + 指令遵循

凭借 262,144 个 token 的上下文(YaRN 旋转位置缩放),Ling-2.6-1T 可以在单次调用中容纳整个代码库、长文档或扩展的多轮智能体对话。在 MRCR 基准测试(16K–256K 上下文范围)上,它始终保持检索准确性——这是处理长工具输出或文档语料库的智能体管道的关键要求。IFBench 得分为 56.9%,展示了在扩展上下文下强大的复杂指令遵循能力。

基准测试性能

来自 Artificial Analysis 的独立测量将 Ling-2.6-1T 的智能指数定为 33.6——优于 495 个测量模型中的 73%,在开放权重大型非推理类别中排名第二。以下是 inclusionAI 模型卡中自我报告的分数(与 DeepSeek-V3.1-terminus、Kimi-K2-0905、GPT-5-main 和 Gemini-2.5-Pro(lowthink) 比较),随后是独立验证的 AA 分数。

数学与推理(根据 inclusionAI 模型卡)

基准测试 Ling-2.6-1T DeepSeek-V3.1 Kimi-K2-0905 GPT-5-main Gemini-2.5-Pro*
AIME26 70.42 55.21 50.16 59.43 70.10
Omni-MATH 74.46 64.77 62.42 61.09 72.02
OptMATH 57.68 35.99 35.84 39.16 42.77
FinanceReasoning 87.45 86.44 84.83 86.28 86.65
BBEH 47.34 42.86 34.83 39.75 29.08
KOR-Bench 76.00 73.76 73.20 70.56 59.68
ARC-AGI-1 43.81 14.69 22.19 14.06 18.94

*Gemini-2.5-Pro(lowthink)。来源:inclusionAI 模型卡。最后验证:2026-04-24。

代码性能(根据 inclusionAI 模型卡)

基准测试 Ling-2.6-1T DeepSeek-V3.1 Kimi-K2-0905 GPT-5-main Gemini-2.5-Pro*
LiveCodeBench 61.68 48.02 48.95 48.57 45.43
MultiPL-E 77.91 77.68 73.54 76.66 71.48
CodeForces Rating 1901 1582 1574 1120 1675
FullStack Bench 56.55 55.48 54.00 50.92 48.19
ArtifactsBench 59.31 43.29 44.87 41.04 60.28
Aider Code Editing 83.65 88.16 85.34 84.40 89.85

*Gemini-2.5-Pro(lowthink)。来源:inclusionAI 模型卡。最后验证:2026-04-24。注意:模型版本名称(例如“gpt-5-main”、“DeepSeek-V3.1-terminus”)按 inclusionAI 报告,可能不对应于公开发布的版本。

智能体执行基准测试(根据 inclusionAI 模型卡)

Ling-2.6-1T 在智能体特定评估上达到开源 SOTA。并非所有基准测试都公布了确切的竞争对手分数;结果按官方模型卡报告列出。

基准测试 测量内容 Ling-2.6-1T
SWE-bench Verified 现实世界 GitHub 问题解决 开源 SOTA
BFCLv4 复杂多步骤函数/工具调用 开源 SOTA
TAU2-Bench 长周期智能体任务完成 开源 SOTA
Claw-Eval 多轮命令执行 开源 SOTA
PinchBench 复合智能体能力 开源 SOTA
IFBench 复杂指令遵循 56.9%

来源:inclusionAI 模型卡。“开源 SOTA”由 inclusionAI 声称;独立每项分数数据尚不可用。最后验证:2026-04-24。

独立基准测试(Artificial Analysis)

指标 Ling-2.6-1T 备注
AA 智能指数 33.6 优于 495 个模型中的 73%
AA 编码指数 33.0 优于 78% 的模型
AA 智能体指数 48.2 优于 80% 的模型
GPQA Diamond 75.2% 研究生级科学推理
τ²-Bench Telecom 89.8% 对话式智能体任务
IFBench 56.9% 指令遵循
输出速度 67.7 tok/s 通过 Novita AI 在 OpenRouter 上

来源:Artificial Analysis。最后验证:2026-04-24。

如何使用由 Novita AI 支持的 Ling-2.6-1T

选项 1:Playground(无需代码)

novita.ai/models/model-detail/inclusionai-ling-2.6-1t 上立即尝试该模型——无需设置。在集成到你的应用之前快速测试提示时很有用。

选项 2:API(Python)

Ling-2.6-1T 完全兼容 OpenAI。替换你的 Novita API 密钥和模型 ID:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

response = client.chat.completions.create(
    model="inclusionai/ling-2.6-1t",
    messages=[{"role": "user", "content": "Your prompt here"}],
    temperature=0.7,
    top_p=0.95,
)

print(response.choices[0].message.content)

novita.ai/settings 获取你的 API 密钥。该模型还支持流式传输、通过 tool_use 进行函数调用以及结构化输出。

选项 3:第三方工具

由于 Novita AI 兼容 OpenAI,Ling-2.6-1T 可与任何接受自定义 base URL 的工具一起使用——包括 CursorClaude CodeOpenWebUILangChainLlamaIndex。将 base URL 设置为 https://api.novita.ai/v3/openai,模型设置为 inclusionai/ling-2.6-1t

使用场景

Ling-2.6-1T 结合了 1T 参数容量、快速思考范式和 262K 上下文,非常适合以下场景:

  • 编码智能体: 凭借 CodeForces 评级 1901 和强大的 LiveCodeBench 分数,它可以处理竞赛级编程任务。将其与 Novita 的 Agent Sandbox 配对,无需管理基础设施即可实现完全隔离的代码执行。
  • 金融分析: FinanceReasoning 得分 87.45(根据 inclusionAI 模型卡,在其比较组中排名第一),使其适用于自动报告分析、收益摘要和定量研究工作流程。
  • 前端生成: 训练中的混合语法-功能-美学奖励专门针对 UI 代码质量。ArtifactsBench 得分 59.31 在其比较组中排名第二——仅比 Gemini-2.5-Pro(lowthink) 低 0.97 分。
  • 长文档处理: 262,144 个 token 的上下文可处理数百页的文档、完整仓库分析或扩展的法律/研究语料库,单次调用即可完成。
  • 高容量生产 API: 非推理范式意味着可预测的 token 计数和更低的延迟变化——当你每天运行数千个请求时,这一点很重要。

从 DeepSeek V3 或 Kimi K2 迁移?

如果你目前通过其他提供商使用 DeepSeek V3 或 Kimi K2,切换到由 Novita AI 支持的 Ling-2.6-1T 只需更改一行代码——相同的 OpenAI 兼容 API,相同的请求格式。模型 ID 变为 inclusionai/ling-2.6-1t

在编码任务上,Ling-2.6-1T 在 LiveCodeBench 上优于 DeepSeek-V3.1 和 Kimi-K2-0905(61.68 对比 48.02 和 48.95),在数学推理上,它在 AIME26 和 OptMATH 上都领先于两者。如果你的工作负载是推理密集型,但你不想要思维链的冗长,这是比切换到思考模型更清晰的升级路径。

定价

模型 输入($/1M token) 输出($/1M token) 上下文
Ling-2.6-1T(Novita AI) $0.30 $2.50 262,144
DeepSeek V3.2 $0.28 $0.42 128K
Qwen3-235B-A22B $0.455 $1.82 131K
Kimi K2(OpenRouter) $0.57 $2.30 131K

Novita AI 定价通过 novita.ai。竞争对手定价通过 OpenRouter。最后验证:2026-04-24。

Ling-2.6-1T 的输出定价($2.50/M)高于 DeepSeek V3.2——权衡是在推理和编码任务上获得明显更强的基准性能。如果每次调用的 token 成本是主要限制,Ling-2.6-flash(104B 参数,7.4B 激活)是更便宜的兄弟模型,也由 Novita AI 独家提供。

免费层: Ling-2.6-1T 可通过 OpenRouter 上的 inclusionai/ling-2.6-1t:free 端点免费使用,由 Novita AI 独家提供。此免费窗口有时间限制——在 openrouter.ai/inclusionai/ling-2.6-1t:free 查看当前可用性。

结论

总结: Ling-2.6-1T 目前是竞争性数学和编码基准测试中最强的开放权重非推理模型,也是如果你需要 262K 上下文而不为思维链冗长付费的最佳开源选择。它不是每 token 最便宜的选项,但对于思考模型会膨胀账单的复杂推理任务,它是目前最实用的前沿开源替代方案。

由 Novita AI 独家支持——唯一在 OpenRouter 上同时提供 Ling-2.6-1T 和 Ling-2.6-flash 的提供商——你可以获得稳定的推理端点、99.9% 的正常运行时间和兼容 OpenAI 的 API,而无需自行管理至少 32 个 GPU 的部署。

开始使用 Ling-2.6-1T

常见问题

什么是 Ling-2.6-1T?

Ling-2.6-1T 是蚂蚁集团(inclusionAI)开发的 1 万亿参数混合专家语言模型。每个 token 激活约 50B 参数,支持 262,144 个 token 的上下文窗口,被设计为快速思考、非推理模型——强大的基准性能,无需思维链开销。MIT 许可,完全开放权重。

如何通过 API 访问 Ling-2.6-1T?

在任何兼容 OpenAI 的客户端中设置 base_url="https://api.novita.ai/v3/openai"model="inclusionai/ling-2.6-1t"。在 novita.ai/settings 获取你的 API 密钥。它也可以通过 OpenRouter 使用相同的模型 ID 访问。

Ling-2.6-1T 与 DeepSeek V3 相比如何?

在自我报告的基准测试(inclusionAI 模型卡)上,Ling-2.6-1T 在 AIME26(70.42 对比 55.21)、LiveCodeBench(61.68 对比 48.02)和 ARC-AGI-1(43.81 对比 14.69)上优于 DeepSeek-V3.1。DeepSeek V3.2 在 Artificial Analysis 智能指数上得分更高(42 对比 34),但 Ling-2.6-1T 提供更大的上下文窗口(262K 对比 128K),定价相似($0.30/M 输入)。

Ling-2.6-1T 的上下文窗口是多少?

262,144 个 token(通过 YaRN 旋转位置缩放从原生 128K 扩展)。最大输出长度为 32,768 个 token。

Ling-2.6-1T 是免费使用的吗?

是的,暂时免费。OpenRouter 上的 inclusionai/ling-2.6-1t:free 端点由 Novita AI 独家提供。免费窗口有时间限制。通过 Novita AI 的付费层为输入 $0.30/M token,输出 $2.50/M token。

推荐文章