大语言模型一直面临一个根本性权衡:参数越多性能越好,但成本也越高、推理速度越慢。Qwen3-Next-80B-A3B 完全打破了这一规则。
该模型总参数量达 800 亿,推理时仅激活 30 亿参数,这款超稀疏 MoE 模型性能超越 Qwen3-32B,训练资源消耗却不足后者的 1/10。其革命性的架构——包含混合注意力机制、1:50 的 MoE 稀疏度、多令牌预测(MTP)——在长上下文场景下推理速度提升超过 10 倍。
Novita AI 现已上线 Qwen3-Next 系列的两款变体:
- qwen/qwen3-next-80b-a3b-instruct:$0.15/百万输入令牌,$1.5/百万输出令牌
- qwen/qwen3-next-80b-a3b-thinking:$0.15/百万输入令牌,$1.5/百万输出令牌
两款模型均可在 Novita AI 平台直接使用,无论你是在 Playground 中做实验,还是通过 API 集成,都无需自行搭建基础设施。
Qwen3-Next 系列
Qwen3-Next 系列是下一代基础模型,针对超长上下文和大规模参数效率进行了优化。这个开创性的系列引入了多项架构创新,旨在最大化性能的同时最小化计算成本:

- 混合注意力机制:用门控 DeltaNet与门控注意力的组合替代标准注意力,实现高效的上下文建模。
- 高稀疏度 MoE:在 MoE 层实现 1:50 的极端低激活比例——在保留模型容量的同时大幅降低每令牌的计算量(FLOPs)。
- 多令牌预测(MTP):提升预训练模型性能,同时加速推理速度。
- 其他优化:包含零中心化且带权重衰减的层归一化、门控注意力等稳定增强技术,保障训练鲁棒性。
基于该架构,Qwen3-Next-80B-A3B 总参数量达 800 亿,仅 30 亿参数激活,实现了极致的稀疏度和效率。
尽管极致高效,它在下游任务上的性能仍超越 Qwen3-32B,训练成本却不足后者的 1/10。此外,在处理超过 32K 令牌的长上下文时,推理吞吐量比 Qwen3-32B 高 10 倍以上。
Qwen3-Next-80B-A3B 性能基准测试
指令模型性能

思维链模型性能

如何在 Novita AI 上使用 Qwen3-Next-80B-A3B
通过 Novita AI 的基础设施使用这款革命性的 Qwen3-Next-80B-A3B 模型,借助其极致稀疏度实现前所未有的效率。Novita AI 平台消除了部署复杂度,同时充分发挥了这款下一代架构的全部潜力。
使用 Playground(无需编码)
即时访问:注册后即可通过 Novita AI 的网页界面在数秒内开始试用 Qwen3-Next-80B-A3B,无需自行搭建基础设施。
交互式测试:通过 Novita AI 直观的 Playground 界面,体验模型的混合注意力机制和多令牌预测能力。
核心配置选项:
- max_tokens:测试 Qwen3-Next 卓越的长上下文能力
- temperature & top_p:微调创造力和回复多样性
- System Prompt:即时自定义模型行为
- Function Calling:直接在 Playground 中测试工具集成能力
模型对比:可在 Qwen3-Next-80B-A3B 的指令和思维链变体之间切换,或与 Novita AI 上的其他模型对比,评估其在你使用场景下的性能。
通过 API 集成(面向开发者)
通过 Novita AI 的 REST API 将 Qwen3-Next-80B-A3B 接入你的应用,无需管理基础设施即可享受模型在长上下文场景下 10 倍的推理吞吐量优势。
选项 1:直接 API 集成(Python 示例)
通过 Novita AI 兼容 OpenAI 的端点使用 Qwen3-Next 的高效架构:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="your_api_key_here",
)
model = "qwen/qwen3-next-80b-a3b-instruct"
stream = True # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
平台特性:
- OpenAI 兼容端点:
/v3/openai端点,无缝集成 - 灵活参数:支持通过 temperature、top-p、惩罚项等参数控制生成效果
- 流式支持:支持流式或批量响应两种模式
- 模型选择:可同时使用指令和思维链两种变体
选项 2:使用 OpenAI Agents SDK 构建多智能体工作流
基于 Novita AI 的基础设施构建智能体系统,充分利用 Qwen3-Next 的效率优势:
- OpenAI Agents SDK 兼容:可使用 OpenAI Agents SDK 搭配 Novita 的端点构建智能体工作流
- 智能体能力:设计可受益于极致稀疏度和长上下文性能的智能体系统
- 简单集成:只需将 SDK 的端点指向
https://api.novita.ai/v3/openai即可
第三方集成
- 框架集成:可通过 LangChain、Dify 和 Langflow 接入 Qwen3-Next-80B-A3B
- 开发工具:兼容 OpenAI 标准工具,包括 Trae、Claude Code、Qwen Code、Cline 和 Cursor
- Hugging Face 生态:可通过 Novita AI 的 API 在 Hugging Face Spaces 和流水线中集成使用
总结
Qwen3-Next-80B-A3B 不仅仅是一款高效模型,它证明了架构创新可以在不付出企业级成本的前提下,提供企业级的能力。
该模型现已于 Novita AI 上线,指令和思维链两款变体均可立即使用。通过 Novita AI 的 Playground、API 或第三方集成,即可以 30 亿参数模型的速度和成本,使用 800 亿参数的智能能力。
立即通过 Novita AI 体验 Qwen3-Next-80B-A3B,感受高效 AI 的未来。
Novita AI 是领先的 AI 云平台,为开发者提供易用的 API 和实惠、可靠的 GPU 基础设施,助力构建和扩展 AI 应用。
