Novita AI 上的 Qwen3-Next-80B-A3B：下一代高稀疏度 MoE 模型

Qwen3-Next 系列
Qwen3-Next-80B-A3B 性能基准测试
如何在 Novita AI 上使用 Qwen3-Next-80B-A3B
总结

大语言模型一直面临一个根本性权衡：参数越多性能越好，但成本也越高、推理速度越慢。Qwen3-Next-80B-A3B 完全打破了这一规则。

该模型总参数量达 800 亿，推理时仅激活 30 亿参数，这款超稀疏 MoE 模型性能超越 Qwen3-32B，训练资源消耗却不足后者的 1/10。其革命性的架构——包含混合注意力机制、1:50 的 MoE 稀疏度、多令牌预测（MTP）——在长上下文场景下推理速度提升超过 10 倍。

Novita AI 现已上线 Qwen3-Next 系列的两款变体：

qwen/qwen3-next-80b-a3b-instruct：$0.15/百万输入令牌，$1.5/百万输出令牌
qwen/qwen3-next-80b-a3b-thinking：$0.15/百万输入令牌，$1.5/百万输出令牌

两款模型均可在 Novita AI 平台直接使用，无论你是在 Playground 中做实验，还是通过 API 集成，都无需自行搭建基础设施。

Qwen3-Next 系列

Qwen3-Next 系列是下一代基础模型，针对超长上下文和大规模参数效率进行了优化。这个开创性的系列引入了多项架构创新，旨在最大化性能的同时最小化计算成本：

来源：Qwen3-Next 官方博客

混合注意力机制：用门控 DeltaNet与门控注意力的组合替代标准注意力，实现高效的上下文建模。
高稀疏度 MoE：在 MoE 层实现 1:50 的极端低激活比例——在保留模型容量的同时大幅降低每令牌的计算量（FLOPs）。
多令牌预测（MTP）：提升预训练模型性能，同时加速推理速度。
其他优化：包含零中心化且带权重衰减的层归一化、门控注意力等稳定增强技术，保障训练鲁棒性。

基于该架构，Qwen3-Next-80B-A3B 总参数量达 800 亿，仅 30 亿参数激活，实现了极致的稀疏度和效率。

尽管极致高效，它在下游任务上的性能仍超越 Qwen3-32B，训练成本却不足后者的 1/10。此外，在处理超过 32K 令牌的长上下文时，推理吞吐量比 Qwen3-32B 高 10 倍以上。

Qwen3-Next-80B-A3B 性能基准测试

指令模型性能

来源：Qwen3-Next 官方博客

思维链模型性能

来源：Qwen3-Next 官方博客

如何在 Novita AI 上使用 Qwen3-Next-80B-A3B

通过 Novita AI 的基础设施使用这款革命性的 Qwen3-Next-80B-A3B 模型，借助其极致稀疏度实现前所未有的效率。Novita AI 平台消除了部署复杂度，同时充分发挥了这款下一代架构的全部潜力。

使用 Playground（无需编码）

即时访问：注册后即可通过 Novita AI 的网页界面在数秒内开始试用 Qwen3-Next-80B-A3B，无需自行搭建基础设施。

交互式测试：通过 Novita AI 直观的 Playground 界面，体验模型的混合注意力机制和多令牌预测能力。

核心配置选项：

max_tokens：测试 Qwen3-Next 卓越的长上下文能力
temperature & top_p：微调创造力和回复多样性
System Prompt：即时自定义模型行为
Function Calling：直接在 Playground 中测试工具集成能力

模型对比：可在 Qwen3-Next-80B-A3B 的指令和思维链变体之间切换，或与 Novita AI 上的其他模型对比，评估其在你使用场景下的性能。

通过 API 集成（面向开发者）

通过 Novita AI 的 REST API 将 Qwen3-Next-80B-A3B 接入你的应用，无需管理基础设施即可享受模型在长上下文场景下 10 倍的推理吞吐量优势。

选项 1：直接 API 集成（Python 示例）

通过 Novita AI 兼容 OpenAI 的端点使用 Qwen3-Next 的高效架构：

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="your_api_key_here",
)

model = "qwen/qwen3-next-80b-a3b-instruct"
stream = True  # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
        "top_k": top_k,
        "repetition_penalty": repetition_penalty,
        "min_p": min_p
    }
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

平台特性：

OpenAI 兼容端点：/v3/openai 端点，无缝集成
灵活参数：支持通过 temperature、top-p、惩罚项等参数控制生成效果
流式支持：支持流式或批量响应两种模式
模型选择：可同时使用指令和思维链两种变体

选项 2：使用 OpenAI Agents SDK 构建多智能体工作流

基于 Novita AI 的基础设施构建智能体系统，充分利用 Qwen3-Next 的效率优势：

OpenAI Agents SDK 兼容：可使用 OpenAI Agents SDK 搭配 Novita 的端点构建智能体工作流
智能体能力：设计可受益于极致稀疏度和长上下文性能的智能体系统
简单集成：只需将 SDK 的端点指向 https://api.novita.ai/v3/openai 即可

第三方集成

框架集成：可通过 LangChain、Dify 和 Langflow 接入 Qwen3-Next-80B-A3B
开发工具：兼容 OpenAI 标准工具，包括 Trae、Claude Code、Qwen Code、Cline 和 Cursor
Hugging Face 生态：可通过 Novita AI 的 API 在 Hugging Face Spaces 和流水线中集成使用

总结

Qwen3-Next-80B-A3B 不仅仅是一款高效模型，它证明了架构创新可以在不付出企业级成本的前提下，提供企业级的能力。

该模型现已于 Novita AI 上线，指令和思维链两款变体均可立即使用。通过 Novita AI 的 Playground、API 或第三方集成，即可以 30 亿参数模型的速度和成本，使用 800 亿参数的智能能力。

立即通过 Novita AI 体验 Qwen3-Next-80B-A3B，感受高效 AI 的未来。

Novita AI 是领先的 AI 云平台，为开发者提供易用的 API 和实惠、可靠的 GPU 基础设施，助力构建和扩展 AI 应用。

Novita AI 上的 Qwen3-Next-80B-A3B：下一代高稀疏度 MoE 模型

Qwen3-Next 系列