Novita AI 上線 Qwen3-Next-80B-A3B:次世代超高稀疏度 MoE 模型

Novita AI 上線 Qwen3-Next-80B-A3B:次世代超高稀疏度 MoE 模型

大型語言模型長期面臨一個根本取捨:參數越多表現越好,但成本也越高、推論速度越慢。Qwen3-Next-80B-A3B 完全打破了這項限制。

這款超高稀疏度 MoE 模型總共擁有 800 億參數,推理時僅啟用 30 億活躍參數,表現優於 Qwen3-32B,且訓練資源消耗不到後者的 1/10。其革命性架構結合了混合注意力機制(Hybrid Attention)、1:50 的 MoE 稀疏度以及多標記預測(Multi-Token Prediction),在長上下文場景下的推論速度提升超過 10 倍。

Novita AI 現已上線 Qwen3-Next 系列的兩個版本:

兩個模型都可以透過 Novita AI 平台直接使用,無論是在 playground 中進行實驗,還是透過 API 整合,都无需額外部署基礎設施。

Qwen3-Next 系列

Qwen3-Next 系列是次世代基礎模型,針對極長上下文與大規模參數效率進行優化。這個開創性的系列引入了多項架構創新,旨在最大化性能的同時最小化運算成本:

Qwen3-Next 系列架構圖

來源:Qwen3-Next 官方部落格

  • 混合注意力機制(Hybrid Attention):以**門控 DeltaNet(Gated DeltaNet)門控注意力(Gated Attention)**的組合取代標準注意力機制,實現高效的上下文建模。
  • 超高稀疏度 MoE:在 MoE 層中實現 1:50 的極低啟動比例,在保留模型容量的同時大幅降低每個 token 的運算量(FLOPs)。
  • 多標記預測(Multi-Token Prediction, MTP):提升預訓練模型性能,同時加速推論速度。
  • 其他優化:包含零中心化且帶權重衰減的層歸一化(zero-centered and weight-decayed layernorm)、門控注意力等穩定性增強技術,確保訓練穩定性。

基於此架構,Qwen3-Next-80B-A3B 總共擁有 800 億參數,僅有 30 億處於活躍狀態,實現了極致的稀疏度與效率。

儘管效率極高,它在下游任務中的表現仍優於 Qwen3-32B,且訓練成本不到後者的 1/10。此外,在處理超過 32K token 的長上下文時,其推論吞吐量比 Qwen3-32B 高出 10 倍以上

Qwen3-Next-80B-A3B 性能基準測試

Instruct 版本性能

Qwen3-Next-80B-A3B 性能基準測試結果

來源:Qwen3-Next 官方部落格

Thinking 版本性能

Qwen3-Next-80B-A3B 性能基準測試結果

來源:Qwen3-Next 官方部落格

如何在 Novita AI 上使用 Qwen3-Next-80B-A3B

透過 Novita AI 的基礎設施使用這款革命性的 Qwen3-Next-80B-A3B 模型,充分利用其極致稀疏度帶來的超高效能。Novita AI 平台消除了部署複雜度,可充分發揮這款次世代架構的全部潛力。

使用 Playground(无需編程)

即刻使用:註冊後即可透過 Novita AI 網頁介面在幾秒內開始體驗 Qwen3-Next-80B-A3B,无需額外部署基礎設施。

互動測試:透過 Novita AI 直觀的 playground 介面,體驗模型的混合注意力機制與多標記預測能力。

關鍵配置選項

  • max_tokens:測試 Qwen3-Next 優異的長上下文能力
  • temperature & top_p:微調創造力與回應的多樣性
  • System Prompt:即時自定義模型行為
  • Function Calling:直接在 playground 中測試工具整合能力

模型對比:切換 Qwen3-Next-80B-A3B 的 Instruct 與 Thinking 版本,或與 Novita AI 上的其他模型進行對比,評估其對您使用場景的性能表現。

透過 API 整合(開發者適用)

透過 Novita AI 的 REST API 將 Qwen3-Next-80B-A3B 連接至您的應用程式,無需管理基礎設施即可享受模型在長上下文場景下 10 倍推論吞吐量的優勢。

選項 1:直接 API 整合(Python 範例)

透過 Novita AI 相容 OpenAI 的端點使用 Qwen3-Next 的高效架構:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="your_api_key_here",
)

model = "qwen/qwen3-next-80b-a3b-instruct"
stream = True  # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
        "top_k": top_k,
        "repetition_penalty": repetition_penalty,
        "min_p": min_p
    }
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

平台特性:

  • 相容 OpenAI 的端點/v3/openai 實現無縫整合
  • 彈性參數:透過 temperature、top-p、懲罰係數等參數控制生成結果
  • 串流支援:可選擇串流或批次回應
  • 模型選擇:支援存取 Instruct 與 Thinking 兩個版本

選項 2:使用 OpenAI Agents SDK 構建多代理工作流

透過 Novita AI 的基礎設施構建能發揮 Qwen3-Next 效率的代理系統:

  • 相容 OpenAI Agents SDK:可搭配 Novita 的端點使用 OpenAI Agents SDK 構建代理工作流
  • 代理能力:可設計能受益於極致稀疏度與長上下文性能的系統
  • 簡單整合:將 SDK 指向 https://api.novita.ai/v3/openai 即可

第三方整合

總結

Qwen3-Next-80B-A3B 不僅是一款高效模型,更證明了架構創新可以實現企業級能力,卻无需企業級的成本。

两款模型現已於 Novita AI 上線,Instruct 版本Thinking 版本均可立即使用。透過 Novita AI 的 playground、API 或第三方整合,即可以 30 億參數模型的速度與成本,使用 800 億參數的智能能力。

立即透過 Novita AI 體驗 Qwen3-Next-80B-A3B,感受高效 AI 的未來。

Novita AI 是領先的 AI 雲端平台,為開發者提供易於使用的 API 與高性價比、可靠的 GPU 基礎設施,協助構建與擴展 AI 應用程式。