Novita AI版 Qwen3-Next-80B-A3B:次世代高スパースMoEモデル

Novita AI版 Qwen3-Next-80B-A3B:次世代高スパースMoEモデル

大規模言語モデルには常に根本的なトレードオフが存在してきました:パラメータ数が多いほど性能は向上するものの、コストが高くなり推論速度も低下するという問題です。Qwen3-Next-80B-A3Bはこの常識を完全に覆します。

総パラメータ数800億に対し、推論時にアクティブになるパラメータはわずか30億のみというこの超スパースMoEモデルは、学習リソースを1/10以下に抑えながらQwen3-32Bを上回る性能を発揮します。ハイブリッドアテンション、1:50のMoEスパース性、マルチトークン予測を搭載した革新的なアーキテクチャにより、長文コンテキストでの推論速度は10倍以上高速です。

Novita AIは現在、Qwen3-Nextシリーズの2つのバリアントを提供しています:

両モデルはNovita AIのプラットフォームですぐに利用可能で、playgroundでの実験でもAPI経由の統合でも、インフラのセットアップは不要です。

Qwen3-Nextシリーズ概要

Qwen3-Nextシリーズは、極めて長いコンテキスト長と大規模パラメータの効率性に最適化された次世代基盤モデルです。この画期的なシリーズは、計算コストを最小限に抑えつつ性能を最大化するためのアーキテクチャ革新を導入しています:

Qwen3-Nextシリーズのアーキテクチャ図

出典:Qwen3-Next公式ブログ

  • ハイブリッドアテンション:標準アテンションの代わりにゲート付きデルタネットゲート付きアテンションを組み合わせることで、効率的なコンテキストモデリングを実現します。
  • 高スパースMoE:MoEレイヤーで1:50という極めて低いアクティベーション比率を実現し、トークンあたりのFLOPsを大幅に削減しながらモデルの容量を維持します。
  • マルチトークン予測(MTP):事前学習モデルの性能を向上させ、推論を高速化します。
  • その他の最適化ゼロ中心・重み減衰付きレイヤーノームゲート付きアテンションなどの技術を含み、頑健な学習を実現するための安定化強化が施されています。

このアーキテクチャを基に構築されたQwen3-Next-80B-A3Bは、総パラメータ数800億のうちアクティブなのは30億のみという、極めて高いスパース性と効率性を実現しています。

この極めて高い効率性にもかかわらず、学習コストはQwen3-32Bの1/10未満に抑えられつつ、下流タスクでQwen3-32Bを上回る性能を発揮します。さらに、32Kトークン以上の長文コンテキストを処理する場合、Qwen3-32B比で推論スループットが10倍以上高い値を示します。

Qwen3-Next-80B-A3Bの性能ベンチマーク

Instructモデルの性能

Qwen3-Next-80B-A3Bの性能ベンチマーク結果

出典:Qwen3-Next公式ブログ

Thinkingモデルの性能

Qwen3-Next-80B-A3Bの性能ベンチマーク結果

出典:Qwen3-Next公式ブログ

Novita AIでQwen3-Next-80B-A3Bを利用する方法

極めて高いスパース性による前例のない効率性を誇る革新的なQwen3-Next-80B-A3Bモデルに、Novita AIのインフラを通じてアクセスできます。Novita AIのプラットフォームはデプロイの複雑さを解消し、この次世代アーキテクチャの潜在能力を最大限に引き出します。

Playgroundの利用(コード不要)

  • 即時アクセス:アカウント登録後、Novita AIのWebインターフェースからQwen3-Next-80B-A3Bを数秒で利用開始でき、インフラのセットアップは一切不要です。
  • インタラクティブなテスト:Novita AIの直感的なPlaygroundインターフェースを通じて、モデルのハイブリッドアテンション機構とマルチトークン予測機能を体験できます。
  • 主要な設定オプション
    • max_tokens:Qwen3-Nextの優れた長文コンテキスト能力をテストできます
    • temperature & top_p:応答の創造性と多様性を微調整できます
    • システムプロンプト:モデルの動作を即座にカスタマイズできます
    • ファンクションコーリング:Playground上でツール連携を直接テストできます
  • モデル比較:Qwen3-Next-80B-A3BのInstructバリアントとThinkingバリアントを切り替えたり、Novita AIで提供されている他のモデルと比較したりして、ユースケースに応じた性能を評価できます。

API経由の統合(開発者向け)

Novita AIのREST APIを介してQwen3-Next-80B-A3Bをアプリケーションに接続することで、インフラの管理不要で長文コンテキストにおける10倍の推論スループットのメリットを享受できます。

オプション1:直接API統合(Python例) Novita AIのOpenAI互換エンドポイントを通じて、Qwen3-Nextの効率的なアーキテクチャにアクセスできます:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="your_api_key_here",
)

model = "qwen/qwen3-next-80b-a3b-instruct"
stream = True  # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
        "top_k": top_k,
        "repetition_penalty": repetition_penalty,
        "min_p": min_p
    }
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

プラットフォームの機能

  • OpenAI互換エンドポイント:シームレスな統合のための/v3/openaiエンドポイント
  • 柔軟なパラメータ:temperature、top-p、ペナルティなどで生成を制御可能
  • ストリーミング対応:ストリーミング応答とバッチ応答を選択可能
  • モデル選択:InstructバリアントとThinkingバリアントの両方にアクセス可能

オプション2:OpenAI Agents SDKを用いたマルチエージェントワークフロー Novita AIのインフラを活用してQwen3-Nextの効率性を活かしたエージェントシステムを構築できます:

  • OpenAI Agents SDK互換:Novitaのエンドポイントと組み合わせてOpenAI Agents SDKをエージェントワークフローに利用可能
  • エージェント機能:極めて高いスパース性と長文コンテキスト性能のメリットを得られるシステムを設計可能
  • シンプルな統合:SDKのエンドポイントをhttps://api.novita.ai/v3/openaiに設定するだけで利用可能

サードパーティ統合

まとめ

Qwen3-Next-80B-A3Bは、単なる高性能モデルというだけでなく、アーキテクチャの革新によってエンタープライズ規模の機能をエンタープライズ規模のコストなしで実現できることを証明するモデルです。

現在Novita AIで提供中のInstructバリアントとThinkingバリアントは、すぐに利用可能です。Novita AIのPlayground、API、サードパーティ統合を介して、30億パラメータモデルと同等の速度とコストで800億パラメータの知能にアクセスできます。

今すぐNovita AIのQwen3-Next-80B-A3Bで、効率的AIの未来を体験してください。

Novita AIは、開発者がAIアプリケーションの構築・スケーリングのために使いやすいAPIと手頃で信頼性の高いGPUインフラを提供する、先進のAIクラウドプラットフォームです。