Novita AI의 Qwen3-Next-80B-A3B: 차세대 고희소 MoE 모델

Qwen3-Next 시리즈 소개
Qwen3-Next-80B-A3B 성능 벤치마크
Novita AI에서 Qwen3-Next-80B-A3B 사용 방법
결론

대규모 언어 모델은 항상 근본적인 트레이드오프에 직면해 왔습니다: 파라미터가 많을수록 성능이 좋아지지만, 비용이 더 높아지고 추론 속도가 느려집니다. Qwen3-Next-80B-A3B는 이 규칙을 완전히 깨부수는 모델입니다.

총 800억 개의 파라미터를 보유하고 있지만 추론 시 활성화되는 파라미터는 단 30억 개에 불과한 이 초희소 MoE 모델은 Qwen3-32B보다 뛰어난 성능을 보이면서도 학습에 사용되는 리소스는 1/10도 채 되지 않습니다. 하이브리드 어텐션(Hybrid Attention), 1:50 MoE 희소성, 멀티토큰 예측(Multi-Token Prediction)을 특징으로 하는 혁신적인 아키텍처를 통해 긴 컨텍스트에서 10배 이상 빠른 추론 성능을 제공합니다.

Novita AI는 현재 Qwen3-Next 시리즈의 두 가지 변형 모델을 제공합니다:

qwen/qwen3-next-80b-a3b-instruct: 입력 토큰 100만 개당 $0.15, 출력 토큰 100만 개당 $1.5
qwen/qwen3-next-80b-a3b-thinking: 입력 토큰 100만 개당 $0.15, 출력 토큰 100만 개당 $1.5

두 모델 모두 Novita AI 플랫폼을 통해 즉시 사용할 수 있으며, 플레이그라운드에서 실험하거나 API를 통해 연동하든 인프라 설정이 필요 없습니다.

Qwen3-Next 시리즈 소개

Qwen3-Next 시리즈는 극한의 컨텍스트 길이와 대규모 파라미터 효율성에 최적화된 차세대 기반 모델입니다. 이 파괴적인 시리즈는 계산 비용은 최소화하면서 성능은 극대화하도록 설계된 아키텍처 혁신을 도입했습니다:

출처: Qwen3-Next 공식 블로그

하이브리드 어텐션(Hybrid Attention): 표준 어텐션을 **게이티드 델타넷(Gated DeltaNet)**과 **게이티드 어텐션(Gated Attention)**의 조합으로 대체하여 효율적인 컨텍스트 모델링을 가능하게 합니다.
고희소 MoE(High-Sparsity MoE): MoE 레이어에서 극한의 1:50 저활성화 비율을 달성하여 모델 용량을 유지하면서 토큰당 부동소수점 연산 횟수(FLOPs)를 대폭 줄입니다.
멀티토큰 예측(Multi-Token Prediction, MTP): 사전 학습 모델 성능을 높이고 추론 속도를 가속화합니다.
기타 최적화: 제로 중심 및 가중치 감쇠 레이어 정규화(zero-centered and weight-decayed layernorm), 게이티드 어텐션(Gated Attention) 등 안정적인 학습을 위한 다양한 강화 기법을 포함합니다.

이 아키텍처를 기반으로 하는 Qwen3-Next-80B-A3B는 총 800억 개의 파라미터 중 단 30억 개만 활성화되어 극한의 희소성과 효율성을 달성합니다.

극도로 효율적임에도 불구하고 하위 작업(downstream tasks)에서 Qwen3-32B보다 뛰어난 성능을 보이면서 학습 비용은 1/10도 채 되지 않습니다. 또한 32K 토큰 이상의 긴 컨텍스트를 처리할 때 Qwen3-32B보다 **10배 이상 높은 추론 처리량(inference throughput)**을 제공합니다.

Qwen3-Next-80B-A3B 성능 벤치마크

Instruct 모델 성능

출처: Qwen3-Next 공식 블로그

Thinking 모델 성능

출처: Qwen3-Next 공식 블로그

Novita AI에서 Qwen3-Next-80B-A3B 사용 방법

Novita AI의 인프라를 통해 혁신적인 Qwen3-Next-80B-A3B 모델에 접근할 수 있습니다—극한의 희소성을 활용하여 전례 없는 효율성을 제공합니다. Novita AI 플랫폼은 배포 복잡성을 제거하면서 이 차세대 아키텍처의 모든 잠재력을 발휘할 수 있게 합니다.

플레이그라운드 사용 (코딩 불필요)

즉시 접근: 가입 후 Novita AI 웹 인터페이스를 통해 몇 초 만에 Qwen3-Next-80B-A3B 모델을 실험해볼 수 있습니다. 인프라 설정이 전혀 필요 없습니다.

인터랙티브 테스트: Novita AI의 직관적인 플레이그라운드 인터페이스를 통해 모델의 하이브리드 어텐션 메커니즘과 멀티토큰 예측 기능을 직접 경험해보세요.

주요 설정 옵션:

max_tokens: Qwen3-Next의 뛰어난 긴 컨텍스트 기능 테스트
temperature & top_p: 창의성과 응답 다양성 미세 조정
System Prompt: 모델 동작 즉시 커스터마이징
Function Calling: 플레이그라운드에서 직접 도구 연동 테스트

모델 비교: Qwen3-Next-80B-A3B-Instruct와 Thinking 변형 모델 간을 전환하거나, Novita AI에서 제공하는 다른 모델과 비교하여 사용 사례에 맞는 성능을 평가해보세요.

API 연동 (개발자용)

Novita AI의 REST API를 통해 Qwen3-Next-80B-A3B를 애플리케이션에 연동할 수 있습니다—인프라를 관리할 필요 없이 긴 컨텍스트에서 10배 높은 추론 처리량의 이점을 누릴 수 있습니다.

옵션 1: 직접 API 연동 (Python 예제)

Novita AI의 OpenAI 호환 엔드포인트를 통해 Qwen3-Next의 효율적인 아키텍처에 접근할 수 있습니다:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="your_api_key_here",
)

model = "qwen/qwen3-next-80b-a3b-instruct"
stream = True  # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
        "top_k": top_k,
        "repetition_penalty": repetition_penalty,
        "min_p": min_p
    }
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

플랫폼 기능:

OpenAI 호환 엔드포인트: /v3/openai 엔드포인트로 원활한 연동 지원
유연한 파라미터: temperature, top-p, 패널티 등 다양한 파라미터로 생성 결과 제어 가능
스트리밍 지원: 스트리밍 또는 배치 응답 중 선택 가능
모델 선택: Instruct 및 Thinking 변형 모델 모두 접근 가능

옵션 2: OpenAI Agents SDK를 활용한 멀티에이전트 워크플로우

Novita AI의 인프라를 통해 Qwen3-Next의 효율성을 활용하는 에이전트 시스템을 구축할 수 있습니다:

OpenAI Agents SDK 호환: OpenAI Agents SDK를 Novita의 엔드포인트와 함께 사용하여 에이전트 워크플로우 구축 가능
에이전트 기능: 극한의 희소성과 긴 컨텍스트 성능의 이점을 누리는 시스템 설계 가능
간편한 연동: SDK를 https://api.novita.ai/v3/openai로 지정하여 빠르게 연동

서드파티 연동

프레임워크 연동: LangChain, Dify, Langflow를 통해 Qwen3-Next-80B-A3B 접근 가능
개발 도구: Trae, Claude Code, Qwen Code, Cline, Cursor 등 OpenAI 표준 도구와 호환
허깅페이스 생태계: Novita AI의 API를 통해 허깅페이스 스페이스 및 파이프라인에 연동 가능

결론

Qwen3-Next-80B-A3B는 단순히 또 하나의 효율적인 모델을 넘어, 아키텍처 혁신이 엔터프라이즈급 성능을 엔터프라이즈급 비용 없이 제공할 수 있음을 증명하는 모델입니다.

현재 Novita AI에서 instruct 및 thinking 변형 모델을 모두 즉시 사용할 수 있습니다. Novita AI의 플레이그라운드, API, 서드파티 연동을 통해 30억 개 파라미터 모델의 속도와 비용으로 800억 개 파라미터의 지능을 활용해보세요.

지금 Novita AI의 Qwen3-Next-80B-A3B로 효율적인 AI의 미래를 경험해보세요.

Novita AI는 개발자가 AI 애플리케이션을 구축하고 확장할 수 있도록 사용하기 쉬운 API와 저렴하고 안정적인 GPU 인프라를 제공하는 선도적인 AI 클라우드 플랫폼입니다.

Novita AI의 Qwen3-Next-80B-A3B: 차세대 고희소 MoE 모델

Qwen3-Next 시리즈 소개