Qwen3-Next-80B-A3B na Novita AI: Modelo MoE de próxima geração com alta esparsidade

Índice

A Série Qwen3-Next
Benchmarks de Desempenho do Qwen3-Next-80B-A3B
Como Acessar o Qwen3-Next-80B-A3B na Novita AI
Conclusão

Os modelos de linguagem grandes sempre enfrentaram uma troca fundamental: mais parâmetros significam melhor desempenho, mas também custos mais altos e inferência mais lenta. O Qwen3-Next-80B-A3B quebra essa regra completamente.

Com 80 bilhões de parâmetros totais, mas apenas 3 bilhões ativos durante a inferência, esse modelo MoE ultra-esparso supera o Qwen3-32B usando menos de 1/10 dos recursos de treinamento. Sua arquitetura revolucionária — com Atenção Híbrida, esparsidade MoE de 1:50 e Previsão de Múltiplos Tokens — oferece mais de 10x mais velocidade de inferência em contextos longos.

A Novita AI agora oferece duas variantes da série Qwen3-Next:

qwen/qwen3-next-80b-a3b-instruct: $0.15/milhão de tokens de entrada, $1.5/milhão de tokens de saída
qwen/qwen3-next-80b-a3b-thinking:$0.15/milhão de tokens de entrada, $1.5/milhão de tokens de saída

Ambos os modelos estão prontos para uso na plataforma da Novita AI, seja para experimentar no playground ou integrar via API — nenhuma configuração de infraestrutura é necessária.

A Série Qwen3-Next

A série Qwen3-Next representa modelos de base de próxima geração, otimizados para comprimento de contexto extremo e eficiência de parâmetros em larga escala. Esta série inovadora apresenta inovações arquitetônicas projetadas para maximizar o desempenho enquanto minimiza o custo computacional:

Fonte: Blog Oficial do Qwen3-Next

Atenção Híbrida: Substitui a atenção padrão pela combinação de Gated DeltaNet e Gated Attention, permitindo modelagem de contexto eficiente.
MoE de Alta Esparsidade: Atinge uma taxa de ativação extremamente baixa de 1:50 nas camadas MoE — reduzindo drasticamente os FLOPs por token enquanto preserva a capacidade do modelo.
Previsão de Múltiplos Tokens (MTP): Aumenta o desempenho do modelo no pré-treinamento e acelera a inferência.
Outras Otimizações: Inclui técnicas como layernorm centralizada em zero e com decaimento de peso, Gated Attention e outras melhorias de estabilização para treinamento robusto.

Construído sobre essa arquitetura, o Qwen3-Next-80B-A3B possui 80B de parâmetros totais com apenas 3B ativos — atingindo esparsidade e eficiência extremas.

Apesar de sua ultra eficiência, ele supera o Qwen3-32B em tarefas downstream enquanto requer menos de 1/10 do custo de treinamento. Além disso, oferece mais de 10x mais throughput de inferência que o Qwen3-32B ao lidar com contextos maiores que 32K tokens.

Benchmarks de Desempenho do Qwen3-Next-80B-A3B

Desempenho do Modelo Instruct

Fonte: Blog Oficial do Qwen3-Next

Desempenho do Modelo Thinking

Fonte: Blog Oficial do Qwen3-Next

Como Acessar o Qwen3-Next-80B-A3B na Novita AI

Acesse o modelo revolucionário Qwen3-Next-80B-A3B por meio da infraestrutura da Novita AI — aproveitando a esparsidade extrema para uma eficiência sem precedentes. A plataforma da Novita AI elimina a complexidade de implantação enquanto entrega todo o potencial dessa arquitetura de próxima geração.

Use o Playground (Nenhum Código Necessário)

Acesso Imediato: Cadastre-se e comece a experimentar o Qwen3-Next-80B-A3B em segundos pela interface web da Novita AI — nenhuma configuração de infraestrutura é necessária.

Teste Interativo: Experimente o mecanismo de Atenção Híbrida do modelo e as capacidades de Previsão de Múltiplos Tokens pela interface intuitiva do playground da Novita AI.

Opções de Configuração Principais:

max_tokens: Teste as capacidades excepcionais de contexto longo do Qwen3-Next
temperature & top_p: Ajuste a criatividade e a diversidade de respostas
System Prompt: Personalize o comportamento do modelo instantaneamente
Function Calling: Teste a integração de ferramentas diretamente no playground

Comparação de Modelos: Alterne entre as variantes Instruct e Thinking do Qwen3-Next-80B-A3B, ou compare com outros modelos disponíveis na Novita AI para avaliar o desempenho para seus casos de uso.

Integre via API (Para Desenvolvedores)

Conecte o Qwen3-Next-80B-A3B aos seus aplicativos por meio da API REST da Novita AI — aproveitando o throughput de inferência 10x maior do modelo em contextos longos sem precisar gerenciar infraestrutura.

Opção 1: Integração Direta via API (Exemplo em Python)

Acesse a arquitetura eficiente do Qwen3-Next por meio do endpoint compatível com OpenAI da Novita AI:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="your_api_key_here",
)

model = "qwen/qwen3-next-80b-a3b-instruct"
stream = True  # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
        "top_k": top_k,
        "repetition_penalty": repetition_penalty,
        "min_p": min_p
    }
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Recursos da Plataforma:

Endpoint compatível com OpenAI: /v3/openai para integração perfeita
Parâmetros flexíveis: Controle a geração com temperature, top-p, penalidades e mais
Suporte a streaming: Escolha entre respostas de streaming ou em lote
Seleção de modelo: Acesse ambas as variantes instruct e thinking

Opção 2: Fluxos de Trabalho Multiagente com o OpenAI Agents SDK

Construa sistemas de agentes que aproveitem a eficiência do Qwen3-Next por meio da infraestrutura da Novita AI:

Compatibilidade com o OpenAI Agents SDK: Use o OpenAI Agents SDK com o endpoint da Novita para fluxos de trabalho de agentes
Capacidades de agentes: Projete sistemas que se beneficiem da esparsidade extrema e do desempenho em contextos longos
Integração simples: Aponte o SDK para https://api.novita.ai/v3/openai

Integrações com Terceiros

Integração com Frameworks: Acesse o Qwen3-Next-80B-A3B por meio do LangChain, Dify e Langflow
Ferramentas de Desenvolvimento: Compatível com ferramentas padrão OpenAI, incluindo Trae, Claude Code, Qwen Code, Cline e Cursor
Ecossistema Hugging Face: Integre em Spaces e pipelines por meio da API da Novita AI

Conclusão

O Qwen3-Next-80B-A3B representa mais um modelo eficiente — ele demonstra que a inovação arquitetônica pode entregar capacidades de escala empresarial sem custos de escala empresarial.

Disponível agora na Novita AI, ambas as variantes instruct e thinking estão prontas para uso imediato. Acesse 80 bilhões de parâmetros de inteligência com a velocidade e o custo de um modelo de 3 bilhões de parâmetros por meio do playground, API ou integrações com terceiros da Novita AI.

Experimente o futuro da IA eficiente hoje com o Qwen3-Next-80B-A3B na Novita AI.

A Novita AI é uma plataforma de nuvem de IA líder que fornece aos desenvolvedores APIs fáceis de usar e infraestrutura de GPU acessível e confiável para construir e escalar aplicativos de IA.

Qwen3-Next-80B-A3B na Novita AI: Modelo MoE de próxima geração com alta esparsidade

A Série Qwen3-Next