Os modelos de linguagem grandes sempre enfrentaram uma troca fundamental: mais parâmetros significam melhor desempenho, mas também custos mais altos e inferência mais lenta. O Qwen3-Next-80B-A3B quebra essa regra completamente.
Com 80 bilhões de parâmetros totais, mas apenas 3 bilhões ativos durante a inferência, esse modelo MoE ultra-esparso supera o Qwen3-32B usando menos de 1/10 dos recursos de treinamento. Sua arquitetura revolucionária — com Atenção Híbrida, esparsidade MoE de 1:50 e Previsão de Múltiplos Tokens — oferece mais de 10x mais velocidade de inferência em contextos longos.
A Novita AI agora oferece duas variantes da série Qwen3-Next:
- qwen/qwen3-next-80b-a3b-instruct: $0.15/milhão de tokens de entrada, $1.5/milhão de tokens de saída
- qwen/qwen3-next-80b-a3b-thinking:$0.15/milhão de tokens de entrada, $1.5/milhão de tokens de saída
Ambos os modelos estão prontos para uso na plataforma da Novita AI, seja para experimentar no playground ou integrar via API — nenhuma configuração de infraestrutura é necessária.
A Série Qwen3-Next
A série Qwen3-Next representa modelos de base de próxima geração, otimizados para comprimento de contexto extremo e eficiência de parâmetros em larga escala. Esta série inovadora apresenta inovações arquitetônicas projetadas para maximizar o desempenho enquanto minimiza o custo computacional:

Fonte: Blog Oficial do Qwen3-Next
- Atenção Híbrida: Substitui a atenção padrão pela combinação de Gated DeltaNet e Gated Attention, permitindo modelagem de contexto eficiente.
- MoE de Alta Esparsidade: Atinge uma taxa de ativação extremamente baixa de 1:50 nas camadas MoE — reduzindo drasticamente os FLOPs por token enquanto preserva a capacidade do modelo.
- Previsão de Múltiplos Tokens (MTP): Aumenta o desempenho do modelo no pré-treinamento e acelera a inferência.
- Outras Otimizações: Inclui técnicas como layernorm centralizada em zero e com decaimento de peso, Gated Attention e outras melhorias de estabilização para treinamento robusto.
Construído sobre essa arquitetura, o Qwen3-Next-80B-A3B possui 80B de parâmetros totais com apenas 3B ativos — atingindo esparsidade e eficiência extremas.
Apesar de sua ultra eficiência, ele supera o Qwen3-32B em tarefas downstream enquanto requer menos de 1/10 do custo de treinamento. Além disso, oferece mais de 10x mais throughput de inferência que o Qwen3-32B ao lidar com contextos maiores que 32K tokens.
Benchmarks de Desempenho do Qwen3-Next-80B-A3B
Desempenho do Modelo Instruct

Fonte: Blog Oficial do Qwen3-Next
Desempenho do Modelo Thinking

Fonte: Blog Oficial do Qwen3-Next
Como Acessar o Qwen3-Next-80B-A3B na Novita AI
Acesse o modelo revolucionário Qwen3-Next-80B-A3B por meio da infraestrutura da Novita AI — aproveitando a esparsidade extrema para uma eficiência sem precedentes. A plataforma da Novita AI elimina a complexidade de implantação enquanto entrega todo o potencial dessa arquitetura de próxima geração.
Use o Playground (Nenhum Código Necessário)
Acesso Imediato: Cadastre-se e comece a experimentar o Qwen3-Next-80B-A3B em segundos pela interface web da Novita AI — nenhuma configuração de infraestrutura é necessária.
Teste Interativo: Experimente o mecanismo de Atenção Híbrida do modelo e as capacidades de Previsão de Múltiplos Tokens pela interface intuitiva do playground da Novita AI.
Opções de Configuração Principais:
- max_tokens: Teste as capacidades excepcionais de contexto longo do Qwen3-Next
- temperature & top_p: Ajuste a criatividade e a diversidade de respostas
- System Prompt: Personalize o comportamento do modelo instantaneamente
- Function Calling: Teste a integração de ferramentas diretamente no playground
Comparação de Modelos: Alterne entre as variantes Instruct e Thinking do Qwen3-Next-80B-A3B, ou compare com outros modelos disponíveis na Novita AI para avaliar o desempenho para seus casos de uso.
Integre via API (Para Desenvolvedores)
Conecte o Qwen3-Next-80B-A3B aos seus aplicativos por meio da API REST da Novita AI — aproveitando o throughput de inferência 10x maior do modelo em contextos longos sem precisar gerenciar infraestrutura.
Opção 1: Integração Direta via API (Exemplo em Python)
Acesse a arquitetura eficiente do Qwen3-Next por meio do endpoint compatível com OpenAI da Novita AI:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="your_api_key_here",
)
model = "qwen/qwen3-next-80b-a3b-instruct"
stream = True # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Recursos da Plataforma:
- Endpoint compatível com OpenAI:
/v3/openaipara integração perfeita - Parâmetros flexíveis: Controle a geração com temperature, top-p, penalidades e mais
- Suporte a streaming: Escolha entre respostas de streaming ou em lote
- Seleção de modelo: Acesse ambas as variantes instruct e thinking
Opção 2: Fluxos de Trabalho Multiagente com o OpenAI Agents SDK
Construa sistemas de agentes que aproveitem a eficiência do Qwen3-Next por meio da infraestrutura da Novita AI:
- Compatibilidade com o OpenAI Agents SDK: Use o OpenAI Agents SDK com o endpoint da Novita para fluxos de trabalho de agentes
- Capacidades de agentes: Projete sistemas que se beneficiem da esparsidade extrema e do desempenho em contextos longos
- Integração simples: Aponte o SDK para
https://api.novita.ai/v3/openai
Integrações com Terceiros
- Integração com Frameworks: Acesse o Qwen3-Next-80B-A3B por meio do LangChain, Dify e Langflow
- Ferramentas de Desenvolvimento: Compatível com ferramentas padrão OpenAI, incluindo Trae, Claude Code, Qwen Code, Cline e Cursor
- Ecossistema Hugging Face: Integre em Spaces e pipelines por meio da API da Novita AI
Conclusão
O Qwen3-Next-80B-A3B representa mais um modelo eficiente — ele demonstra que a inovação arquitetônica pode entregar capacidades de escala empresarial sem custos de escala empresarial.
Disponível agora na Novita AI, ambas as variantes instruct e thinking estão prontas para uso imediato. Acesse 80 bilhões de parâmetros de inteligência com a velocidade e o custo de um modelo de 3 bilhões de parâmetros por meio do playground, API ou integrações com terceiros da Novita AI.
Experimente o futuro da IA eficiente hoje com o Qwen3-Next-80B-A3B na Novita AI.
A Novita AI é uma plataforma de nuvem de IA líder que fornece aos desenvolvedores APIs fáceis de usar e infraestrutura de GPU acessível e confiável para construir e escalar aplicativos de IA.
