Qwen3-Next-80B-A3B en Novita AI: Modelo MoE de alta dispersión de próxima generación

Tabla de contenido

La serie Qwen3-Next
Resultados de rendimiento de Qwen3-Next-80B-A3B
Cómo acceder a Qwen3-Next-80B-A3B en Novita AI
Conclusión

Los modelos de lenguaje grande siempre se han enfrentado a una compensación fundamental: más parámetros significan un mejor rendimiento, pero también costes más altos y una inferencia más lenta. Qwen3-Next-80B-A3B rompe esta regla por completo.

Con 80 mil millones de parámetros totales, pero solo 3 mil millones activos durante la inferencia, este modelo MoE ultra disperso supera a Qwen3-32B mientras utiliza menos de 1/10 de los recursos de entrenamiento. Su arquitectura revolucionaria, que cuenta con Atención Híbrida, dispersión MoE 1:50 y Predicción de Múltiples Tokens, ofrece una inferencia más de 10 veces más rápida en contextos largos.

Novita AI ahora ofrece dos variantes de la serie Qwen3-Next:

qwen/qwen3-next-80b-a3b-instruct: $0.15/millón de tokens de entrada, $1.5/millón de tokens de salida
qwen/qwen3-next-80b-a3b-thinking: $0.15/millón de tokens de entrada, $1.5/millón de tokens de salida

Ambos modelos están listos para usar a través de la plataforma de Novita AI, tanto si estás experimentando en el playground como si los integras mediante API, sin necesidad de configurar infraestructura.

La serie Qwen3-Next

La serie Qwen3-Next representa modelos fundacionales de próxima generación, optimizados para una longitud de contexto extrema y eficiencia de parámetros a gran escala. Esta serie innovadora introduce innovaciones arquitectónicas diseñadas para maximizar el rendimiento al tiempo que minimizan el coste computacional:

Fuente: Blog oficial de Qwen3-Next

Atención híbrida: Reemplaza la atención estándar por la combinación de Gated DeltaNet y Gated Attention, permitiendo una modelización eficiente del contexto.
MoE de alta dispersión: Logra una relación de activación extremadamente baja de 1:50 en las capas MoE, reduciendo drásticamente los FLOPs por token al tiempo que preserva la capacidad del modelo.
Predicción de múltiples tokens (MTP): Mejora el rendimiento del modelo durante el preentrenamiento y acelera la inferencia.
Otras optimizaciones: Incluye técnicas como la normalización de capa centrada en cero y con decaimiento de peso, Gated Attention y otras mejoras estabilizadoras para un entrenamiento robusto.

Construido sobre esta arquitectura, Qwen3-Next-80B-A3B cuenta con 80B de parámetros totales, de los cuales solo 3B están activos, logrando una dispersión extrema y eficiencia.

A pesar de su ultra eficiencia, supera a Qwen3-32B en tareas descendentes mientras requiere menos de 1/10 del coste de entrenamiento. Además, ofrece un rendimiento de inferencia más de 10 veces superior al de Qwen3-32B al manejar contextos de más de 32K tokens.

Resultados de rendimiento de Qwen3-Next-80B-A3B

Rendimiento del modelo Instruct

Fuente: Blog oficial de Qwen3-Next

Rendimiento del modelo Thinking

Fuente: Blog oficial de Qwen3-Next

Cómo acceder a Qwen3-Next-80B-A3B en Novita AI

Accede al revolucionario modelo Qwen3-Next-80B-A3B a través de la infraestructura de Novita AI, aprovechando la dispersión extrema para obtener una eficiencia sin precedentes. La plataforma de Novita AI elimina la complejidad de despliegue al tiempo que ofrece todo el potencial de esta arquitectura de próxima generación.

Usa el playground (no se requiere programación)

Acceso instantáneo: Regístrate y comienza a experimentar con Qwen3-Next-80B-A3B en segundos a través de la interfaz web de Novita AI, sin necesidad de configurar infraestructura.

Pruebas interactivas: Experimenta el mecanismo de Atención Híbrida y las capacidades de Predicción de Múltiples Tokens del modelo a través de la intuitiva interfaz del playground de Novita AI.

Opciones de configuración clave:

max_tokens: Prueba las excepcionales capacidades de contexto largo de Qwen3-Next
temperature & top_p: Ajusta la creatividad y la diversidad de las respuestas
System Prompt: Personaliza el comportamiento del modelo al instante
Function Calling: Prueba la integración de herramientas directamente en el playground

Comparación de modelos: Cambia entre las variantes Instruct y Thinking de Qwen3-Next-80B-A3B, o compáralo con otros modelos disponibles en Novita AI para evaluar el rendimiento según tus casos de uso.

Integración mediante API (para desarrolladores)

Conecta Qwen3-Next-80B-A3B a tus aplicaciones a través de la API REST de Novita AI, beneficiándote del rendimiento de inferencia 10 veces superior del modelo en contextos largos sin necesidad de gestionar infraestructura.

Opción 1: Integración directa por API (ejemplo en Python)

Accede a la arquitectura eficiente de Qwen3-Next a través del endpoint compatible con OpenAI de Novita AI:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="your_api_key_here",
)

model = "qwen/qwen3-next-80b-a3b-instruct"
stream = True  # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
        "top_k": top_k,
        "repetition_penalty": repetition_penalty,
        "min_p": min_p
    }
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Características de la plataforma:

Endpoint compatible con OpenAI: /v3/openai para una integración sin problemas
Parámetros flexibles: Controla la generación con temperature, top-p, penalizaciones y más
Soporte de streaming: Elige entre respuestas de streaming o por lotes
Selección de modelos: Accede a ambas variantes instruct y thinking

Opción 2: Flujos de trabajo multiagente con OpenAI Agents SDK

Construye sistemas de agentes que aprovechen la eficiencia de Qwen3-Next a través de la infraestructura de Novita AI:

Compatibilidad con OpenAI Agents SDK: Usa el OpenAI Agents SDK con el endpoint de Novita para flujos de trabajo de agentes
Capacidades de agentes: Diseña sistemas que se beneficien de la dispersión extrema y el rendimiento en contextos largos
Integración sencilla: Apunta el SDK a https://api.novita.ai/v3/openai

Integraciones de terceros

Integración con frameworks: Accede a Qwen3-Next-80B-A3B a través de LangChain, Dify y Langflow
Herramientas de desarrollo: Compatible con herramientas estándar de OpenAI, incluyendo Trae, Claude Code, Qwen Code, Cline y Cursor
Ecosistema de Hugging Face: Integra en Spaces y pipelines mediante la API de Novita AI

Conclusión

Qwen3-Next-80B-A3B representa algo más que un modelo eficiente adicional: demuestra que la innovación arquitectónica puede ofrecer capacidades de escala empresarial sin los costes asociados a dicha escala.

Disponible ahora en Novita AI, tanto la variante instruct como la thinking están listas para su uso inmediato. Accede a la inteligencia de 80 mil millones de parámetros con la velocidad y el coste de un modelo de 3 mil millones de parámetros a través del playground, la API o las integraciones de terceros de Novita AI.

Experimenta el futuro de la IA eficiente hoy mismo con Qwen3-Next-80B-A3B en Novita AI.

Novita AI es una plataforma de IA en la nube líder que proporciona a los desarrolladores APIs fáciles de usar e infraestructura GPU asequible y fiable para construir y escalar aplicaciones de IA.

Qwen3-Next-80B-A3B en Novita AI: Modelo MoE de alta dispersión de próxima generación

La serie Qwen3-Next