¡Los modelos de lenguaje de última generación Qwen 3 de Alibaba ya están disponibles en la plataforma API de Modelos de Novita AI!
Aquí está la línea actual de Qwen 3 y los precios en Novita AI:
- Qwen3-235B-A22B: $0,20 / M tokens de entrada, $0,80 / M tokens de salida
- Qwen3-30B-A3B: $0,10 / M tokens de entrada, $0,45 / M tokens de salida
- Qwen3-32B: $0,10 / M tokens de entrada, $0,45 / M tokens de salida
- Qwen3-14B: $0,07 / M tokens de entrada, $0,275 / M tokens de salida
- Qwen3-8B: $0,035 / M tokens de entrada, $0,138 / M tokens de salida
- Qwen3-4B: gratis
- Qwen3-1.7B: gratis
Potencia tus chatbots, aplicaciones y flujos de trabajo con modelos de lenguaje de vanguardia: Qwen 3 está a solo una llamada API de distancia.
¿Qué es Qwen 3?
Qwen 3 es la familia más reciente y avanzada de modelos de lenguaje grandes desarrollada por el equipo Qwen de Alibaba Cloud. Basándose en la experiencia de QwQ y Qwen2.5, Qwen 3 establece un nuevo estándar para la IA de código abierto con importantes mejoras en razonamiento, multilingüismo y capacidades agentivas.

Características principales de Qwen 3
-
Modelos densos y de mezcla de expertos (MoE) en varios tamaños: Qwen 3 está disponible en arquitecturas densas y MoE, desde modelos ligeros de 0.6B y 1.7B hasta variantes a gran escala de 32B (densa) y las insignia 30B-A3B y 235B-A22B (MoE).
-
Modos de pensamiento híbrido: El modelo permite cambiar sin problemas entre el modo de pensamiento (para razonamiento lógico paso a paso complejo, matemáticas y generación de código) y el modo sin pensamiento (para chat rápido, eficiente y de propósito general).
-
Razonamiento significativamente mejorado: Qwen 3 supera a los modelos Qwen anteriores en matemáticas, generación de código y razonamiento lógico de sentido común. También ofrece presupuestos de razonamiento más estables y controlables para diferentes tareas.
-
Alineación superior con preferencias humanas: El modelo destaca en escritura creativa, juegos de rol, diálogos multivuelta y seguimiento de instrucciones, lo que resulta en conversaciones más naturales y atractivas.
-
Capacidades agentivas avanzadas: Qwen 3 está diseñado para flujos de trabajo basados en agentes, compatible con la integración perfecta de herramientas externas y llamadas a funciones precisas en ambos modos de razonamiento. Esto permite un rendimiento de vanguardia en tareas complejas impulsadas por agentes.
-
Soporte multilingüe robusto: Con soporte para 119 idiomas y dialectos, Qwen 3 es capaz de seguir instrucciones multilingües de alta calidad y realizar traducciones, abriendo la puerta a aplicaciones verdaderamente globales.

Puntos de referencia y rendimiento
La serie Qwen 3 demuestra un rendimiento líder en la industria en un conjunto completo de puntos de referencia de IA, destacándose en codificación, matemáticas, razonamiento general y comprensión multilingüe.
Modelo insignia: Qwen3-235B-A22B
El modelo insignia, Qwen3-235B-A22B, alcanza consistentemente resultados superiores o cercanos a los mejores en comparación con los modelos más avanzados disponibles hoy en día, como DeepSeek-R1, OpenAI-01, OpenAI-o3-mini, Grok-3 Beta y Gemini-2.5-Pro.

Fuente: Qwen
- Razonamiento complejo: Puntuaciones más altas en ArenaHard (95.6), superando o igualando a todos los competidores.
- Matemáticas: Resultados líderes en AIME’24 (85.7) y AIME’25 (81.5), muy por delante de la mayoría de los modelos comerciales y de código abierto.
- Codificación: Rendimiento excepcional en LiveCodeBench (70.7) y CodeForces Elo (2056), confirmando su solidez en tareas de software y algoritmos.
- Capacidades multilingües y generales: Qwen3-235B-A22B logra resultados sólidos en LiveBench y MultiF, demostrando una comprensión robusta del mundo real y multilingüe.
Otros modelos más pequeños
Las innovaciones arquitectónicas de Qwen 3 también se traducen en un rendimiento sobresaliente en tamaños de modelo más pequeños:

Fuente: Qwen
- Qwen3-32B (denso): Ofrece resultados justo detrás del modelo insignia, superando aún a la mayoría de los modelos alternativos en todas las categorías.
- Qwen3-30B-A3B (MoE): Supera a QwQ-32B, a pesar de usar solo una décima parte de los parámetros activados, lo que demuestra la eficiencia y el escalado inteligente de Qwen.
- Qwen3-4B (denso): Incluso este modelo compacto puede rivalizar con el rendimiento de modelos mucho más grandes como Qwen2.5-72B-Instruct, especialmente en tareas de razonamiento y multilingües.
Cómo acceder a Qwen 3 en Novita AI
Comenzar con Qwen 3 es rápido, simple y sin riesgos en Novita AI. Gracias al Programa de Referidos, recibirás $10 en créditos gratuitos—suficiente para explorar completamente el poder de Qwen 3, construir prototipos e incluso lanzar tu primer caso de uso sin ningún costo inicial.
Usa el Playground (Sin necesidad de programar)
- Acceso instantáneo: Regístrate, reclama tus créditos gratuitos y comienza a experimentar con Qwen 3 y otros modelos principales en segundos.
- UI interactiva: Prueba indicaciones, razonamiento de cadena de pensamiento y visualiza resultados en tiempo real.
- Comparación de modelos: Cambia fácilmente entre Qwen 3, Llama 4, DeepSeek y más para encontrar el ajuste perfecto para tus necesidades.
Integración vía API (Para desarrolladores)
Conecta sin problemas Qwen 3 a tus aplicaciones, flujos de trabajo o chatbots con la API REST unificada de Novita AI, sin necesidad de gestionar pesos de modelos o infraestructura. Novita AI ofrece SDKs multilingües (Python, Node.js, cURL y más) y controles de parámetros avanzados para usuarios avanzados.
Opción 1: Integración directa de API (Ejemplo en Python)
Para comenzar, simplemente usa el fragmento de código a continuación:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "qwen/qwen3-235b-a22b-fp8"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Características clave:
- Endpoint unificado:
/v3/openaies compatible con el formato de API de Chat Completions de OpenAI. - Controles flexibles: Ajusta temperatura, top-p, penalizaciones y más para obtener resultados personalizados.
- Streaming y procesamiento por lotes: Elige el modo de respuesta que prefieras.
Opción 2: Flujos de trabajo multiagente con OpenAI Agents SDK
Construye sistemas multiagente avanzados integrando Novita AI con el OpenAI Agents SDK:
- Plug-and-play: Usa los LLM de Novita AI en cualquier flujo de trabajo de OpenAI Agents.
- Admite transferencias, enrutamiento y uso de herramientas: Diseña agentes que puedan delegar, clasificar o ejecutar funciones, todos impulsados por los modelos de Novita AI.
- Integración en Python: Simplemente apunta el SDK al endpoint de Novita (
https://api.novita.ai/v3/openai) y usa tu clave API.
Conecta la API de Qwen 3 en plataformas de terceros
- Hugging Face: Usa Qwen 3 en Spaces, pipelines o con la biblioteca Transformers a través de los endpoints de Novita AI.
- Frameworks de agentes y orquestación: Conecta fácilmente Novita AI con plataformas asociadas como Continue, AnythingLLM, LangChain, Dify y Langflow a través de conectores oficiales y guías de integración paso a paso.
- API compatible con OpenAI: Disfruta de una migración e integración sin complicaciones con herramientas como Cline y Cursor, diseñadas para el estándar de API de OpenAI.
Mejores prácticas para un rendimiento óptimo de Qwen 3
- Configuración de parámetros de muestreo
Modo de pensamiento
enable_thinking=True
Temperature: 0.6
TopP: 0.95
TopK: 20
MinP: 0
Consejo: Evita la decodificación codiciosa para evitar un rendimiento degradado o salidas repetitivas.
Modo sin pensamiento
enable_thinking=False
Temperature: 0.7
TopP: 0.8
TopK: 20
MinP: 0
Control de repetición
Para frameworks compatibles, ajusta presence_penalty entre 0 y 2 para reducir repeticiones.
Nota: Valores más altos pueden causar cierta mezcla de idiomas o una ligera disminución en el rendimiento del modelo.
- Recomendaciones de longitud de salida
- Para la mayoría de las consultas, establece la longitud de salida en 32.768 tokens.
- Para tareas complejas de referencia (como competencias de matemáticas o programación), aumenta la longitud máxima de salida a 38.912 tokens para obtener respuestas más completas.
- Estandarización del formato de salida
- Problemas matemáticos: Incluye esto en tu indicación: “Por favor, razona paso a paso y coloca tu respuesta final dentro de \boxed{}.”
- Preguntas de opción múltiple: Estandariza las respuestas usando un campo JSON: “Por favor, muestra tu elección en el campo de respuesta solo con la letra de la opción, por ejemplo, “answer”: “C”.”
- Gestión del historial de conversaciones
- En conversaciones de múltiples turnos, incluye solo la salida final en el historial de chat. Omite cualquier contenido intermedio de “pensamiento”.
- Si usas una plantilla de chat Jinja2, esto se maneja automáticamente. Para otros frameworks, asegúrate de seguir esta práctica manualmente.
Siguiendo estas recomendaciones, garantizarás que Qwen 3 ofrezca consistentemente resultados precisos y de alta calidad en todos los casos de uso.
Conclusión
Qwen 3 ofrece un rendimiento de primera clase para codificación, razonamiento y tareas multilingües, sin importar el tamaño del proyecto. ¿Listo para verlo en acción?
¡Prueba la demo de Qwen 3 ahora y reclama tus créditos gratuitos!
Novita AI es una plataforma en la nube de IA que ofrece a los desarrolladores una forma sencilla de implementar modelos de IA usando nuestra API simple, al mismo tiempo que proporciona la GPU en la nube asequible y confiable para construir y escalar.
