Recomienda Novita AI a tus amigos y ambos recibirán $10 en créditos de API LLM, con recompensas totales de hasta $500.
Para apoyar a la comunidad de desarrolladores, Qwen2.5-7B, Qwen 3 0.6B, Qwen 3 1.7B y Qwen 3 4B están disponibles actualmente de forma gratuita en Novita AI.
Qwen 3 es una familia de modelos de lenguaje de código abierto versátil y potente desarrollada por Alibaba. Con una arquitectura de vanguardia y razonamiento de modo dual, está diseñada para servir tanto a dispositivos de borde como a necesidades empresariales a gran escala. Este artículo explora sus capacidades, tipos de modelos y cómo usarlo, ya sea de forma local o a través de API.
¿Qué es Qwen 3?
Qwen 3 es la familia de modelos de lenguaje grandes de código abierto de Alibaba de 2025, que cuenta con modos intercambiables de “pensamiento” y “no pensamiento” para mejorar el razonamiento y el rendimiento multilingüe en más de 119 idiomas. La línea de modelos Qwen 3 incluye:
- Modelos densos:
- Modelos Mixture-of-Experts (MoE):
Código abierto y apto para uso comercial
Licencia Apache 2.0, pesos disponibles libremente para investigación y uso empresarial. ### Núcleo Transformer eficiente
Solo decodificador con Grouped-Query-Attention para ahorro de memoria KV en contextos largos de hasta 128 K tokens. ### Modos duales “Pensamiento / No pensamiento”
Cadena de pensamiento detallada cuando sea necesario, respuestas directas y rápidas cuando la velocidad importa. ### Corpus masivo de 36 T tokens
119 idiomas con datos expandidos de STEM y código para mejorar el razonamiento y las habilidades de programación. ### Preentrenamiento en tres etapas
Habilidades base → enriquecimiento STEM → adaptación a contextos largos de 32 K tokens. ### Postentrenamiento en cuatro etapas
SFT de cadena de pensamiento larga → RL de razonamiento → fusión de modos → alineación RLHF general. ### Seguimiento de instrucciones multilingüe
Fuerte en inglés y chino, robusto en más de 100 idiomas para aplicaciones globales. ### Preparación para herramientas/agentes
Esquema integrado de llamada a funciones para decidir y formatear invocaciones de herramientas externas. ### Modalidad texto entrada / texto salida
Optimizado para tareas de lenguaje hoy; variantes de visión planeadas para futuros lanzamientos.
Arquitectura de la serie Qwen 3

Benchmarks de la serie Qwen 3


Los modelos de altos parámetros como Qwen-23B y Qwen-14B siguen las reglas de manera consistente, y las versiones más grandes y con razonamiento activado obtienen puntuaciones más altas. Estas discrepancias en modelos de bajos parámetros pueden deberse a limitaciones en sus capacidades de razonamiento, ya que carecen de la capacidad para aprovechar completamente los mecanismos de razonamiento, lo que lleva a un rendimiento subóptimo.
¿Cómo acceder a Qwen 3 de forma local?
Requisitos de hardware
| Modelo | GPU recomendada | VRAM | vCPUs | RAM | Almacenamiento |
|---|---|---|---|---|---|
| Qwen3-0.6B | RTX 3060 / T4 | 8 GB | 4 | 8 GB | 20 GB |
| Qwen3-1.7B | RTX 3060 / A5000 | 12–24 GB | 6–8 | 16 GB | 30 GB |
| Qwen3-4B | A100 40GB / RTX 3090 | 24–40 GB | 12+ | 24 GB | 40 GB |
| Qwen3-8B | A100 80GB / H100 | 40–80 GB | 16+ | 48 GB | 60 GB |
| Qwen3-14B | 2× A100 80GB / 1× H100 | 80 GB+ | 24+ | 64 GB | 80 GB |
| Qwen3-30B (MoE) | 2× H100 / 4× A100 | 160 GB | 48+ | 128 GB | 160 GB |
| Qwen3-32B | 2× H100 / 4× A100 | 160 GB | 64 | 160 GB | 200 GB |
| Qwen3-235B (MoE) | 8× H100 / 8× A100 | 640 GB | 128+ | 512 GB | 500+ GB |
Guía de instalación paso a paso
# Step 1: Install Python and Create a Virtual Environment
# Ensure Python (>=3.8) is installed. Then create and activate a virtual environment.
python3 -m venv llama_env
source llama_env/bin/activate # On Windows, use `llama_env\Scripts\activate`
# Step 2: Install Required Libraries
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # For GPU optimization
pip install bitsandbytes # Efficient GPU memory utilization
# Step 3: Install the Hugging Face CLI and Log In
pip install huggingface-cli
huggingface-cli login # Follow the prompts to authenticate
# Step 4: Request Access to Llama-3.3 70B
# Visit the Hugging Face model page for Llama-3.3 70B and request access.
# URL: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct
# Step 5: Download the Model Files
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct
# Step 6: Load the Model Locally
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# Model ID and local directory path
model_id = "meta-llama/Llama-3.3-70B-Instruct"
local_model_dir = "./Llama-3.3-70B-Instruct"
# Load the model with GPU optimization
model = AutoModelForCausalLM.from_pretrained(
local_model_dir,
device_map="auto", # Automatically map model layers to GPU(s)
torch_dtype=torch.bfloat16 # Use bfloat16 for efficient memory usage
)
# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(local_model_dir)
# Step 7: Run Inference
# Define input text
input_text = "Explain the theory of relativity in simple terms."
# Tokenize the input
inputs = tokenizer(input_text, return_tensors="pt").to("cuda") # Send inputs to GPU
# Generate a response
with torch.no_grad():
outputs = model.generate(
**inputs,
max_length=100, # Set maximum response length
temperature=0.7, # Adjust creativity (lower = less creative, higher = more creative)
top_k=50, # Top-k sampling for diversity
)
# Decode the output tokens
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Response:", response)
Cómo acceder a Qwen 3 mediante API
Novita AI ofrece una plataforma de inferencia asequible, confiable y sencilla con la API de Llama 3.3 70b escalable, que permite a los desarrolladores crear aplicaciones de IA. ¡Prueba hoy la Demo de la API de Novita AI Llama 3.3 70b!
Opción 1: Integración directa con API (ejemplo en Python)

¡Prueba Qwen3 a un precio muy bajo ahora!
Características clave:
- Endpoint unificado:
/v3/openaicompatible con el formato de API Chat Completions de OpenAI. - Controles flexibles: Ajusta temperatura, top-p, penalizaciones y más para obtener resultados personalizados.
- Streaming y procesamiento por lotes: Elige tu modo de respuesta preferido.
Opción 2: Flujos de trabajo multiagente con el SDK de OpenAI Agents
Crea sistemas multiagente avanzados integrando Novita AI con el SDK de OpenAI Agents:
- Plug-and-play: Usa los LLM de Novita AI en cualquier flujo de trabajo de OpenAI Agents.
- Soporta transferencias, enrutamiento y uso de herramientas: Diseña agentes que puedan delegar, clasificar o ejecutar funciones, todo impulsado por los modelos de Novita AI.
- Integración en Python: Simplemente apunta el SDK al endpoint de Novita (
https://api.novita.ai/v3/openai) y usa tu clave API.
Conecta la API de Qwen 3 en plataformas de terceros
- Hugging Face: Usa Qwen 3 en Spaces, pipelines o con la biblioteca Transformers a través de los endpoints de Novita AI.

- Frameworks de agentes y orquestación: Conecta fácilmente Novita AI con plataformas asociadas como Continue, AnythingLLM, LangChain, Dify y Langflow a través de conectores oficiales y guías de integración paso a paso.
- API compatible con OpenAI: Disfruta de una migración e integración sin problemas con herramientas como Cline y Cursor, diseñadas para el estándar de la API de OpenAI.
¿Qué métodos son adecuados para ti?
Comparativa entre acceso local y mediante API
| Aspecto | Acceso local | Acceso mediante API |
| Escalabilidad | Limitada; requiere actualizaciones manuales. | Escala automática y eficientemente. |
| Flexibilidad | Alta flexibilidad; control total sobre la configuración. | Menos flexible; depende de las configuraciones del proveedor. |
| Usabilidad | Requiere conocimientos técnicos. | Más fácil de usar, sin configuración compleja. |
| Asequibilidad | Alto coste inicial, costes continuos bajos. Ideal para uso a largo plazo. | Pago por uso, ideal para uso a pequeña escala u ocasional. |
Recomendaciones para diferentes grupos de usuarios
- Investigadores → Prefieren el acceso local para tener control total y flexibilidad en experimentos.
- Desarrolladores → Usan API para pruebas rápidas y creación de aplicaciones; optan por local para entrenamiento personalizado.
- Empresas → La API es excelente para una integración sencilla; el acceso local es adecuado para equipos con necesidades estables.
- Equipos pequeños y particulares → La API es más económica y fácil de empezar.
- Usuarios no técnicos → Definitivamente elijan la API—sin configuración compleja.
Ya seas investigador, desarrollador o equipo empresarial, Qwen 3 se adapta a tus necesidades. El acceso local proporciona control y personalización, mientras que las APIs ofrecen escalabilidad instantánea y una barrera de entrada baja. El diseño de Qwen 3 garantiza capacidades multilingües, de razonamiento y aumentadas con herramientas para tareas del mundo real.
Preguntas frecuentes
¿Qué hace diferente a Qwen 3 de otros LLM?
Admite modos de pensamiento dual, instrucciones multilingües sólidas y contexto largo (128k tokens), con pesos abiertos y licencia apta para uso comercial.
¿Puedo ejecutar Qwen 3 en mi PC?
Solo los modelos más pequeños (por ejemplo, 0.6B) son adecuados para GPUs de consumo. Los modelos más grandes requieren configuraciones A100/H100.
¿Es más fácil el acceso por API?
¡Sí! Novita AI y Hugging Face ofrecen APIs de Qwen 3 de bajo coste y plug-and-play, perfectas para integración rápida y uso de baja latencia.
Novita AI es la plataforma en la nube integral que impulsa tus ambiciones de IA. API integradas, sin servidor, instancias GPU — las herramientas rentables que necesitas. Elimina la infraestructura, comienza gratis y haz realidad tu visión de IA.

