Cómo acceder a Qwen 3 de forma local o mediante API: Guía completa

Tabla de contenido

¿Qué es Qwen 3?
Arquitectura de la serie Qwen 3
Benchmarks de la serie Qwen 3
¿Cómo acceder a Qwen 3 de forma local?
Cómo acceder a Qwen 3 mediante API
¿Qué métodos son adecuados para ti?

Recomienda Novita AI a tus amigos y ambos recibirán $10 en créditos de API LLM, con recompensas totales de hasta $500.

Para apoyar a la comunidad de desarrolladores, Qwen2.5-7B, Qwen 3 0.6B, Qwen 3 1.7B y Qwen 3 4B están disponibles actualmente de forma gratuita en Novita AI.

Qwen 3 es una familia de modelos de lenguaje de código abierto versátil y potente desarrollada por Alibaba. Con una arquitectura de vanguardia y razonamiento de modo dual, está diseñada para servir tanto a dispositivos de borde como a necesidades empresariales a gran escala. Este artículo explora sus capacidades, tipos de modelos y cómo usarlo, ya sea de forma local o a través de API.

¿Qué es Qwen 3?

Qwen 3 es la familia de modelos de lenguaje grandes de código abierto de Alibaba de 2025, que cuenta con modos intercambiables de “pensamiento” y “no pensamiento” para mejorar el razonamiento y el rendimiento multilingüe en más de 119 idiomas. La línea de modelos Qwen 3 incluye:

Modelos densos:
Modelos Mixture-of-Experts (MoE):
- Qwen 3 30B A3B
- Qwen 3 235B A22B

Código abierto y apto para uso comercial

Licencia Apache 2.0, pesos disponibles libremente para investigación y uso empresarial. ### Núcleo Transformer eficiente

Solo decodificador con Grouped-Query-Attention para ahorro de memoria KV en contextos largos de hasta 128 K tokens. ### Modos duales “Pensamiento / No pensamiento”

Cadena de pensamiento detallada cuando sea necesario, respuestas directas y rápidas cuando la velocidad importa. ### Corpus masivo de 36 T tokens

119 idiomas con datos expandidos de STEM y código para mejorar el razonamiento y las habilidades de programación. ### Preentrenamiento en tres etapas

Habilidades base → enriquecimiento STEM → adaptación a contextos largos de 32 K tokens. ### Postentrenamiento en cuatro etapas

SFT de cadena de pensamiento larga → RL de razonamiento → fusión de modos → alineación RLHF general. ### Seguimiento de instrucciones multilingüe

Fuerte en inglés y chino, robusto en más de 100 idiomas para aplicaciones globales. ### Preparación para herramientas/agentes

Esquema integrado de llamada a funciones para decidir y formatear invocaciones de herramientas externas. ### Modalidad texto entrada / texto salida

Optimizado para tareas de lenguaje hoy; variantes de visión planeadas para futuros lanzamientos.

Arquitectura de la serie Qwen 3

Benchmarks de la serie Qwen 3

Los modelos de altos parámetros como Qwen-23B y Qwen-14B siguen las reglas de manera consistente, y las versiones más grandes y con razonamiento activado obtienen puntuaciones más altas. Estas discrepancias en modelos de bajos parámetros pueden deberse a limitaciones en sus capacidades de razonamiento, ya que carecen de la capacidad para aprovechar completamente los mecanismos de razonamiento, lo que lleva a un rendimiento subóptimo.

¿Cómo acceder a Qwen 3 de forma local?

Requisitos de hardware

Modelo	GPU recomendada	VRAM	vCPUs	RAM	Almacenamiento
Qwen3-0.6B	RTX 3060 / T4	8 GB	4	8 GB	20 GB
Qwen3-1.7B	RTX 3060 / A5000	12–24 GB	6–8	16 GB	30 GB
Qwen3-4B	A100 40GB / RTX 3090	24–40 GB	12+	24 GB	40 GB
Qwen3-8B	A100 80GB / H100	40–80 GB	16+	48 GB	60 GB
Qwen3-14B	2× A100 80GB / 1× H100	80 GB+	24+	64 GB	80 GB
Qwen3-30B (MoE)	2× H100 / 4× A100	160 GB	48+	128 GB	160 GB
Qwen3-32B	2× H100 / 4× A100	160 GB	64	160 GB	200 GB
Qwen3-235B (MoE)	8× H100 / 8× A100	640 GB	128+	512 GB	500+ GB

Guía de instalación paso a paso

# Step 1: Install Python and Create a Virtual Environment
# Ensure Python (>=3.8) is installed. Then create and activate a virtual environment.
python3 -m venv llama_env
source llama_env/bin/activate  # On Windows, use `llama_env\Scripts\activate`

# Step 2: Install Required Libraries
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118  # For GPU optimization
pip install bitsandbytes  # Efficient GPU memory utilization

# Step 3: Install the Hugging Face CLI and Log In
pip install huggingface-cli
huggingface-cli login  # Follow the prompts to authenticate

# Step 4: Request Access to Llama-3.3 70B
# Visit the Hugging Face model page for Llama-3.3 70B and request access.
# URL: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

# Step 5: Download the Model Files
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct

# Step 6: Load the Model Locally
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Model ID and local directory path
model_id = "meta-llama/Llama-3.3-70B-Instruct"
local_model_dir = "./Llama-3.3-70B-Instruct"

# Load the model with GPU optimization
model = AutoModelForCausalLM.from_pretrained(
    local_model_dir,
    device_map="auto",          # Automatically map model layers to GPU(s)
    torch_dtype=torch.bfloat16  # Use bfloat16 for efficient memory usage
)

# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(local_model_dir)

# Step 7: Run Inference
# Define input text
input_text = "Explain the theory of relativity in simple terms."

# Tokenize the input
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")  # Send inputs to GPU

# Generate a response
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_length=100,  # Set maximum response length
        temperature=0.7,  # Adjust creativity (lower = less creative, higher = more creative)
        top_k=50,         # Top-k sampling for diversity
    )

# Decode the output tokens
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Response:", response)

Cómo acceder a Qwen 3 mediante API

Novita AI ofrece una plataforma de inferencia asequible, confiable y sencilla con la API de Llama 3.3 70b escalable, que permite a los desarrolladores crear aplicaciones de IA. ¡Prueba hoy la Demo de la API de Novita AI Llama 3.3 70b!

Opción 1: Integración directa con API (ejemplo en Python)

¡Prueba Qwen3 a un precio muy bajo ahora!

Características clave:

Endpoint unificado:/v3/openai compatible con el formato de API Chat Completions de OpenAI.
Controles flexibles: Ajusta temperatura, top-p, penalizaciones y más para obtener resultados personalizados.
Streaming y procesamiento por lotes: Elige tu modo de respuesta preferido.

Opción 2: Flujos de trabajo multiagente con el SDK de OpenAI Agents

Crea sistemas multiagente avanzados integrando Novita AI con el SDK de OpenAI Agents:

Plug-and-play: Usa los LLM de Novita AI en cualquier flujo de trabajo de OpenAI Agents.
Soporta transferencias, enrutamiento y uso de herramientas: Diseña agentes que puedan delegar, clasificar o ejecutar funciones, todo impulsado por los modelos de Novita AI.
Integración en Python: Simplemente apunta el SDK al endpoint de Novita (https://api.novita.ai/v3/openai) y usa tu clave API.

Conecta la API de Qwen 3 en plataformas de terceros

Hugging Face: Usa Qwen 3 en Spaces, pipelines o con la biblioteca Transformers a través de los endpoints de Novita AI.

Frameworks de agentes y orquestación: Conecta fácilmente Novita AI con plataformas asociadas como Continue, AnythingLLM, LangChain, Dify y Langflow a través de conectores oficiales y guías de integración paso a paso.
API compatible con OpenAI: Disfruta de una migración e integración sin problemas con herramientas como Cline y Cursor, diseñadas para el estándar de la API de OpenAI.

¿Qué métodos son adecuados para ti?

Comparativa entre acceso local y mediante API


Aspecto	Acceso local	Acceso mediante API
Escalabilidad	Limitada; requiere actualizaciones manuales.	Escala automática y eficientemente.
Flexibilidad	Alta flexibilidad; control total sobre la configuración.	Menos flexible; depende de las configuraciones del proveedor.
Usabilidad	Requiere conocimientos técnicos.	Más fácil de usar, sin configuración compleja.
Asequibilidad	Alto coste inicial, costes continuos bajos. Ideal para uso a largo plazo.	Pago por uso, ideal para uso a pequeña escala u ocasional.

Recomendaciones para diferentes grupos de usuarios

Investigadores → Prefieren el acceso local para tener control total y flexibilidad en experimentos.
Desarrolladores → Usan API para pruebas rápidas y creación de aplicaciones; optan por local para entrenamiento personalizado.
Empresas → La API es excelente para una integración sencilla; el acceso local es adecuado para equipos con necesidades estables.
Equipos pequeños y particulares → La API es más económica y fácil de empezar.
Usuarios no técnicos → Definitivamente elijan la API—sin configuración compleja.

Ya seas investigador, desarrollador o equipo empresarial, Qwen 3 se adapta a tus necesidades. El acceso local proporciona control y personalización, mientras que las APIs ofrecen escalabilidad instantánea y una barrera de entrada baja. El diseño de Qwen 3 garantiza capacidades multilingües, de razonamiento y aumentadas con herramientas para tareas del mundo real.

Preguntas frecuentes

¿Qué hace diferente a Qwen 3 de otros LLM?

Admite modos de pensamiento dual, instrucciones multilingües sólidas y contexto largo (128k tokens), con pesos abiertos y licencia apta para uso comercial.

¿Puedo ejecutar Qwen 3 en mi PC?

Solo los modelos más pequeños (por ejemplo, 0.6B) son adecuados para GPUs de consumo. Los modelos más grandes requieren configuraciones A100/H100.

¿Es más fácil el acceso por API?

¡Sí! Novita AI y Hugging Face ofrecen APIs de Qwen 3 de bajo coste y plug-and-play, perfectas para integración rápida y uso de baja latencia.

Novita AI es la plataforma en la nube integral que impulsa tus ambiciones de IA. API integradas, sin servidor, instancias GPU — las herramientas rentables que necesitas. Elimina la infraestructura, comienza gratis y haz realidad tu visión de IA.

Cómo acceder a Qwen 3 de forma local o mediante API: Guía completa