Cómo acceder a Qwen 3 de forma local o mediante API: Guía completa

Cómo acceder a Qwen 3 de forma local o mediante API: Guía completa

Recomienda Novita AI a tus amigos y ambos recibirán $10 en créditos de API LLM, con recompensas totales de hasta $500.

Para apoyar a la comunidad de desarrolladores, Qwen2.5-7B, Qwen 3 0.6B, Qwen 3 1.7B y Qwen 3 4B están disponibles actualmente de forma gratuita en Novita AI.

qwen 2.5 7b

Qwen 3 es una familia de modelos de lenguaje de código abierto versátil y potente desarrollada por Alibaba. Con una arquitectura de vanguardia y razonamiento de modo dual, está diseñada para servir tanto a dispositivos de borde como a necesidades empresariales a gran escala. Este artículo explora sus capacidades, tipos de modelos y cómo usarlo, ya sea de forma local o a través de API.

¿Qué es Qwen 3?

Qwen 3 es la familia de modelos de lenguaje grandes de código abierto de Alibaba de 2025, que cuenta con modos intercambiables de “pensamiento” y “no pensamiento” para mejorar el razonamiento y el rendimiento multilingüe en más de 119 idiomas. La línea de modelos Qwen 3 incluye:

Código abierto y apto para uso comercial

Licencia Apache 2.0, pesos disponibles libremente para investigación y uso empresarial. ### Núcleo Transformer eficiente

Solo decodificador con Grouped-Query-Attention para ahorro de memoria KV en contextos largos de hasta 128 K tokens. ### Modos duales “Pensamiento / No pensamiento”

Cadena de pensamiento detallada cuando sea necesario, respuestas directas y rápidas cuando la velocidad importa. ### Corpus masivo de 36 T tokens

119 idiomas con datos expandidos de STEM y código para mejorar el razonamiento y las habilidades de programación. ### Preentrenamiento en tres etapas

Habilidades base → enriquecimiento STEM → adaptación a contextos largos de 32 K tokens. ### Postentrenamiento en cuatro etapas

SFT de cadena de pensamiento larga → RL de razonamiento → fusión de modos → alineación RLHF general. ### Seguimiento de instrucciones multilingüe

Fuerte en inglés y chino, robusto en más de 100 idiomas para aplicaciones globales. ### Preparación para herramientas/agentes

Esquema integrado de llamada a funciones para decidir y formatear invocaciones de herramientas externas. ### Modalidad texto entrada / texto salida

Optimizado para tareas de lenguaje hoy; variantes de visión planeadas para futuros lanzamientos.

Arquitectura de la serie Qwen 3

qwen 3

Benchmarks de la serie Qwen 3

Benchmarks de la serie Qwen 3

Benchmarks de la serie Qwen 3

Los modelos de altos parámetros como Qwen-23B y Qwen-14B siguen las reglas de manera consistente, y las versiones más grandes y con razonamiento activado obtienen puntuaciones más altas. Estas discrepancias en modelos de bajos parámetros pueden deberse a limitaciones en sus capacidades de razonamiento, ya que carecen de la capacidad para aprovechar completamente los mecanismos de razonamiento, lo que lleva a un rendimiento subóptimo.

¿Cómo acceder a Qwen 3 de forma local?

Requisitos de hardware

Modelo GPU recomendada VRAM vCPUs RAM Almacenamiento
Qwen3-0.6B RTX 3060 / T4 8 GB 4 8 GB 20 GB
Qwen3-1.7B RTX 3060 / A5000 12–24 GB 6–8 16 GB 30 GB
Qwen3-4B A100 40GB / RTX 3090 24–40 GB 12+ 24 GB 40 GB
Qwen3-8B A100 80GB / H100 40–80 GB 16+ 48 GB 60 GB
Qwen3-14B 2× A100 80GB / 1× H100 80 GB+ 24+ 64 GB 80 GB
Qwen3-30B (MoE) 2× H100 / 4× A100 160 GB 48+ 128 GB 160 GB
Qwen3-32B 2× H100 / 4× A100 160 GB 64 160 GB 200 GB
Qwen3-235B (MoE) 8× H100 / 8× A100 640 GB 128+ 512 GB 500+ GB

Guía de instalación paso a paso

# Step 1: Install Python and Create a Virtual Environment
# Ensure Python (>=3.8) is installed. Then create and activate a virtual environment.
python3 -m venv llama_env
source llama_env/bin/activate  # On Windows, use `llama_env\Scripts\activate`

# Step 2: Install Required Libraries
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118  # For GPU optimization
pip install bitsandbytes  # Efficient GPU memory utilization

# Step 3: Install the Hugging Face CLI and Log In
pip install huggingface-cli
huggingface-cli login  # Follow the prompts to authenticate

# Step 4: Request Access to Llama-3.3 70B
# Visit the Hugging Face model page for Llama-3.3 70B and request access.
# URL: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

# Step 5: Download the Model Files
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct

# Step 6: Load the Model Locally
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Model ID and local directory path
model_id = "meta-llama/Llama-3.3-70B-Instruct"
local_model_dir = "./Llama-3.3-70B-Instruct"

# Load the model with GPU optimization
model = AutoModelForCausalLM.from_pretrained(
    local_model_dir,
    device_map="auto",          # Automatically map model layers to GPU(s)
    torch_dtype=torch.bfloat16  # Use bfloat16 for efficient memory usage
)

# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(local_model_dir)

# Step 7: Run Inference
# Define input text
input_text = "Explain the theory of relativity in simple terms."

# Tokenize the input
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")  # Send inputs to GPU

# Generate a response
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_length=100,  # Set maximum response length
        temperature=0.7,  # Adjust creativity (lower = less creative, higher = more creative)
        top_k=50,         # Top-k sampling for diversity
    )

# Decode the output tokens
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Response:", response)

Cómo acceder a Qwen 3 mediante API

Novita AI ofrece una plataforma de inferencia asequible, confiable y sencilla con la API de Llama 3.3 70b escalable, que permite a los desarrolladores crear aplicaciones de IA. ¡Prueba hoy la Demo de la API de Novita AI Llama 3.3 70b!

Opción 1: Integración directa con API (ejemplo en Python)

qwen 3 api

¡Prueba Qwen3 a un precio muy bajo ahora!

Características clave:

  • Endpoint unificado:/v3/openai compatible con el formato de API Chat Completions de OpenAI.
  • Controles flexibles: Ajusta temperatura, top-p, penalizaciones y más para obtener resultados personalizados.
  • Streaming y procesamiento por lotes: Elige tu modo de respuesta preferido.

Opción 2: Flujos de trabajo multiagente con el SDK de OpenAI Agents

Crea sistemas multiagente avanzados integrando Novita AI con el SDK de OpenAI Agents:

  • Plug-and-play: Usa los LLM de Novita AI en cualquier flujo de trabajo de OpenAI Agents.
  • Soporta transferencias, enrutamiento y uso de herramientas: Diseña agentes que puedan delegar, clasificar o ejecutar funciones, todo impulsado por los modelos de Novita AI.
  • Integración en Python: Simplemente apunta el SDK al endpoint de Novita (https://api.novita.ai/v3/openai) y usa tu clave API.

Conecta la API de Qwen 3 en plataformas de terceros

  • Hugging Face: Usa Qwen 3 en Spaces, pipelines o con la biblioteca Transformers a través de los endpoints de Novita AI.

API de Qwen 3 en plataformas de terceros

  • Frameworks de agentes y orquestación: Conecta fácilmente Novita AI con plataformas asociadas como Continue, AnythingLLM, LangChain, Dify y Langflow a través de conectores oficiales y guías de integración paso a paso.
  • API compatible con OpenAI: Disfruta de una migración e integración sin problemas con herramientas como Cline y Cursor, diseñadas para el estándar de la API de OpenAI.

¿Qué métodos son adecuados para ti?

Comparativa entre acceso local y mediante API

Aspecto Acceso local Acceso mediante API
Escalabilidad Limitada; requiere actualizaciones manuales. Escala automática y eficientemente.
Flexibilidad Alta flexibilidad; control total sobre la configuración. Menos flexible; depende de las configuraciones del proveedor.
Usabilidad Requiere conocimientos técnicos. Más fácil de usar, sin configuración compleja.
Asequibilidad Alto coste inicial, costes continuos bajos. Ideal para uso a largo plazo. Pago por uso, ideal para uso a pequeña escala u ocasional.

Recomendaciones para diferentes grupos de usuarios

  • Investigadores → Prefieren el acceso local para tener control total y flexibilidad en experimentos.
  • Desarrolladores → Usan API para pruebas rápidas y creación de aplicaciones; optan por local para entrenamiento personalizado.
  • Empresas → La API es excelente para una integración sencilla; el acceso local es adecuado para equipos con necesidades estables.
  • Equipos pequeños y particulares → La API es más económica y fácil de empezar.
  • Usuarios no técnicos → Definitivamente elijan la API—sin configuración compleja.

Ya seas investigador, desarrollador o equipo empresarial, Qwen 3 se adapta a tus necesidades. El acceso local proporciona control y personalización, mientras que las APIs ofrecen escalabilidad instantánea y una barrera de entrada baja. El diseño de Qwen 3 garantiza capacidades multilingües, de razonamiento y aumentadas con herramientas para tareas del mundo real.

Preguntas frecuentes

¿Qué hace diferente a Qwen 3 de otros LLM?

Admite modos de pensamiento dual, instrucciones multilingües sólidas y contexto largo (128k tokens), con pesos abiertos y licencia apta para uso comercial.

¿Puedo ejecutar Qwen 3 en mi PC?

Solo los modelos más pequeños (por ejemplo, 0.6B) son adecuados para GPUs de consumo. Los modelos más grandes requieren configuraciones A100/H100.

¿Es más fácil el acceso por API?

¡Sí! Novita AI y Hugging Face ofrecen APIs de Qwen 3 de bajo coste y plug-and-play, perfectas para integración rápida y uso de baja latencia.

Novita AI es la plataforma en la nube integral que impulsa tus ambiciones de IA. API integradas, sin servidor, instancias GPU — las herramientas rentables que necesitas. Elimina la infraestructura, comienza gratis y haz realidad tu visión de IA.

Lectura recomendada