Qwen 3 235B A22B sin derretir tu GPU: 3 formas fáciles con API

Qwen 3 235B A22B sin derretir tu GPU: 3 formas fáciles con API

Consigue $10 en API LLM

Puntos clave

Qwen 3 235B A22B es un potente modelo Mixto de Expertos (MoE) diseñado para tareas avanzadas de razonamiento, codificación y multilingüismo.

Ejecutarlo localmente requiere ~1128 GB de VRAM, el equivalente a 16× GPU A100 o 16× GPU H100, lo que lo hace inaccesible para la mayoría de los desarrolladores individuales.

Cómo acceder a Qwen 3 235B A22B mediante API: 3 métodos sencillos:
1.Integración directa con API usando endpoints compatibles con OpenAI
2.Flujos de trabajo multiagente con OpenAI Agents SDK
3.Integraciones de terceros a través de Hugging Face, LangChain, Dify y más

Qwen 3 235B A22B es uno de los modelos de lenguaje grandes más capaces disponibles hoy en día, con un rendimiento de primer nivel en razonamiento, matemáticas y tareas multilingües. Sin embargo, con un requisito de VRAM que supera 1 TB, ejecutarlo localmente es casi imposible para la mayoría de los desarrolladores. Afortunadamente, el acceso basado en API hace posible aprovechar este potencial sin la infraestructura pesada.

¿Qué es Qwen 3 235B A22B?

Introducción a Qwen 3 235B A22B

Rendimiento de Qwen 3 235B A22B

Rendimiento de Qwen 3 235B A22B

Fuente: Qwen

Requisitos de hardware de Qwen 3 235B A22B

Ejecutar Qwen 3 235B A22B localmente requiere ~1128 GB de VRAM, equivalente a:

  • 16× GPU A100 (80 GB)
  • o 16× GPU H100 (80 GB)

Esta configuración está fuera del alcance de la mayoría de los desarrolladores individuales o pequeños equipos.

La API es la opción más inteligente para la mayoría de los desarrolladores

  • Sin costes de configuración ni hardware
  • Acceso inmediato a modelos de vanguardia
  • Uso escalable según tus necesidades
  • Actualizaciones y mantenimiento continuos del modelo

Opción 1: Integración directa con API

Paso 1: Inicia sesión y accede a la biblioteca de modelos

Inicia sesión en tu cuenta y haz clic en el botón Model Library.

Inicia sesión y accede a la biblioteca de modelos

Paso 2: Elige tu modelo

Navega por las opciones disponibles y selecciona el modelo que se adapte a tus necesidades.

elige tu modelo

Paso 3: Comienza tu prueba gratuita

Inicia tu prueba gratuita para explorar las capacidades del modelo seleccionado.

comienza tu prueba gratuita

¡Prueba Qwen 3 235B A22B ahora!

Paso 4: Obtén tu clave API

Para autenticarte con la API, te proporcionaremos una nueva clave API. Entra en la página de “Settings“ y copia la clave API como se indica en la imagen.

obtén la clave API

Paso 5: Instala la API

Instala la API usando el gestor de paquetes específico de tu lenguaje de programación.

Después de la instalación, importa las librerías necesarias en tu entorno de desarrollo. Inicializa la API con tu clave API para empezar a interactuar con Novita AI LLM. Este es un ejemplo de uso de la API de chat completions para usuarios de Python.

from openai import OpenAI
  
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "qwen/qwen3-235b-a22b-fp8"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

Opción 2: Flujos de trabajo multiagente con OpenAI Agents SDK

El OpenAI Agents SDK es una evolución de grado de producción del proyecto SWARM de OpenAI, diseñado para simplificar el desarrollo de agentes de IA inteligentes, colaborativos y seguros. En su núcleo hay agentes basados en LLM que pueden configurarse con instrucciones personalizadas, roles y herramientas externas. El SDK ofrece potentes funciones como la conversión automática de funciones a herramientas con validación Pydantic, bucles de agente integrados para retroalimentación fluida de herramientas, delegación de tareas multiagente y barreras de seguridad robustas. Los desarrolladores se benefician de la orquestación nativa en Python, herramientas de trazado integradas para depuración y alta personalización, todo dentro de un marco ligero que requiere una curva de aprendizaje mínima.

1. Configura tu entorno Python e instala el SDK de Agents.

python -m venv env
source env/bin/activate
pip install openai-agents

2. Configura tu clave API de Novita.

obtén la clave API

Ve a la Consola y obtén 10 créditos

3. Un ejemplo de traspasos

import os
from openai import AsyncOpenAI
from agents import (
    Agent,
    Runner,
    set_default_openai_api,
    set_default_openai_client,
    set_tracing_disabled,
)

BASE_URL = "https://api.novita.ai/v3/openai"
API_KEY = os.getenv("NOVITA_API_KEY")
MODEL_NAME = os.getenv("MODEL_NAME")

# Because Novita not support the responses API so we use the chat completions API instead.
set_default_openai_api("chat_completions")
set_default_openai_client(AsyncOpenAI(base_url=BASE_URL, api_key=API_KEY))
# Disable tracing for this example
# Refer to https://openai.github.io/openai-agents-python/tracing/#external-tracing-processors-list to use the custom spans.
set_tracing_disabled(disabled=True)

agent = Agent(name="Assistant",
              instructions="You are a helpful assistant", model=MODEL_NAME)

result = Runner.run_sync(
    agent, "Write a haiku about recursion in programming.")
print(result.final_output)

# Code within the code,
# Functions calling themselves,
# Infinite loop's dance.

Opción 3: Integración de API de Qwen 3 con terceros

1.Integración con HuggingFace

Paso 1: Configura las claves API en Hugging Face

  • Accede al panel de configuración de tu cuenta para configurar tus claves API.
  • Introduce tus credenciales de autenticación de Novita AI en la plataforma Hugging Face. Configura las claves API en Hugging Face

Paso 2: Elige los modos de API de inferencia

  • Modo de clave personalizada (Custom Key Mode): Las llamadas se envían directamente al proveedor de inferencia, utilizando tu propia clave API.
  • Modo enrutado por HF (HF-Routed Mode): En este modo no se requiere ningún token de proveedor. Los cargos se aplican a tu cuenta de Hugging Face en lugar de a la cuenta del proveedor.

Paso 3: Haz clic en el botón de configuración, elige Novita AI como tu proveedor de API

deepsite con novita ai

2.Integración con agentes/marcos de trabajo con Novita AI

Novita AI es un socio de primera clase para muchos marcos de trabajo de agentes populares.
Puedes seleccionar directamente Novita como tu proveedor dentro de las plataformas. Cada uno viene con conectores oficiales y guías paso a paso, lo que facilita la integración para flujos de trabajo multiagente, agentes que llaman a herramientas y tareas de orquestación complejas.

3. Integración de API compatible con OpenAI

Para herramientas construidas sobre el estándar de API de OpenAI, Novita AI proporciona un reemplazo directo: todo lo que necesitas es una URL base y una clave API. Este método requiere cero refactorización y admite migración instantánea para aplicaciones que ya utilizan llamadas compatibles con OpenAI.

Preguntas frecuentes

¿Qué es Qwen 3 235B A22B?

Un modelo de lenguaje MoE de última generación de Alibaba con 235 billones de parámetros (22 billones activos por paso hacia adelante), que sobresale en lógica, matemáticas y tareas multilingües.

¿Por qué no puedo ejecutar Qwen 3 235B A22B localmente?

Requiere ~1128 GB de VRAM, muy por encima del hardware de consumo. Necesitarías 16× GPU A100 o H100.

¿Hay una prueba gratuita para usar Qwen 3 235B A22B?

Sí. Novita AI ofrece créditos gratuitos para explorar el modelo antes de comprometerte.

*Novita AI *es una plataforma en la nube de IA que ofrece a los desarrolladores una forma sencilla de implementar modelos de IA usando nuestra API simple, al mismo tiempo que proporciona la nube de GPU asequible y confiable para construir y escalar.

Lecturas recomendadas