Acceso a Qwen3.5-397B-A17B: Web, API y despliegue local

Acceso a Qwen3.5-397B-A17B: Web, API y despliegue local

Los desarrolladores que exploran potentes modelos de lenguaje de peso abierto se enfrentan a una pregunta común: ¿cómo empiezo realmente a usar este modelo? Qwen3.5-397B-A17B ofrece tres rutas de acceso diferenciadas: chat web instantáneo para pruebas, APIs gestionadas para aplicaciones de producción y despliegue autogestionado para control total. Cada método se adapta a diferentes escenarios, desde prototipado rápido hasta inferencia a escala empresarial.

Esta guía recorre todos los métodos de acceso con instrucciones de configuración, datos de precios reales y requisitos de hardware. Aprenderás qué ruta se adapta a tu caso de uso y cómo empezar en cuestión de minutos.

¿Qué es Qwen3.5-397B-A17B?

Qwen3.5-397B-A17B es el modelo de lenguaje insignia de peso abierto de Alibaba Cloud, basado en una arquitectura Mixture-of-Experts (MoE) con 403 mil millones de parámetros totales y 17 mil millones de parámetros activos por token. El modelo maneja 262,144 tokens de contexto (ventana de contexto de 256k) y admite entradas multimodales nativas, incluyendo texto e imágenes. Según los benchmarks de Artificial Analysis, Qwen3.5-397B-A17B alcanza una puntuación GDPval-AA ELO de 1,221, lo que representa un aumento de 361 puntos respecto al modelo anterior Qwen3 235B (860). El modelo muestra particular fortaleza en tareas de codificación, razonamiento y agentes, manteniendo al mismo tiempo la eficiencia de costes gracias a su arquitectura MoE.

Benchmark de Qwen3.5-397B-A17B

De Artificial Analysis

Prueba el excelente Qwen 3.5

Resumen de benchmarks de Qwen3.5-397B-A17B

Categoría Benchmark Puntuación Modelo líder
Seguimiento de instrucciones IFBench 76.5 Qwen3.5
Tareas complejas MultiChallenge 67.6 Qwen3.5
Agente / Navegación BrowseComp 78.6 Qwen3.5
Razonamiento científico GPQA Diamond 88.4 Qwen3.5 (modelos abiertos)
Conocimiento MMLU-Pro 87.8 Gemini
Conocimiento MMLU-Redux 94.9 Gemini
Conocimiento C-Eval 93.0 Competitivo
Codificación LiveCodeBench v6 83.6 Gemini / GPT
Multimodal MMMU 85.0 Competitivo
Multimodal MathVision 88.6 Competitivo
Multimodal OCRBench 93.1 Competitivo
Multimodal Video-MME 87.5 Competitivo

Qwen3.5-397B obtiene sus mejores resultados en benchmarks de seguimiento de instrucciones y orientados a agentes, incluyendo IFBench, MultiChallenge y BrowseComp, donde lidera frente a otros modelos competidores. También alcanza un estado del arte entre los modelos abiertos en GPQA Diamond, lo que indica una sólida capacidad de razonamiento científico.

En benchmarks de conocimiento más amplios como MMLU-Pro y MMLU-Redux, el rendimiento es alto pero generalmente ligeramente por detrás de los modelos propietarios líderes. Los benchmarks de codificación muestran resultados competitivos sin liderar el campo.

En general, el perfil de benchmarks sugiere que Qwen3.5 está optimizado para instrucciones complejas, uso de herramientas y flujos de trabajo de agentes, en lugar de maximizar puramente los benchmarks académicos tradicionales como la codificación o la recuperación de conocimiento.

Método 1: Acceso por chat web (el más rápido)

Ideal para: Pruebas rápidas, experimentación, demostraciones y casos de uso no productivos donde necesitas acceso inmediato sin claves API ni infraestructura.

Prueba Qwen3.5-397B-A17B en la web

Tiempo de configuración: Menos de 1 minuto

La interfaz de chat oficial de Qwen proporciona acceso instantáneo a Qwen3.5-397B-A17B a través de tu navegador:

  1. Navega a Novita AI
  2. Selecciona Qwen3.5-397B-A17B del menú desplegable de modelos
  3. Elige entre el modo “Thinking” para tareas de razonamiento profundo
  4. Empieza a chatear inmediatamente — sin necesidad de crear cuenta ni claves API

Limitaciones

  • Sin acceso programático — solo interfaz web, sin integración API
  • Límites de velocidad aplicables — diseñado para uso interactivo, no para procesamiento por lotes
  • Sin ajuste fino — utilizas el modelo base tal cual
  • Persistencia de contexto limitada — el historial de la conversación es gestionado por la interfaz

Prueba el excelente Qwen 3.5

Método 2: Acceso API a través de Novita AI (Producción)

Ideal para: Aplicaciones de producción, integraciones personalizadas, acceso programático, inferencia escalable y aplicaciones que requieren un formato de API compatible con OpenAI.

Tiempo de configuración: 5 minutos

Novita AI proporciona acceso API gestionado a Qwen3.5-397B-A17B con precios competitivos entre los principales proveedores: $0.60 por 1M de tokens de entrada y $3.60 por 1M de tokens de salida. El servicio ofrece endpoints compatibles con OpenAI, lo que facilita la integración para desarrolladores ya familiarizados con el SDK de OpenAI.

Los proveedores de API más baratos de Qwen3.5-397B-A17B

De HuggingFace

Configuración paso a paso

Paso 1: Inicia sesión y accede a la biblioteca de modelos

Inicia sesión en tu cuenta y haz clic en el botón Model Library.

Inicia sesión y accede a la biblioteca de modelos

Paso 2: Elige tu modelo

Navega por las opciones disponibles y selecciona el modelo que se adapte a tus necesidades.

Elige tu modelo

Paso 3: Comienza tu prueba gratuita

Inicia tu prueba gratuita para explorar las capacidades del modelo seleccionado.

Inicia una prueba gratuita de Qwen 3.5 397B A17B

Prueba el excelente Qwen 3.5

Paso 4: Obtén tu clave API

Para autenticarte con la API, te proporcionaremos una nueva clave API. Entra en la página de “Settings”, puedes copiar la clave API como se indica en la imagen.

Obtén la clave API

Paso 5: Instala la API

Instala la API usando el gestor de paquetes específico de tu lenguaje de programación. Puedes gestionar tus claves API desde la página de Settings de Novita AI.

Después de la instalación, importa las bibliotecas necesarias en tu entorno de desarrollo. Inicializa la API con tu clave API para empezar a interactuar con Novita AI LLM. Este es un ejemplo de uso de la API de completado de chat para usuarios de Python.

from openai import OpenAI

client = OpenAI(
    api_key="<Tu clave API>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="qwen/qwen3.5-397b-a17b",
    messages=[
        {"role": "system", "content": "Eres un asistente útil."},
        {"role": "user", "content": "Hola, ¿cómo estás?"}
    ],
    max_tokens=64000,
    temperature=0.7
)

print(response.choices[0].message.content)

Características de la API

Característica Disponibilidad
Compatibilidad con OpenAI ✅ Soporte completo
Respuestas en streaming ✅ Compatible
Llamadas a funciones ✅ Compatible
Ventana de contexto 262,144 tokens
Entrada multimodal ✅ Texto + Imágenes
SLA/Tiempo de actividad Infraestructura de nivel empresarial

El precio de Novita AI para Qwen3.5-397B-A17B se encuentra entre los más competitivos del mercado. La API compatible con OpenAI significa que puedes integrarla en aplicaciones existentes cambiando solo la URL base y la clave API — sin necesidad de refactorizar código.

Integración con herramientas de desarrollo

Conecta Qwen 3 sin problemas a tus aplicaciones, flujos de trabajo o chatbots con la API REST unificada de Novita AI — sin necesidad de gestionar pesos de modelos ni infraestructura. Novita AI ofrece SDKs multilingües (Python, Node.js, cURL y más) y controles avanzados de parámetros para usuarios avanzados.

Integración con Claude Code

Claude Code utiliza variables de entorno para enrutar solicitudes a endpoints de modelos personalizados. Establece estas cuatro variables antes de iniciar Claude Code:

Para macOS/Linux:

# Establece el endpoint de API compatible con Anthropic SDK proporcionado por Novita.
export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Clave API de Novita>"
# Establece el modelo proporcionado por Novita.
export ANTHROPIC_MODEL="qwen/qwen3.5-397b-a17b"
export ANTHROPIC_SMALL_FAST_MODEL="qwen/qwen3.5-397b-a17b"

Para Windows (PowerShell):

$env:ANTHROPIC_BASE_URL = "https://api.novita.ai/anthropic"
$env:ANTHROPIC_AUTH_TOKEN = "Clave API de Novita"
$env:ANTHROPIC_MODEL = "qwen/qwen3.5-397b-a17b"
$env:ANTHROPIC_SMALL_FAST_MODEL = "qwen/qwen3.5-397b-a17b"

Integración con Trae IDE

  1. Abre Trae y activa la Barra lateral de IA
  2. Navega a AI Management → Models
  3. Haz clic en Add Custom Model
  4. Selecciona Novita AI como proveedor
  5. Ingresa tu clave API y selecciona qwen/qwen3.5-397b-a17b
  6. Guarda la configuración y empieza a codificar

Integración con OpenCode CLI

# Lanza OpenCode
opencode

# Conéctate a Novita AI
/connect

# Selecciona Novita AI como proveedor, pega la clave API
# Elige qwen/qwen3.5-397b-a17b de la lista de modelos

Método 3: Despliegue local (Control total)

Ideal para: Requisitos de privacidad de datos, inferencia sin conexión, tuberías de inferencia personalizadas, entornos de investigación o escenarios donde necesitas control completo sobre la ejecución del modelo.

Tiempo de configuración: 1-2 horas

El despliegue local te da control total pero requiere recursos de hardware significativos. Los pesos completos del modelo ocupan aproximadamente 807 GB de espacio en disco en precisión completa.

Requisitos de hardware

Nivel de precisión VRAM/RAM requerida Hardware recomendado
Cuantización de 8 bits Alrededor de 420 GB 5× H100 80GB o equivalente
Cuantización de 4 bits Alrededor de 200 GB M3 Ultra Mac (256 GB de memoria unificada) o 1×GPU 24GB + 256 GB de RAM del sistema

Según la guía de despliegue de Unsloth, la versión cuantizada a 4 bits alcanza más de 25 tokens por segundo en un sistema con una GPU de 24 GB y 256 GB de RAM del sistema utilizando técnicas de descarga de MoE. Esto hace que la cuantización de 4 bits sea la opción más práctica para implementaciones en consumidores de alta gama o pequeñas empresas.

Alquiler de GPU en la nube para despliegue local

Si careces del hardware pero aún deseas un despliegue autogestionado, las instancias de GPU en la nube ofrecen un punto intermedio. Basado en los precios de instancias GPU de Novita AI:

Configuración Coste por hora (bajo demanda) Coste por hora (Spot) Caso de uso
5× H100 80GB $12.95/hora $6.5/hora Cuantización de 8 bits, nivel de producción
1× RTX 4090 24GB $0.73/hora $0.37/hora Cuantización de 4 bits, rentable

El modo Spot de Novita AI es un sistema de alquiler de GPU optimizado en costes que aprovecha la capacidad inactiva o no utilizada de la plataforma. A diferencia de las instancias bajo demanda, que reservan hardware dedicado para un uso estable y continuo, las instancias Spot son interrumpibles: tu trabajo puede pausarse o terminarse si la GPU es reclamada por el sistema. Debido a que el modo Spot reasigna recursos GPU que de otro modo no se usarían, suele ser un 40-60% más barato que el precio bajo demanda.

¡Prueba GPU rentable ahora!

Tabla comparativa de métodos

Método Tiempo de configuración Coste Ideal para
Chat web (Novita AI LLM Playground) <1 minuto Gratis (con límites de velocidad) Pruebas rápidas, demostraciones, experimentación
API a través de Novita AI 5 minutos $0.60/$3.60 por 1M de tokens Aplicaciones de producción, inferencia escalable, integraciones personalizadas
Despliegue local (INT4) 1-2 horas Coste de hardware y sistema con 256 GB de RAM Privacidad de datos, uso sin conexión, control total
Alquiler de GPU en la nube (INT4) 30 minutos $0.37/hora Inferencia de alto volumen

Qwen3.5-397B-A17B ofrece rutas de acceso flexibles para diferentes escenarios de despliegue. Para pruebas inmediatas, el Novita AI LLM Playground no requiere configuración y proporciona acceso instantáneo tanto al modo de razonamiento como al modo rápido. Para aplicaciones de producción que requieren acceso programático, la API de Novita AI ofrece el mejor equilibrio coste-rendimiento a $0.60/$3.60 por 1M de tokens de entrada/salida con endpoints compatibles con OpenAI que se integran perfectamente en bases de código existentes.

El despliegue local sigue siendo viable para equipos con requisitos específicos de privacidad o necesidades de inferencia de volumen extremadamente alto. La versión cuantizada INT4 puede ejecutarse en hardware de consumo de gama alta con 256 GB de RAM, alcanzando más de 25 tokens por segundo. Sin embargo, para la mayoría de los desarrolladores y pequeñas y medianas empresas, el acceso API gestionado elimina la complejidad de la infraestructura a la vez que ofrece fiabilidad de nivel empresarial.

Preguntas frecuentes

¿Cuánto cuesta Qwen3.5-397B-A17B a través de API?

Novita AI cobra $0.60 por 1M de tokens de entrada y $3.60 por 1M de tokens de salida para Qwen3.5-397B-A17B — entre las tarifas más competitivas disponibles.

¿Puedo ejecutar Qwen3.5-397B-A17B en hardware de consumo?

Sí, con cuantización INT4, Qwen3.5-397B-A17B se ejecuta en sistemas con 256 GB de RAM (como M3 Ultra Mac) a más de 25 tokens/s, requiriendo aproximadamente 214 GB de espacio en disco.

¿Qwen3.5-397B-A17B soporta llamadas a funciones?

Sí, Qwen3.5-397B-A17B soporta llamadas a funciones cuando se accede a través de proveedores de API como Novita AI utilizando endpoints compatibles con OpenAI.

Novita AI es una plataforma en la nube de IA y agentes que ayuda a desarrolladores y startups a construir, desplegar y escalar modelos y aplicaciones de agentes con alto rendimiento, fiabilidad y eficiencia de costes.

Lecturas recomendadas