La serie Qwen 3.5 Medium (27B, 35B-A3B, 122B-A10B) ofrece modelos de lenguaje de nivel empresarial con necesidades de VRAM variables:
- 27B: 17-54 GB (Q4_K_M a BF16)
- 35B-A3B: 22-69 GB (Q4_K_M a BF16)
- 122B-A10B: 77-244 GB (Q4_K_M a BF16)
Impleméntala en Novita AI con opciones flexibles de GPU (H100, RTX 5090, RTX 4090) o con API serverless para una gestión de infraestructura cero.
¿Qué es la serie Qwen 3.5 Medium?
La serie Qwen 3.5 Medium incluye tres modelos de lenguaje de alto rendimiento diseñados para aplicaciones de nivel de producción:
- Qwen3.5-27B: 27B parámetros, rendimiento equilibrado para tareas generales
- Qwen3.5-35B-A3B: 35B parámetros totales con 3B activos por token (arquitectura MoE)
- Qwen3.5-122B-A10B: 122B parámetros totales con 10B activos por token (arquitectura MoE)
Estos modelos destacan en razonamiento, codificación, comprensión multilingüe y procesamiento de contextos largos.
Comprender los requisitos de VRAM es fundamental para una implementación rentable, ya sea que se ejecute en GPUs dedicadas o aprovechando infraestructura serverless.
Requisitos de VRAM por modelo y precisión
Las necesidades de VRAM varían significativamente según la precisión de cuantización. A continuación se presentan los requisitos de memoria basados en los datos de compatibilidad de hardware de Hugging Face.
⚠️ Nota: Estas cifras representan los tamaños de los pesos del modelo. El uso real de VRAM durante la inferencia será un 10-30% mayor dependiendo del tamaño del lote, la longitud del contexto y la sobrecarga de la caché KV. Recomendamos elegir GPUs con al menos un 10-20% de margen adicional.
Qwen3.5-27B-GGUF
| Cuantización | VRAM (GB) | Hardware recomendado |
| BF16 | 54 | GPU: A100 × 1 (80GB) / H100 × 1 (80GB) |
| Q8_0 | 29 | CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM GPU: A100 40GB / RTX 4090 24GB (inferencia más rápida) |
| Q4_K_M | 17 | CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM GPU: RTX 4090 24GB / L40S 48GB (inferencia más rápida) |
💡 CPU vs GPU: En precisiones Q8_0 y Q4_K_M, el modelo cabe dentro de los límites de RAM de una CPU moderna (32-64 GB). Sin embargo, la inferencia en GPU es 10-50× más rápida según el tamaño del lote. Para cargas de trabajo de producción que requieran baja latencia o alto rendimiento, se recomienda encarecidamente la implementación en GPU.
Qwen3.5-35B-A3B-GGUF
| Cuantización | VRAM (GB) | Hardware recomendado |
| BF16 | 69 | GPU: A100 × 1 (80GB) / H100 × 1 (80GB) |
| Q8_0 | 37 | GPU: L40S × 1 (48GB) / A100 40GB |
| Q4_K_M | 22 | CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM GPU: RTX 4090 24GB / L40S 48GB (inferencia más rápida) |
Qwen3.5-122B-A10B-GGUF
| Cuantización | VRAM (GB) | Hardware recomendado |
| BF16 | 244 | GPU: A100 × 4 (320GB) / H100 × 4 (320GB) |
| Q8_0 | 130 | GPU: A100 × 2 (160GB) / H100 × 2 (160GB) |
| Q4_K_M | 77 | GPU: A100 × 1 (80GB) / H100 × 1 (80GB) |
💡 Nota: El modelo de 122B requiere GPUs de alta gama incluso con cuantización agresiva debido a su tamaño. Las configuraciones multi-GPU son esenciales para las precisiones BF16 y Q8_0.
Implementación en Novita AI
Novita AI ofrece opciones de implementación flexibles para la serie Qwen 3.5 Medium, equilibrando rendimiento, costo y facilidad de uso.
Implementación en GPU (Recomendada para usuarios centrados en VRAM)
Novita AI ofrece GPUs de alto rendimiento optimizadas para implementar modelos Qwen 3.5 con opciones de facturación flexibles:
Configuraciones de GPU recomendadas
| Modelo | Cuantización | VRAM necesaria | GPU recomendada | Caso de uso |
| 27B | BF16 | 54 GB | H100 80GB / RTX 5090 32GB × 2 | Producción, máxima calidad |
| 27B | Q8_0 | 29 GB | RTX 5090 32GB / RTX 4090 24GB × 2 | Rendimiento equilibrado |
| 27B | Q4_K_M | 17 GB | RTX 4090 24GB | Inferencia rentable |
| 35B-A3B | BF16 | 69 GB | H100 80GB | Producción, máxima calidad |
| 35B-A3B | Q8_0 | 37 GB | RTX 5090 32GB × 2 / H100 80GB | Rendimiento equilibrado |
| 35B-A3B | Q4_K_M | 22 GB | RTX 4090 24GB | Inferencia rentable |
| 122B-A10B | BF16 | 244 GB | H100 80GB × 4 | Empresarial, máxima calidad |
| 122B-A10B | Q8_0 | 130 GB | H100 80GB × 2 | Rendimiento equilibrado |
| 122B-A10B | Q4_K_M | 77 GB | H100 80GB | Inferencia rentable |
¿Por qué implementar en GPU con Novita AI?
Novita AI ofrece opciones de GPU en varios niveles de rendimiento para adaptarse a tu carga de trabajo y presupuesto:
- GPUs de nivel empresarial: configuraciones de alta VRAM para precisiones BF16 y Q8_0
- GPUs de consumo de alto rendimiento: relación precio/rendimiento equilibrada para modelos medianos
- Opciones rentables: configuraciones asequibles para modelos cuantizados (Q4_K_M)
- Configuraciones multi-GPU: escalado sin problemas desde configuraciones de 1× hasta 8× GPU
- Facturación flexible: instancias bajo demanda, spot y serverless (pago por segundo)
- Implementación instantánea: plantillas preconfiguradas para una configuración rápida
Explora las opciones y precios de GPU
API Serverless (Alternativa de infraestructura cero)
Para los usuarios que prefieren una gestión de infraestructura nula, Novita AI ofrece endpoints de API serverless con interfaces compatibles con OpenAI.
Modelos compatibles
| Modelo | ID del modelo |
| Qwen3.5-27B | qwen/qwen3.5-27b |
| Qwen3.5-35B-A3B | qwen/qwen3.5-35b-a3b |
| Qwen3.5-122B-A10B | qwen/qwen3.5-122b-a10b |
- URL base: https://api.novita.ai/openai
Cómo obtener la clave de API
- Regístrate en Novita AI
- Ve a la sección API Keys en tu panel de control
- Haz clic en Create New Key y copia tu clave de API
- Añade créditos a tu cuenta para empezar a usar la API

Ejemplo rápido:
from openai import OpenAI
client = OpenAI(
api_key="<Tu clave de API>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="qwen/qwen3.5-35b-a3b",
messages=[
{"role": "system", "content": "Eres un asistente útil."},
{"role": "user", "content": "Hola, ¿cómo estás?"}
],
max_tokens=65536,
temperature=0.7
)
print(response.choices[0].message.content)
Cómo elegir la precisión adecuada
BF16 (Precisión completa)
- Caso de uso: Entornos de producción que requieren máxima calidad
- Compensación: Mayores requisitos de VRAM
- Mejor para: Aplicaciones empresariales, benchmarks de investigación
Q8_0 (Cuantización de 8 bits)
- Caso de uso: Rendimiento y eficiencia equilibrados
- Compensación: Pérdida de calidad de ~1-2%, reducción de VRAM del 50%
- Mejor para: Inferencia de alto rendimiento, producción sensible al costo
Q4_K_M (Cuantización de 4 bits)
- Caso de uso: Implementación rentable en GPUs de consumo
- Compensación: Pérdida de calidad de ~3-5%, reducción de VRAM del 70-75%
- Mejor para: Desarrollo, pruebas, implementaciones con presupuesto limitado
Conclusión
La serie Qwen 3.5 Medium ofrece potentes modelos de lenguaje para diversas necesidades empresariales, con requisitos de VRAM que van desde 17 GB (27B Q4_K_M) hasta 244 GB (122B BF16).
Conclusiones clave:
- Elige la cuantización según las compensaciones entre calidad y costo
- La inferencia en GPU es 10-50× más rápida que en CPU para cargas de trabajo de producción
- Novita AI ofrece implementación flexible: alquiler de GPU (bajo demanda/spot) o API serverless
Próximos pasos:
- Determina el tamaño de modelo y las necesidades de precisión
- Explora los precios de GPU de Novita AI o los endpoints de API
- Implementa en minutos con plantillas preconfiguradas
Novita AI es una plataforma de nube de IA que ofrece a los desarrolladores una forma sencilla de implementar modelos de IA mediante nuestra API simple, al mismo tiempo que proporciona una nube de GPU asequible y fiable para construir y escalar.
Preguntas frecuentes
¿Qué es VRAM?
VRAM (Video Random Access Memory) es la memoria dedicada en tu GPU que se utiliza para almacenar los pesos del modelo, las activaciones y los cálculos intermedios durante la inferencia. Para LLMs como Qwen 3.5, los requisitos de VRAM escalan con el tamaño del modelo y la precisión: los modelos más grandes y de mayor precisión (por ejemplo, BF16) necesitan más VRAM que las versiones cuantizadas (por ejemplo, Q4_K_M). Una VRAM insuficiente provocará errores de falta de memoria o te obligará a usar inferencia en CPU, que es significativamente más lenta.
¿Puedo ejecutar los modelos Qwen 3.5 Medium en CPU?
Sí, los modelos cuantizados más pequeños (Q8_0 y Q4_K_M) se pueden ejecutar en CPUs con 32-64 GB de RAM. Sin embargo, la inferencia en CPU es 10-50× más lenta que en GPU, lo que la hace poco práctica para cargas de trabajo de producción o aplicaciones en tiempo real. Para un rendimiento óptimo, se recomienda encarecidamente la implementación en GPU incluso para modelos cuantizados.
¿Cuál es la diferencia entre BF16, Q8_0 y Q4_K_M?
BF16 (16 bits) es precisión completa con la máxima calidad pero el mayor uso de VRAM. Q8_0 (8 bits) reduce la VRAM en ~50% con una pérdida mínima de calidad (~1-2%). Q4_K_M (4 bits) reduce la VRAM en un 70-75% pero puede introducir una degradación de calidad del 3-5%: ideal para implementaciones sensibles al costo donde se aceptan ligeras compensaciones en precisión.
