A Série Qwen 3.5 Medium (27B, 35B-A3B, 122B-A10B) oferece modelos de linguagem de nível empresarial com necessidades variadas de VRAM:
- 27B: 17-54 GB (Q4_K_M a BF16)
- 35B-A3B: 22-69 GB (Q4_K_M a BF16)
- 122B-A10B: 77-244 GB (Q4_K_M a BF16)
Implante na Novita AI com opções flexíveis de GPU (H100, RTX 5090, RTX 4090) ou API serverless para gerenciamento zero de infraestrutura.
O que é a Série Qwen 3.5 Medium
A Série Qwen 3.5 Medium é composta por três modelos de linguagem de alto desempenho projetados para aplicações de nível de produção:
- Qwen3.5-27B: 27B parâmetros, desempenho equilibrado para tarefas gerais
- Qwen3.5-35B-A3B: 35B parâmetros totais com 3B ativos por token (arquitetura MoE)
- Qwen3.5-122B-A10B: 122B parâmetros totais com 10B ativos por token (arquitetura MoE)
Esses modelos se destacam em raciocínio, codificação, compreensão multilíngue e processamento de contexto longo.
Entender os requisitos de VRAM é crucial para uma implantação econômica — seja executando em GPUs dedicadas ou utilizando infraestrutura serverless.
Requisitos de VRAM por Modelo e Precisão
As necessidades de VRAM variam significativamente com base na precisão da quantização. Abaixo estão os requisitos de memória baseados nos dados de compatibilidade de hardware do Hugging Face.
⚠️ Nota: Esses valores representam os tamanhos dos pesos do modelo. O uso real de VRAM durante a inferência será 10-30% maior, dependendo do tamanho do lote, comprimento do contexto e sobrecarga do cache KV. Recomendamos escolher GPUs com pelo menos 10-20% de margem.
Qwen3.5-27B-GGUF
| Quantização | VRAM (GB) | Hardware Recomendado |
| BF16 | 54 | GPU: A100 × 1 (80GB) / H100 × 1 (80GB) |
| Q8_0 | 29 | CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM GPU: A100 40GB / RTX 4090 24GB (inferência mais rápida) |
| Q4_K_M | 17 | CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM GPU: RTX 4090 24GB / L40S 48GB (inferência mais rápida) |
💡 CPU vs GPU: Nas precisões Q8_0 e Q4_K_M, o modelo cabe dentro dos limites de RAM de CPU modernos (32-64 GB). No entanto, a inferência em GPU é 10-50× mais rápida, dependendo do tamanho do lote. Para cargas de trabalho de produção que exigem baixa latência ou alta taxa de transferência, a implantação em GPU é fortemente recomendada.
Qwen3.5-35B-A3B-GGUF
| Quantização | VRAM (GB) | Hardware Recomendado |
| BF16 | 69 | GPU: A100 × 1 (80GB) / H100 × 1 (80GB) |
| Q8_0 | 37 | GPU: L40S × 1 (48GB) / A100 40GB |
| Q4_K_M | 22 | CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM GPU: RTX 4090 24GB / L40S 48GB (inferência mais rápida) |
Qwen3.5-122B-A10B-GGUF
| Quantização | VRAM (GB) | Hardware Recomendado |
| BF16 | 244 | GPU: A100 × 4 (320GB) / H100 × 4 (320GB) |
| Q8_0 | 130 | GPU: A100 × 2 (160GB) / H100 × 2 (160GB) |
| Q4_K_M | 77 | GPU: A100 × 1 (80GB) / H100 × 1 (80GB) |
💡 Nota: O modelo 122B requer GPUs de alto nível mesmo com quantização agressiva devido ao seu tamanho. Configurações multi-GPU são essenciais para as precisões BF16 e Q8_0.
Implantando na Novita AI
A Novita AI fornece opções flexíveis de implantação para a Série Qwen 3.5 Medium, equilibrando desempenho, custo e facilidade de uso.
Implantação em GPU (Recomendado para Usuários Focados em VRAM)
A Novita AI oferece GPUs de alto desempenho otimizadas para implantar modelos Qwen 3.5 com opções de faturamento flexíveis:
Configurações Recomendadas de GPU
| Modelo | Quantização | VRAM Necessária | GPU Recomendada | Caso de Uso |
| 27B | BF16 | 54 GB | H100 80GB / RTX 5090 32GB × 2 | Produção, máxima qualidade |
| 27B | Q8_0 | 29 GB | RTX 5090 32GB / RTX 4090 24GB × 2 | Desempenho equilibrado |
| 27B | Q4_K_M | 17 GB | RTX 4090 24GB | Inferência econômica |
| 35B-A3B | BF16 | 69 GB | H100 80GB | Produção, máxima qualidade |
| 35B-A3B | Q8_0 | 37 GB | RTX 5090 32GB × 2 / H100 80GB | Desempenho equilibrado |
| 35B-A3B | Q4_K_M | 22 GB | RTX 4090 24GB | Inferência econômica |
| 122B-A10B | BF16 | 244 GB | H100 80GB × 4 | Empresarial, máxima qualidade |
| 122B-A10B | Q8_0 | 130 GB | H100 80GB × 2 | Desempenho equilibrado |
| 122B-A10B | Q4_K_M | 77 GB | H100 80GB | Inferência econômica |
Por que Implantação em GPU na Novita AI?
A Novita AI oferece opções de GPU em vários níveis de desempenho para corresponder à sua carga de trabalho e orçamento:
- GPUs de nível empresarial: Configurações de alta VRAM para precisões BF16 e Q8_0
- GPUs de consumo de alto desempenho: Custo/desempenho equilibrado para modelos de médio porte
- Opções econômicas: Configurações acessíveis para modelos quantizados (Q4_K_M)
- Configurações multi-GPU: Escale perfeitamente de 1× a 8× configurações de GPU
- Faturamento flexível: Sob demanda, instâncias spot e GPUs serverless (pague por segundo)
- Implantação instantânea: Modelos pré-configurados para configuração rápida
Explore Opções de GPU e Preços
API Serverless (Alternativa de Infraestrutura Zero)
Para usuários que preferem gerenciamento zero de infraestrutura, a Novita AI oferece endpoints de API Serverless com interfaces compatíveis com OpenAI.
Modelos Suportados
| Modelo | ID do Modelo |
| Qwen3.5-27B | qwen/qwen3.5-27b |
| Qwen3.5-35B-A3B | qwen/qwen3.5-35b-a3b |
| Qwen3.5-122B-A10B | qwen/qwen3.5-122b-a10b |
- URL Base: https://api.novita.ai/openai
Como Obter a Chave da API
- Cadastre-se em Novita AI
- Navegue até a seção Chaves de API no seu painel
- Clique em Criar Nova Chave e copie sua chave de API
- Adicione créditos à sua conta para começar a usar a API

Exemplo Rápido:
from openai import OpenAI
client = OpenAI(
api_key="<Sua Chave de API>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="qwen/qwen3.5-35b-a3b",
messages=[
{"role": "system", "content": "Você é um assistente útil."},
{"role": "user", "content": "Olá, como você está?"}
],
max_tokens=65536,
temperature=0.7
)
print(response.choices[0].message.content)
Escolhendo a Precisão Correta
BF16 (Precisão Total)
- Caso de uso: Ambientes de produção que exigem máxima qualidade
- Compensação: Maiores requisitos de VRAM
- Melhor para: Aplicações empresariais, benchmarks de pesquisa
Q8_0 (Quantização de 8 bits)
- Caso de uso: Desempenho e eficiência equilibrados
- Compensação: ~1-2% de perda de qualidade, redução de 50% de VRAM
- Melhor para: Inferência de alta taxa de transferência, produção sensível a custos
Q4_K_M (Quantização de 4 bits)
- Caso de uso: Implantação econômica em GPUs de consumo
- Compensação: ~3-5% de perda de qualidade, redução de 70-75% de VRAM
- Melhor para: Desenvolvimento, testes, implantações com orçamento limitado
Conclusão
A Série Qwen 3.5 Medium oferece modelos de linguagem poderosos para diversas necessidades empresariais, com requisitos de VRAM variando de 17 GB (27B Q4_K_M) a 244 GB (122B BF16).
Principais conclusões:
- Escolha a quantização com base nas compensações entre qualidade e custo
- A inferência em GPU é 10-50× mais rápida que em CPU para cargas de trabalho de produção
- A Novita AI oferece implantação flexível: aluguel de GPU (sob demanda/spot) ou API serverless
Próximos passos:
- Determine o tamanho do modelo e as necessidades de precisão
- Explore os preços de GPU ou endpoints de API da Novita AI
- Implante em minutos com modelos pré-configurados
Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer nuvem de GPU acessível e confiável para construir e escalar.
Perguntas Frequentes
O que é VRAM?
VRAM (Video Random Access Memory) é a memória dedicada na sua GPU usada para armazenar pesos do modelo, ativações e cálculos intermediários durante a inferência. Para LLMs como Qwen 3.5, os requisitos de VRAM escalam com o tamanho do modelo e a precisão — modelos maiores e precisão mais alta (ex.: BF16) precisam de mais VRAM do que versões quantizadas (ex.: Q4_K_M). VRAM insuficiente causará erros de falta de memória ou forçará você a usar inferência em CPU, que é significativamente mais lenta.
Posso executar modelos Qwen 3.5 Medium em CPU?
Sim, modelos quantizados menores (Q8_0 e Q4_K_M) podem ser executados em CPUs com 32-64 GB de RAM. No entanto, a inferência em CPU é 10-50× mais lenta que em GPU, tornando-a impraticável para cargas de trabalho de produção ou aplicações em tempo real. Para melhor desempenho, a implantação em GPU é fortemente recomendada mesmo para modelos quantizados.
Qual é a diferença entre BF16, Q8_0 e Q4_K_M?
BF16 (16 bits) é precisão total com máxima qualidade, mas maior uso de VRAM. Q8_0 (8 bits) reduz a VRAM em ~50% com perda mínima de qualidade (~1-2%). Q4_K_M (4 bits) corta a VRAM em 70-75%, mas pode introduzir degradação de qualidade de 3-5% — ideal para implantações sensíveis a custos onde pequenas trocas de precisão são aceitáveis.
