Die Qwen 3.5 Medium Series (27B, 35B-A3B, 122B-A10B) bietet leistungsstarke Sprachmodelle für Unternehmen mit unterschiedlichem VRAM-Bedarf:
- 27B: 17–54 GB (Q4_K_M bis BF16)
- 35B-A3B: 22–69 GB (Q4_K_M bis BF16)
- 122B-A10B: 77–244 GB (Q4_K_M bis BF16)
Stellen Sie auf Novita AI mit flexiblen GPU-Optionen (H100, RTX 5090, RTX 4090) oder einer serverlosen API bereit – ganz ohne Infrastrukturverwaltung.
Was ist die Qwen 3.5 Medium Series
Die Qwen 3.5 Medium Series umfasst drei leistungsstarke Sprachmodelle, die für produktionsreife Anwendungen konzipiert wurden:
- Qwen3.5-27B: 27B Parameter, ausgewogene Leistung für allgemeine Aufgaben
- Qwen3.5-35B-A3B: 35B Gesamtparameter mit 3B aktiven pro Token (MoE-Architektur)
- Qwen3.5-122B-A10B: 122B Gesamtparameter mit 10B aktiven pro Token (MoE-Architektur)
Diese Modelle zeichnen sich durch Reasoning, Code, mehrsprachiges Verständnis und die Verarbeitung langer Kontexte aus.
Das Verständnis der VRAM-Anforderungen ist entscheidend für eine kosteneffiziente Bereitstellung – egal, ob Sie auf dedizierten GPUs arbeiten oder eine serverlose Infrastruktur nutzen.
VRAM-Anforderungen nach Modell und Präzision
Die VRAM-Anforderungen variieren erheblich je nach Quantisierungspräzision. Nachfolgend finden Sie Speicheranforderungen basierend auf den Hardware-Kompatibilitätsdaten von Hugging Face.
⚠️ Hinweis: Diese Zahlen geben die Modellgewichtgrößen an. Der tatsächliche VRAM-Verbrauch während der Inferenz liegt je nach Batch-Größe, Kontextlänge und KV-Cache-Overhead 10–30 % höher. Wir empfehlen, GPUs mit mindestens 10–20 % Spielraum zu wählen.
Qwen3.5-27B-GGUF
| Quantisierung | VRAM (GB) | Empfohlene Hardware |
| BF16 | 54 | GPU: A100 × 1 (80 GB) / H100 × 1 (80 GB) |
| Q8_0 | 29 | CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM GPU: A100 40 GB / RTX 4090 24 GB (schnellere Inferenz) |
| Q4_K_M | 17 | CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM GPU: RTX 4090 24 GB / L40S 48 GB (schnellere Inferenz) |
💡 CPU vs. GPU: Bei Q8_0- und Q4_K_M-Präzision passt das Modell in moderne CPU-RAM-Grenzen (32–64 GB). Die GPU-Inferenz ist jedoch je nach Batch-Größe 10- bis 50-mal schneller. Für Produktionsworkloads, die eine niedrige Latenz oder einen hohen Durchsatz erfordern, wird die GPU-Bereitstellung dringend empfohlen.
Qwen3.5-35B-A3B-GGUF
| Quantisierung | VRAM (GB) | Empfohlene Hardware |
| BF16 | 69 | GPU: A100 × 1 (80 GB) / H100 × 1 (80 GB) |
| Q8_0 | 37 | GPU: L40S × 1 (48 GB) / A100 40 GB |
| Q4_K_M | 22 | CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM GPU: RTX 4090 24 GB / L40S 48 GB (schnellere Inferenz) |
Qwen3.5-122B-A10B-GGUF
| Quantisierung | VRAM (GB) | Empfohlene Hardware |
| BF16 | 244 | GPU: A100 × 4 (320 GB) / H100 × 4 (320 GB) |
| Q8_0 | 130 | GPU: A100 × 2 (160 GB) / H100 × 2 (160 GB) |
| Q4_K_M | 77 | GPU: A100 × 1 (80 GB) / H100 × 1 (80 GB) |
💡 Hinweis: Das 122B-Modell erfordert selbst bei aggressiver Quantisierung aufgrund seiner Größe High-End-GPUs. Multi-GPU-Setups sind für BF16- und Q8_0-Präzision unerlässlich.
Bereitstellung auf Novita AI
Novita AI bietet flexible Bereitstellungsoptionen für die Qwen 3.5 Medium Series, die Leistung, Kosten und Benutzerfreundlichkeit in Einklang bringen.
GPU-Bereitstellung (empfohlen für VRAM-fokussierte Benutzer)
Novita AI bietet leistungsstarke GPUs, die für die Bereitstellung von Qwen 3.5-Modellen optimiert sind, mit flexiblen Abrechnungsoptionen:
Empfohlene GPU-Konfigurationen
| Modell | Quantisierung | Benötigter VRAM | Empfohlene GPU | Anwendungsfall |
| 27B | BF16 | 54 GB | H100 80 GB / RTX 5090 32 GB × 2 | Produktion, maximale Qualität |
| 27B | Q8_0 | 29 GB | RTX 5090 32 GB / RTX 4090 24 GB × 2 | Ausgewogene Leistung |
| 27B | Q4_K_M | 17 GB | RTX 4090 24 GB | Kosteneffiziente Inferenz |
| 35B-A3B | BF16 | 69 GB | H100 80 GB | Produktion, maximale Qualität |
| 35B-A3B | Q8_0 | 37 GB | RTX 5090 32 GB × 2 / H100 80 GB | Ausgewogene Leistung |
| 35B-A3B | Q4_K_M | 22 GB | RTX 4090 24 GB | Kosteneffiziente Inferenz |
| 122B-A10B | BF16 | 244 GB | H100 80 GB × 4 | Enterprise, maximale Qualität |
| 122B-A10B | Q8_0 | 130 GB | H100 80 GB × 2 | Ausgewogene Leistung |
| 122B-A10B | Q4_K_M | 77 GB | H100 80 GB | Kosteneffiziente Inferenz |
Warum GPU-Bereitstellung auf Novita AI?
Novita AI bietet GPU-Optionen über mehrere Leistungsstufen hinweg, die zu Ihrem Workload und Budget passen:
- Enterprise-Grade GPUs: Hohe VRAM-Konfigurationen für BF16- und Q8_0-Präzision
- Hochleistungs-Consumer-GPUs: Ausgewogenes Preis-/Leistungsverhältnis für mittelgroße Modelle
- Kosteneffiziente Optionen: Erschwingliche Konfigurationen für quantisierte Modelle (Q4_K_M)
- Multi-GPU-Setups: Nahtlose Skalierung von 1× bis 8× GPU-Konfigurationen
- Flexible Abrechnung: On-Demand, Spot-Instanzen und serverlose GPUs (Pay-per-Second)
- Sofortige Bereitstellung: Vorkonfigurierte Vorlagen für den schnellen Start
GPU-Optionen und Preise erkunden
Serverlose API (Null-Infrastruktur-Alternative)
Für Benutzer, die keine Infrastruktur verwalten möchten, bietet Novita AI serverlose API-Endpunkte mit OpenAI-kompatiblen Schnittstellen.
Unterstützte Modelle
| Modell | Modell-ID |
| Qwen3.5-27B | qwen/qwen3.5-27b |
| Qwen3.5-35B-A3B | qwen/qwen3.5-35b-a3b |
| Qwen3.5-122B-A10B | qwen/qwen3.5-122b-a10b |
- Basis-URL: https://api.novita.ai/openai
So erhalten Sie einen API-Schlüssel
- Registrieren Sie sich unter Novita AI
- Navigieren Sie zum Bereich API-Schlüssel in Ihrem Dashboard
- Klicken Sie auf Neuen Schlüssel erstellen und kopieren Sie Ihren API-Schlüssel
- Fügen Sie Ihrem Konto Guthaben hinzu, um die API nutzen zu können

Kurzes Beispiel:
from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="qwen/qwen3.5-35b-a3b",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=65536,
temperature=0.7
)
print(response.choices[0].message.content)
Die richtige Präzision wählen
BF16 (volle Präzision)
- Anwendungsfall: Produktionsumgebungen, die maximale Qualität erfordern
- Kompromiss: Höchste VRAM-Anforderungen
- Am besten geeignet für: Enterprise-Anwendungen, Forschungs-Benchmarks
Q8_0 (8-Bit-Quantisierung)
- Anwendungsfall: Ausgewogene Leistung und Effizienz
- Kompromiss: ~1–2 % Qualitätsverlust, 50 % VRAM-Reduktion
- Am besten geeignet für: Hochdurchsatz-Inferenz, kostenbewusste Produktion
Q4_K_M (4-Bit-Quantisierung)
- Anwendungsfall: Kosteneffiziente Bereitstellung auf Consumer-GPUs
- Kompromiss: ~3–5 % Qualitätsverlust, 70–75 % VRAM-Reduktion
- Am besten geeignet für: Entwicklung, Tests, Budget-beschränkte Bereitstellungen
Fazit
Die Qwen 3.5 Medium Series bietet leistungsstarke Sprachmodelle für unterschiedliche Unternehmensanforderungen, mit VRAM-Anforderungen von 17 GB (27B Q4_K_M) bis 244 GB (122B BF16).
Wichtige Erkenntnisse:
- Wählen Sie die Quantisierung basierend auf dem Kompromiss zwischen Qualität und Kosten
- Die GPU-Inferenz ist für Produktionsworkloads 10- bis 50-mal schneller als die CPU
- Novita AI bietet flexible Bereitstellung: GPU-Miete (On-Demand/Spot) oder serverlose API
Nächste Schritte:
- Bestimmen Sie Ihre Modellgröße und Präzisionsanforderungen
- Entdecken Sie Novita AIs GPU-Preise oder API-Endpunkte
- Stellen Sie in Minuten mit vorkonfigurierten Vorlagen bereit
Novita AI ist eine KI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, KI-Modelle über unsere einfache API bereitzustellen und gleichzeitig eine erschwingliche und zuverlässige GPU-Cloud zum Aufbau und zur Skalierung bereitstellt.
Häufig gestellte Fragen
Was ist VRAM?
VRAM (Video Random Access Memory) ist der dedizierte Speicher auf Ihrer GPU, der zum Speichern von Modellgewichten, Aktivierungen und Zwischenberechnungen während der Inferenz verwendet wird. Bei LLMs wie Qwen 3.5 skalieren die VRAM-Anforderungen mit der Modellgröße und Präzision – größere Modelle und höhere Präzision (z. B. BF16) benötigen mehr VRAM als quantisierte Versionen (z. B. Q4_K_M). Unzureichender VRAM führt zu Out-of-Memory-Fehlern oder zwingt Sie zur Verwendung der CPU-Inferenz, die erheblich langsamer ist.
Kann ich Qwen 3.5 Medium-Modelle auf der CPU ausführen?
Ja, kleinere quantisierte Modelle (Q8_0 und Q4_K_M) können auf CPUs mit 32–64 GB RAM ausgeführt werden. Die CPU-Inferenz ist jedoch 10- bis 50-mal langsamer als die GPU, was sie für Produktionsworkloads oder Echtzeitanwendungen unpraktisch macht. Für beste Leistung wird auch bei quantisierten Modellen die GPU-Bereitstellung dringend empfohlen.
Was ist der Unterschied zwischen BF16, Q8_0 und Q4_K_M?
BF16 (16-Bit) ist volle Präzision mit maximaler Qualität, aber höchstem VRAM-Verbrauch. Q8_0 (8-Bit) reduziert den VRAM um ~50 % bei minimalem Qualitätsverlust (~1–2 %). Q4_K_M (4-Bit) senkt den VRAM um 70–75 %, kann aber eine Qualitätsminderung von 3–5 % mit sich bringen – ideal für kostensensible Bereitstellungen, bei denen geringe Genauigkeitseinbußen akzeptabel sind.
