Qwen 3.5 Medium Series VRAM-Anforderungen: 27B, 35B, 122B GPU-Bereitstellungsleitfaden

Inhaltsverzeichnis

Was ist die Qwen 3.5 Medium Series
VRAM-Anforderungen nach Modell und Präzision
Bereitstellung auf Novita AI
Die richtige Präzision wählen
Fazit

Die Qwen 3.5 Medium Series (27B, 35B-A3B, 122B-A10B) bietet leistungsstarke Sprachmodelle für Unternehmen mit unterschiedlichem VRAM-Bedarf:

27B: 17–54 GB (Q4_K_M bis BF16)
35B-A3B: 22–69 GB (Q4_K_M bis BF16)
122B-A10B: 77–244 GB (Q4_K_M bis BF16)

Stellen Sie auf Novita AI mit flexiblen GPU-Optionen (H100, RTX 5090, RTX 4090) oder einer serverlosen API bereit – ganz ohne Infrastrukturverwaltung.

Was ist die Qwen 3.5 Medium Series

Die Qwen 3.5 Medium Series umfasst drei leistungsstarke Sprachmodelle, die für produktionsreife Anwendungen konzipiert wurden:

Qwen3.5-27B: 27B Parameter, ausgewogene Leistung für allgemeine Aufgaben
Qwen3.5-35B-A3B: 35B Gesamtparameter mit 3B aktiven pro Token (MoE-Architektur)
Qwen3.5-122B-A10B: 122B Gesamtparameter mit 10B aktiven pro Token (MoE-Architektur)

Diese Modelle zeichnen sich durch Reasoning, Code, mehrsprachiges Verständnis und die Verarbeitung langer Kontexte aus.

Das Verständnis der VRAM-Anforderungen ist entscheidend für eine kosteneffiziente Bereitstellung – egal, ob Sie auf dedizierten GPUs arbeiten oder eine serverlose Infrastruktur nutzen.

VRAM-Anforderungen nach Modell und Präzision

Die VRAM-Anforderungen variieren erheblich je nach Quantisierungspräzision. Nachfolgend finden Sie Speicheranforderungen basierend auf den Hardware-Kompatibilitätsdaten von Hugging Face.

⚠️ Hinweis: Diese Zahlen geben die Modellgewichtgrößen an. Der tatsächliche VRAM-Verbrauch während der Inferenz liegt je nach Batch-Größe, Kontextlänge und KV-Cache-Overhead 10–30 % höher. Wir empfehlen, GPUs mit mindestens 10–20 % Spielraum zu wählen.

Qwen3.5-27B-GGUF


Quantisierung	VRAM (GB)	Empfohlene Hardware
BF16	54	GPU: A100 × 1 (80 GB) / H100 × 1 (80 GB)
Q8_0	29	CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM GPU: A100 40 GB / RTX 4090 24 GB (schnellere Inferenz)
Q4_K_M	17	CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM GPU: RTX 4090 24 GB / L40S 48 GB (schnellere Inferenz)

💡 CPU vs. GPU: Bei Q8_0- und Q4_K_M-Präzision passt das Modell in moderne CPU-RAM-Grenzen (32–64 GB). Die GPU-Inferenz ist jedoch je nach Batch-Größe 10- bis 50-mal schneller. Für Produktionsworkloads, die eine niedrige Latenz oder einen hohen Durchsatz erfordern, wird die GPU-Bereitstellung dringend empfohlen.

Qwen3.5-35B-A3B-GGUF


Quantisierung	VRAM (GB)	Empfohlene Hardware
BF16	69	GPU: A100 × 1 (80 GB) / H100 × 1 (80 GB)
Q8_0	37	GPU: L40S × 1 (48 GB) / A100 40 GB
Q4_K_M	22	CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM GPU: RTX 4090 24 GB / L40S 48 GB (schnellere Inferenz)

Qwen3.5-122B-A10B-GGUF


Quantisierung	VRAM (GB)	Empfohlene Hardware
BF16	244	GPU: A100 × 4 (320 GB) / H100 × 4 (320 GB)
Q8_0	130	GPU: A100 × 2 (160 GB) / H100 × 2 (160 GB)
Q4_K_M	77	GPU: A100 × 1 (80 GB) / H100 × 1 (80 GB)

💡 Hinweis: Das 122B-Modell erfordert selbst bei aggressiver Quantisierung aufgrund seiner Größe High-End-GPUs. Multi-GPU-Setups sind für BF16- und Q8_0-Präzision unerlässlich.

Bereitstellung auf Novita AI

Novita AI bietet flexible Bereitstellungsoptionen für die Qwen 3.5 Medium Series, die Leistung, Kosten und Benutzerfreundlichkeit in Einklang bringen.

GPU-Bereitstellung (empfohlen für VRAM-fokussierte Benutzer)

Novita AI bietet leistungsstarke GPUs, die für die Bereitstellung von Qwen 3.5-Modellen optimiert sind, mit flexiblen Abrechnungsoptionen:

Empfohlene GPU-Konfigurationen


Modell	Quantisierung	Benötigter VRAM	Empfohlene GPU	Anwendungsfall
27B	BF16	54 GB	H100 80 GB / RTX 5090 32 GB × 2	Produktion, maximale Qualität
27B	Q8_0	29 GB	RTX 5090 32 GB / RTX 4090 24 GB × 2	Ausgewogene Leistung
27B	Q4_K_M	17 GB	RTX 4090 24 GB	Kosteneffiziente Inferenz
35B-A3B	BF16	69 GB	H100 80 GB	Produktion, maximale Qualität
35B-A3B	Q8_0	37 GB	RTX 5090 32 GB × 2 / H100 80 GB	Ausgewogene Leistung
35B-A3B	Q4_K_M	22 GB	RTX 4090 24 GB	Kosteneffiziente Inferenz
122B-A10B	BF16	244 GB	H100 80 GB × 4	Enterprise, maximale Qualität
122B-A10B	Q8_0	130 GB	H100 80 GB × 2	Ausgewogene Leistung
122B-A10B	Q4_K_M	77 GB	H100 80 GB	Kosteneffiziente Inferenz

Warum GPU-Bereitstellung auf Novita AI?

Novita AI bietet GPU-Optionen über mehrere Leistungsstufen hinweg, die zu Ihrem Workload und Budget passen:

Enterprise-Grade GPUs: Hohe VRAM-Konfigurationen für BF16- und Q8_0-Präzision
Hochleistungs-Consumer-GPUs: Ausgewogenes Preis-/Leistungsverhältnis für mittelgroße Modelle
Kosteneffiziente Optionen: Erschwingliche Konfigurationen für quantisierte Modelle (Q4_K_M)
Multi-GPU-Setups: Nahtlose Skalierung von 1× bis 8× GPU-Konfigurationen
Flexible Abrechnung: On-Demand, Spot-Instanzen und serverlose GPUs (Pay-per-Second)
Sofortige Bereitstellung: Vorkonfigurierte Vorlagen für den schnellen Start

GPU-Optionen und Preise erkunden

Serverlose API (Null-Infrastruktur-Alternative)

Für Benutzer, die keine Infrastruktur verwalten möchten, bietet Novita AI serverlose API-Endpunkte mit OpenAI-kompatiblen Schnittstellen.

Unterstützte Modelle


Modell	Modell-ID
Qwen3.5-27B	qwen/qwen3.5-27b
Qwen3.5-35B-A3B	qwen/qwen3.5-35b-a3b
Qwen3.5-122B-A10B	qwen/qwen3.5-122b-a10b

Basis-URL: https://api.novita.ai/openai

So erhalten Sie einen API-Schlüssel

Registrieren Sie sich unter Novita AI
Navigieren Sie zum Bereich API-Schlüssel in Ihrem Dashboard
Klicken Sie auf Neuen Schlüssel erstellen und kopieren Sie Ihren API-Schlüssel
Fügen Sie Ihrem Konto Guthaben hinzu, um die API nutzen zu können

Kurzes Beispiel:

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="qwen/qwen3.5-35b-a3b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=65536,
    temperature=0.7
)

print(response.choices[0].message.content)

Die richtige Präzision wählen

BF16 (volle Präzision)

Anwendungsfall: Produktionsumgebungen, die maximale Qualität erfordern
Kompromiss: Höchste VRAM-Anforderungen
Am besten geeignet für: Enterprise-Anwendungen, Forschungs-Benchmarks

Q8_0 (8-Bit-Quantisierung)

Anwendungsfall: Ausgewogene Leistung und Effizienz
Kompromiss: ~1–2 % Qualitätsverlust, 50 % VRAM-Reduktion
Am besten geeignet für: Hochdurchsatz-Inferenz, kostenbewusste Produktion

Q4_K_M (4-Bit-Quantisierung)

Anwendungsfall: Kosteneffiziente Bereitstellung auf Consumer-GPUs
Kompromiss: ~3–5 % Qualitätsverlust, 70–75 % VRAM-Reduktion
Am besten geeignet für: Entwicklung, Tests, Budget-beschränkte Bereitstellungen

Fazit

Die Qwen 3.5 Medium Series bietet leistungsstarke Sprachmodelle für unterschiedliche Unternehmensanforderungen, mit VRAM-Anforderungen von 17 GB (27B Q4_K_M) bis 244 GB (122B BF16).

Wichtige Erkenntnisse:

Wählen Sie die Quantisierung basierend auf dem Kompromiss zwischen Qualität und Kosten
Die GPU-Inferenz ist für Produktionsworkloads 10- bis 50-mal schneller als die CPU
Novita AI bietet flexible Bereitstellung: GPU-Miete (On-Demand/Spot) oder serverlose API

Nächste Schritte:

Bestimmen Sie Ihre Modellgröße und Präzisionsanforderungen
Entdecken Sie Novita AIs GPU-Preise oder API-Endpunkte
Stellen Sie in Minuten mit vorkonfigurierten Vorlagen bereit

Novita AI ist eine KI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, KI-Modelle über unsere einfache API bereitzustellen und gleichzeitig eine erschwingliche und zuverlässige GPU-Cloud zum Aufbau und zur Skalierung bereitstellt.

Häufig gestellte Fragen

Was ist VRAM?

VRAM (Video Random Access Memory) ist der dedizierte Speicher auf Ihrer GPU, der zum Speichern von Modellgewichten, Aktivierungen und Zwischenberechnungen während der Inferenz verwendet wird. Bei LLMs wie Qwen 3.5 skalieren die VRAM-Anforderungen mit der Modellgröße und Präzision – größere Modelle und höhere Präzision (z. B. BF16) benötigen mehr VRAM als quantisierte Versionen (z. B. Q4_K_M). Unzureichender VRAM führt zu Out-of-Memory-Fehlern oder zwingt Sie zur Verwendung der CPU-Inferenz, die erheblich langsamer ist.

Kann ich Qwen 3.5 Medium-Modelle auf der CPU ausführen?

Ja, kleinere quantisierte Modelle (Q8_0 und Q4_K_M) können auf CPUs mit 32–64 GB RAM ausgeführt werden. Die CPU-Inferenz ist jedoch 10- bis 50-mal langsamer als die GPU, was sie für Produktionsworkloads oder Echtzeitanwendungen unpraktisch macht. Für beste Leistung wird auch bei quantisierten Modellen die GPU-Bereitstellung dringend empfohlen.

Was ist der Unterschied zwischen BF16, Q8_0 und Q4_K_M?

BF16 (16-Bit) ist volle Präzision mit maximaler Qualität, aber höchstem VRAM-Verbrauch. Q8_0 (8-Bit) reduziert den VRAM um ~50 % bei minimalem Qualitätsverlust (~1–2 %). Q4_K_M (4-Bit) senkt den VRAM um 70–75 %, kann aber eine Qualitätsminderung von 3–5 % mit sich bringen – ideal für kostensensible Bereitstellungen, bei denen geringe Genauigkeitseinbußen akzeptabel sind.

Qwen 3.5 Medium Series VRAM-Anforderungen: 27B, 35B, 122B GPU-Bereitstellungsleitfaden

Was ist die Qwen 3.5 Medium Series