Qwen 3.5 Medium Series VRAM-Anforderungen: 27B, 35B, 122B GPU-Bereitstellungsleitfaden

Qwen 3.5 Medium Series VRAM-Anforderungen: 27B, 35B, 122B GPU-Bereitstellungsleitfaden

Die Qwen 3.5 Medium Series (27B, 35B-A3B, 122B-A10B) bietet leistungsstarke Sprachmodelle für Unternehmen mit unterschiedlichem VRAM-Bedarf:

  • 27B: 17–54 GB (Q4_K_M bis BF16)
  • 35B-A3B: 22–69 GB (Q4_K_M bis BF16)
  • 122B-A10B: 77–244 GB (Q4_K_M bis BF16)

Stellen Sie auf Novita AI mit flexiblen GPU-Optionen (H100, RTX 5090, RTX 4090) oder einer serverlosen API bereit – ganz ohne Infrastrukturverwaltung.

Was ist die Qwen 3.5 Medium Series

Die Qwen 3.5 Medium Series umfasst drei leistungsstarke Sprachmodelle, die für produktionsreife Anwendungen konzipiert wurden:

  • Qwen3.5-27B: 27B Parameter, ausgewogene Leistung für allgemeine Aufgaben
  • Qwen3.5-35B-A3B: 35B Gesamtparameter mit 3B aktiven pro Token (MoE-Architektur)
  • Qwen3.5-122B-A10B: 122B Gesamtparameter mit 10B aktiven pro Token (MoE-Architektur)

Diese Modelle zeichnen sich durch Reasoning, Code, mehrsprachiges Verständnis und die Verarbeitung langer Kontexte aus.

Das Verständnis der VRAM-Anforderungen ist entscheidend für eine kosteneffiziente Bereitstellung – egal, ob Sie auf dedizierten GPUs arbeiten oder eine serverlose Infrastruktur nutzen.

VRAM-Anforderungen nach Modell und Präzision

Die VRAM-Anforderungen variieren erheblich je nach Quantisierungspräzision. Nachfolgend finden Sie Speicheranforderungen basierend auf den Hardware-Kompatibilitätsdaten von Hugging Face.

⚠️ Hinweis: Diese Zahlen geben die Modellgewichtgrößen an. Der tatsächliche VRAM-Verbrauch während der Inferenz liegt je nach Batch-Größe, Kontextlänge und KV-Cache-Overhead 10–30 % höher. Wir empfehlen, GPUs mit mindestens 10–20 % Spielraum zu wählen.

Qwen3.5-27B-GGUF

Quantisierung VRAM (GB) Empfohlene Hardware
BF16 54 GPU: A100 × 1 (80 GB) / H100 × 1 (80 GB)
Q8_0 29 CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM
GPU: A100 40 GB / RTX 4090 24 GB (schnellere Inferenz)
Q4_K_M 17 CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM
GPU: RTX 4090 24 GB / L40S 48 GB (schnellere Inferenz)

💡 CPU vs. GPU: Bei Q8_0- und Q4_K_M-Präzision passt das Modell in moderne CPU-RAM-Grenzen (32–64 GB). Die GPU-Inferenz ist jedoch je nach Batch-Größe 10- bis 50-mal schneller. Für Produktionsworkloads, die eine niedrige Latenz oder einen hohen Durchsatz erfordern, wird die GPU-Bereitstellung dringend empfohlen.

Qwen3.5-35B-A3B-GGUF

Quantisierung VRAM (GB) Empfohlene Hardware
BF16 69 GPU: A100 × 1 (80 GB) / H100 × 1 (80 GB)
Q8_0 37 GPU: L40S × 1 (48 GB) / A100 40 GB
Q4_K_M 22 CPU: Intel Sapphire Rapids 16× vCPUs · 32 GB RAM
GPU: RTX 4090 24 GB / L40S 48 GB (schnellere Inferenz)

Qwen3.5-122B-A10B-GGUF

Quantisierung VRAM (GB) Empfohlene Hardware
BF16 244 GPU: A100 × 4 (320 GB) / H100 × 4 (320 GB)
Q8_0 130 GPU: A100 × 2 (160 GB) / H100 × 2 (160 GB)
Q4_K_M 77 GPU: A100 × 1 (80 GB) / H100 × 1 (80 GB)

💡 Hinweis: Das 122B-Modell erfordert selbst bei aggressiver Quantisierung aufgrund seiner Größe High-End-GPUs. Multi-GPU-Setups sind für BF16- und Q8_0-Präzision unerlässlich.

Bereitstellung auf Novita AI

Novita AI bietet flexible Bereitstellungsoptionen für die Qwen 3.5 Medium Series, die Leistung, Kosten und Benutzerfreundlichkeit in Einklang bringen.

GPU-Bereitstellung (empfohlen für VRAM-fokussierte Benutzer)

Novita AI bietet leistungsstarke GPUs, die für die Bereitstellung von Qwen 3.5-Modellen optimiert sind, mit flexiblen Abrechnungsoptionen:

Empfohlene GPU-Konfigurationen

Modell Quantisierung Benötigter VRAM Empfohlene GPU Anwendungsfall
27B BF16 54 GB H100 80 GB / RTX 5090 32 GB × 2 Produktion, maximale Qualität
27B Q8_0 29 GB RTX 5090 32 GB / RTX 4090 24 GB × 2 Ausgewogene Leistung
27B Q4_K_M 17 GB RTX 4090 24 GB Kosteneffiziente Inferenz
35B-A3B BF16 69 GB H100 80 GB Produktion, maximale Qualität
35B-A3B Q8_0 37 GB RTX 5090 32 GB × 2 / H100 80 GB Ausgewogene Leistung
35B-A3B Q4_K_M 22 GB RTX 4090 24 GB Kosteneffiziente Inferenz
122B-A10B BF16 244 GB H100 80 GB × 4 Enterprise, maximale Qualität
122B-A10B Q8_0 130 GB H100 80 GB × 2 Ausgewogene Leistung
122B-A10B Q4_K_M 77 GB H100 80 GB Kosteneffiziente Inferenz

Warum GPU-Bereitstellung auf Novita AI?

Novita AI bietet GPU-Optionen über mehrere Leistungsstufen hinweg, die zu Ihrem Workload und Budget passen:

  • Enterprise-Grade GPUs: Hohe VRAM-Konfigurationen für BF16- und Q8_0-Präzision
  • Hochleistungs-Consumer-GPUs: Ausgewogenes Preis-/Leistungsverhältnis für mittelgroße Modelle
  • Kosteneffiziente Optionen: Erschwingliche Konfigurationen für quantisierte Modelle (Q4_K_M)
  • Multi-GPU-Setups: Nahtlose Skalierung von 1× bis 8× GPU-Konfigurationen
  • Flexible Abrechnung: On-Demand, Spot-Instanzen und serverlose GPUs (Pay-per-Second)
  • Sofortige Bereitstellung: Vorkonfigurierte Vorlagen für den schnellen Start

GPU-Optionen und Preise erkunden

Serverlose API (Null-Infrastruktur-Alternative)

Für Benutzer, die keine Infrastruktur verwalten möchten, bietet Novita AI serverlose API-Endpunkte mit OpenAI-kompatiblen Schnittstellen.

Unterstützte Modelle

Modell Modell-ID
Qwen3.5-27B qwen/qwen3.5-27b
Qwen3.5-35B-A3B qwen/qwen3.5-35b-a3b
Qwen3.5-122B-A10B qwen/qwen3.5-122b-a10b

So erhalten Sie einen API-Schlüssel

  1. Registrieren Sie sich unter Novita AI
  2. Navigieren Sie zum Bereich API-Schlüssel in Ihrem Dashboard
  3. Klicken Sie auf Neuen Schlüssel erstellen und kopieren Sie Ihren API-Schlüssel
  4. Fügen Sie Ihrem Konto Guthaben hinzu, um die API nutzen zu können

So erhalten Sie einen API-Schlüssel zur Nutzung von Qwen 3.5

Kurzes Beispiel:

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="qwen/qwen3.5-35b-a3b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=65536,
    temperature=0.7
)

print(response.choices[0].message.content)

Die richtige Präzision wählen

BF16 (volle Präzision)

  • Anwendungsfall: Produktionsumgebungen, die maximale Qualität erfordern
  • Kompromiss: Höchste VRAM-Anforderungen
  • Am besten geeignet für: Enterprise-Anwendungen, Forschungs-Benchmarks

Q8_0 (8-Bit-Quantisierung)

  • Anwendungsfall: Ausgewogene Leistung und Effizienz
  • Kompromiss: ~1–2 % Qualitätsverlust, 50 % VRAM-Reduktion
  • Am besten geeignet für: Hochdurchsatz-Inferenz, kostenbewusste Produktion

Q4_K_M (4-Bit-Quantisierung)

  • Anwendungsfall: Kosteneffiziente Bereitstellung auf Consumer-GPUs
  • Kompromiss: ~3–5 % Qualitätsverlust, 70–75 % VRAM-Reduktion
  • Am besten geeignet für: Entwicklung, Tests, Budget-beschränkte Bereitstellungen

Fazit

Die Qwen 3.5 Medium Series bietet leistungsstarke Sprachmodelle für unterschiedliche Unternehmensanforderungen, mit VRAM-Anforderungen von 17 GB (27B Q4_K_M) bis 244 GB (122B BF16).

Wichtige Erkenntnisse:

  • Wählen Sie die Quantisierung basierend auf dem Kompromiss zwischen Qualität und Kosten
  • Die GPU-Inferenz ist für Produktionsworkloads 10- bis 50-mal schneller als die CPU
  • Novita AI bietet flexible Bereitstellung: GPU-Miete (On-Demand/Spot) oder serverlose API

Nächste Schritte:

  1. Bestimmen Sie Ihre Modellgröße und Präzisionsanforderungen
  2. Entdecken Sie Novita AIs GPU-Preise oder API-Endpunkte
  3. Stellen Sie in Minuten mit vorkonfigurierten Vorlagen bereit

Novita AI ist eine KI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, KI-Modelle über unsere einfache API bereitzustellen und gleichzeitig eine erschwingliche und zuverlässige GPU-Cloud zum Aufbau und zur Skalierung bereitstellt.

Häufig gestellte Fragen

Was ist VRAM?

VRAM (Video Random Access Memory) ist der dedizierte Speicher auf Ihrer GPU, der zum Speichern von Modellgewichten, Aktivierungen und Zwischenberechnungen während der Inferenz verwendet wird. Bei LLMs wie Qwen 3.5 skalieren die VRAM-Anforderungen mit der Modellgröße und Präzision – größere Modelle und höhere Präzision (z. B. BF16) benötigen mehr VRAM als quantisierte Versionen (z. B. Q4_K_M). Unzureichender VRAM führt zu Out-of-Memory-Fehlern oder zwingt Sie zur Verwendung der CPU-Inferenz, die erheblich langsamer ist.

Kann ich Qwen 3.5 Medium-Modelle auf der CPU ausführen?

Ja, kleinere quantisierte Modelle (Q8_0 und Q4_K_M) können auf CPUs mit 32–64 GB RAM ausgeführt werden. Die CPU-Inferenz ist jedoch 10- bis 50-mal langsamer als die GPU, was sie für Produktionsworkloads oder Echtzeitanwendungen unpraktisch macht. Für beste Leistung wird auch bei quantisierten Modellen die GPU-Bereitstellung dringend empfohlen.

Was ist der Unterschied zwischen BF16, Q8_0 und Q4_K_M?

BF16 (16-Bit) ist volle Präzision mit maximaler Qualität, aber höchstem VRAM-Verbrauch. Q8_0 (8-Bit) reduziert den VRAM um ~50 % bei minimalem Qualitätsverlust (~1–2 %). Q4_K_M (4-Bit) senkt den VRAM um 70–75 %, kann aber eine Qualitätsminderung von 3–5 % mit sich bringen – ideal für kostensensible Bereitstellungen, bei denen geringe Genauigkeitseinbußen akzeptabel sind.