DeepSeek-V3.2-Exp: Halber Preis, schneller mit Sparse Attention für Long-Context-KI

DeepSeek hat gerade DeepSeek-V3.2-Exp auf den Markt gebracht, ein experimentelles Modell, das eine der größten Herausforderungen der KI löst: die effiziente und kostengünstige Verarbeitung langer Dokumente.

Dieses neue Modell basiert auf DeepSeek-V3.1-Terminus und führt DeepSeek Sparse Attention (DSA) ein – eine bahnbrechende Technologie, die den halben Preis und eine deutliche Beschleunigung für Szenarien mit langem Kontext bietet.

At Novita AIWir stellen Entwicklern dieses hochmoderne Modell über unsere benutzerfreundliche API-Plattform zur Verfügung. Egal, ob Sie Dokumentenanalysetools, Code-Assistenten oder Chatbots erstellen, die sich ganze Konversationen merken müssen – DeepSeek-V3.2-Exp bietet die Effizienz und Kosteneinsparungen, die Sie benötigen, ohne Abstriche bei der Qualität.

Testen Sie die DeepSeek V3.2 Exp-Demo

Inhaltsverzeichnis

Was macht DeepSeek-V3.2-Exp so besonders?
Durchbruch in Sachen Kosteneffizienz
Leistung: Funktioniert es wirklich?
Erste Schritte Novita AI
Fazit

Was macht DeepSeek-V3.2-Exp so besonders?

DeepSeek-V3.2-Exp ist ein experimentelles KI-Modell, das lange Dokumente und Gespräche effizienter verarbeiten soll als herkömmliche Modelle.

Das „Exp“ steht für experimentell – DeepSeek testet einen neuen Ansatz, um zu sehen, wie gut er in realen Anwendungen funktioniert.

Das Problem, das es löst

Herkömmliche KI-Modelle werden bei der Verarbeitung langer Texte dramatisch langsamer.

Das Lesen eines 100-seitigen Dokuments oder die Führung einer längeren Unterhaltung wird teuer und zeitaufwändig. Dies liegt daran, dass Standardmodelle jedes einzelne Wort im Verhältnis zu jedem anderen Wort verarbeiten müssen – je länger der Text, desto mehr Berechnungen sind erforderlich.

Die Lösung: Geringe Aufmerksamkeit

DeepSeek-V3.2-Exp führt DeepSeek Sparse Attention (DSA) ein, das wie ein intelligenter Filter funktioniert.

Anstatt jedes Wort mit jedem anderen zu vergleichen, identifiziert das Modell nur die relevantesten Teile und konzentriert sich darauf. Stellen Sie es sich wie Schnelllesen vor: Sie lesen nicht jedes Wort mit der gleichen Aufmerksamkeit, sondern konzentrieren sich auf das Wesentliche.

Hauptfunktionen

Kontextlänge: Verarbeitet bis zu 128,000 Token (ungefähr 96,000 Wörter oder über 300 Seiten)
Zum halben Preis: 50 % geringere Kosten im Vergleich zu DeepSeek-V3.1-Terminus für die Verarbeitung langer Kontexte
Deutliche Beschleunigung: Dramatische Effizienzsteigerungen sowohl beim Training als auch bei der Inferenz, insbesondere in Szenarien mit langem Kontext
Architektur: Basiert auf DeepSeek-V3.1-Terminus mit der Ergänzung von DeepSeek Sparse Attention
Gleiche Qualität: Behält eine mit DeepSeek-V3.1-Terminus vergleichbare Leistung bei

Das Modell baut auf der bewährten DeepSeek-V3.1-Terminus-Grundlage auf, die bereits eine Kontextlänge von 128K unterstützte, fügt aber durch kontinuierliches Training diese intelligente Effizienzebene hinzu.

Durchbruch in Sachen Kosteneffizienz

DeepSeek Sparse Attention (DSA) reduziert die Kernkomplexität der Aufmerksamkeit von O(L²) auf O(Lk), wobei k die Anzahl der ausgewählten Token ist (viel kleiner als L).

Obwohl der Lightning-Indexer immer noch eine Komplexität von O(L²) aufweist, erfordert er im Vergleich zum Haupt-Attention-Mechanismus deutlich weniger Rechenleistung. In Kombination mit einer optimierten Implementierung erreicht DSA eine deutliche End-to-End-Beschleunigung in Szenarien mit langen Kontexten.

DeepSeek hat DeepSeek-V3.1-Terminus und DeepSeek-V3.2-Exp auf dem tatsächlich auf H800 bereitgestellten Dienst getestet. GPUs zu einem Mietpreis von 2 USD pro GPU Stunde.

Die Ergebnisse zeigen dramatische Effizienzsteigerungen, insbesondere bei zunehmender Kontextlänge.

Inferenzkosten von DeepSeek-V3.1-Terminus und DeepSeek-V3.2-Exp

Erfahren Sie mehr über die Architektur und Implementierungsdetails im offizielle technische Dokumentation.

Leistung: Funktioniert es wirklich?

DeepSeek hat das Modell anhand einer Reihe von Benchmarks bewertet, die sich auf verschiedene Fähigkeiten konzentrierten.

Insgesamt weist DeepSeek-V3.2-Exp im Vergleich zu DeepSeek-V3.1-Terminus keine wesentliche Leistungseinbuße auf.

Allgemeinwissen

Benchmark	DeepSeek-V3.1-Terminus	DeepSeek-V3.2-Exp
MMLU-Pro	85.0	85.0
GPQA-Diamant	80.7	79.9
Die letzte Prüfung der Menschheit	21.7	19.8

Hinweis: Die Leistung bei GPQA, HLE und HMMT 2025 ist geringer, da DeepSeek-V3.2-Exp weniger Reasoning-Token generiert. Zwischenprüfpunkte, die vergleichbare Token-Zahlen erzeugen, zeigen, dass sich die Leistungslücke schließt.

Websuche und Agenten

Benchmark	DeepSeek-V3.1-Terminus	DeepSeek-V3.2-Exp
BrowseComp	38.5	40.1
BrowseComp_zh	45.0	47.9
SimpleQA	96.8	97.1

Interessanterweise verbessert das Modell Suchaufgaben tatsächlich! Dies deutet darauf hin, dass eine geringe Aufmerksamkeit dem Modell dabei helfen kann, sich beim Abrufen von Antworten aus langen Kontexten auf relevante Informationen zu konzentrieren.

Codegenerierung

Benchmark	DeepSeek-V3.1-Terminus	DeepSeek-V3.2-Exp
LiveCodeBench (2408-2505)	74.9	74.1
Codeforces-Div1-Bewertung	2046	2121
Aider-Polyglot	76.1	74.5

Das Modell weist starke Programmierfähigkeiten auf und erreicht sogar eine höhere Bewertung für wettbewerbsfähige Programmierung (2121 entspricht dem Expertenniveau bei Codeforces).

Code-Agenten

Benchmark	DeepSeek-V3.1-Terminus	DeepSeek-V3.2-Exp
SWE-verifiziert (Agentenmodus)	68.4	67.8
SWE-bench Mehrsprachig (Agentenmodus)	57.8	57.9
Terminal-Bank (Terminus 1-Rahmen)	36.7	37.7

Das Modell verfügt über starke Agentenfähigkeiten zur Lösung realer Softwareentwicklungsaufgaben.

Mathematik

Benchmark	DeepSeek-V3.1-Terminus	DeepSeek-V3.2-Exp
AIME 2025	88.4	89.3
HMMT 2025	86.1	83.6

Das Modell schneidet bei AIME 2025 (einem anspruchsvollen Mathematikwettbewerb für die Oberstufe) außergewöhnlich gut ab und löst 89.3 % der Probleme.

Trainingsstabilität

DeepSeek verglich die Trainingskurven des bestärkenden Lernens beider Modelle auf BrowseComp und SWE Verified.

Die Leistung beider Modelle verbesserte sich während des gesamten Trainingsprozesses stetig mit eng aneinander liegenden Kurven, was die Trainingsstabilität von DSA widerspiegelt.

Erste Schritte Novita AI

Zugriff auf DeepSeek-V3.2-Exp über Novita AI bietet mehrere Wege, die auf unterschiedliche technische Kompetenzstufen und Anwendungsfälle zugeschnitten sind.

Egal, ob Sie ein Geschäftsbenutzer sind, der KI-Funktionen erkundet, oder ein Entwickler, der Produktionsanwendungen erstellt, Novita AI bietet die Tools, die Sie benötigen.

Nutzen Sie den Spielplatz (keine Codierung erforderlich)

Sofortiger Zugriff: neu zu registrieren und beginnen Sie zu experimentieren mit DeepSeek-V3.2-Exp in Sekunden
Interaktive Schnittstelle: Testen Sie Eingabeaufforderungen und visualisieren Sie Ausgaben in Echtzeit
Modellvergleich: Vergleichen Sie DeepSeek-V3.2-Exp mit anderen führenden Modellen für Ihren spezifischen Anwendungsfall

Auf dem Spielplatz können Sie verschiedene Eingabeaufforderungen testen und sofort Ergebnisse sehen, ohne dass eine technische Einrichtung erforderlich ist.

Perfekt zum Prototyping, Testen von Ideen und Verstehen der Modellfunktionen vor der vollständigen Implementierung.

Testen Sie die DeepSeek V3.2 Exp-Demo

Integration über API (für Entwickler)

Verbinden Sie DeepSeek-V3.2-Exp mit Ihren Anwendungen mit Novita AI's einheitliche REST-API.

Option 1: Direkte API-Integration

von OpenAI importiere OpenAI-Client = OpenAI (Base_URL = "https://API).novita.ai/openai", api_key="session_lnrv9fuPcmgAz_fk3YmwpmOhfIpYY11iFpvaauxsvknzSam5bSQasB-eIUbv9o2PGSF_tpNcC44ez9wAxUyuDA==", ) model = "deepseek/deepseek-v3.2-exp" stream = True # oder False max_tokens = 81920 system_content = "Seien Sie ein hilfreicher Assistent" temperature = 1 top_p = 1 min_p = 0 top_k = 50 presence_penalty = 0 frequency_penalty = 0 repetition_penalty = 1 response_format = { "type": "text" } chat_completion_res = client.chat.completions.create( model=model, messages=[ { "role": "system", "content": system_content, }, { "role": "Benutzer", "Inhalt": "Hallo!", } ], Stream=Stream, max_token=max_token, Temperatur=Temperatur, top_p=top_p, Anwesenheitsstrafe=Anwesenheitsstrafe, Häufigkeitsstrafe=Häufigkeitsstrafe, Antwortformat=Antwortformat, Extra_Body={ "top_k": top_k, "Wiederholungsstrafe": Wiederholungsstrafe, "min_p": min_p } ) wenn Stream: für Chunk in chat_completion_res: drucken(chunk.choices[0].delta.content oder "", end="") sonst: drucken(chat_completion_res.choices[0].message.content)

Option 2: Multi-Agent-Workflows mit OpenAI Agents SDK

Erstellen Sie anspruchsvolle Multiagentensysteme, indem Sie die Funktionen von DeepSeek-V3.2-Exp nutzen:

Plug-and-Play-Integration: Verwenden Sie DeepSeek-V3.2-Exp in jedem OpenAI Agents-Workflow
Erweiterte Agentenfunktionen: Unterstützung für Übergaben, Routing und Tool-Integration
Skalierbare Architektur: Entwerfen Sie Agenten, die die effiziente Verarbeitung langer Kontexte von DeepSeek-V3.2-Exp nutzen

Verbindung mit Plattformen von Drittanbietern

Entwicklungswerkzeuge: Nahtlose Integration mit gängigen IDEs und Entwicklungsumgebungen wie Cursor, Codex, Claude Code, Trae, Qwen Code und Cline über OpenAI-kompatible APIs und Anthropic-kompatible APIs.

Orchestrierungs-Frameworks: Stellen Sie mithilfe offizieller Konnektoren eine Verbindung mit LangChain, Dify, CrewAI, Langflow und anderen KI-Orchestrierungsplattformen her.

Umarmende Gesichtsintegration: Novita AI dient als offizieller Inferenzanbieter von Hugging Face und gewährleistet eine breite Kompatibilität mit dem Ökosystem.

Fazit

DeepSeek-V3.2-Exp stellt einen bedeutenden Fortschritt in der effizienten und kostengünstigen KI-Verarbeitung im Langzeitkontext dar.

Durch DeepSeek Sparse Attention erreicht das Modell die Hälfte des Preises von DeepSeek-V3.1-Terminus mit erheblicher Beschleunigung und erheblichen Effizienzverbesserungen sowohl beim Training als auch bei der Inferenz, insbesondere in Szenarien mit langem Kontext, während gleichzeitig eine mit DeepSeek-V3.1-Terminus vergleichbare Leistung beibehalten wird.

DeepSeek führt aktiv weitere groß angelegte Tests in realen Szenarien durch, um potenzielle Einschränkungen der Sparse-Attention-Architektur aufzudecken.

Novita AI ermöglicht den einfachen Zugriff auf diese experimentelle Technologie über unsere entwicklerfreundliche API-Plattform – keine komplexe Infrastruktur, sondern leistungsstarke KI direkt zur Hand mit 50 % Kostenersparnis.

Sind Sie bereit, die Zukunft effizienter und erschwinglicher Langzeit-KI zu erleben? Entdecken Sie jetzt DeepSeek-V3.2-Exp im Playground mehr Informationen.

Novita AI ist eine KI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, KI-Modelle mithilfe unserer einfachen API bereitzustellen und gleichzeitig die kostengünstige und zuverlässige GPU Cloud zum Erstellen und Skalieren.

Entdecken Sie mehr von Novita

Abonnieren Sie, um die neuesten Beiträge per E-Mail zu erhalten.

DeepSeek-V3.2-Exp auf Novita AI: Halber Preis mit Sparse Attention für Long-Context-KI