Novita AI schließt Partnerschaft mit Z.ai zur Bereitstellung von GLM-4.5: Vereinheitlichung von Reasoning, Coding und agentischen KI-Fähigkeiten

Inhaltsverzeichnis

⚡ Gesamtleistung
🚀 Erste Schritte mit Novita AI
🔬 Technische Innovation von GLM-4.5
🎯 Bereit für einheitliche KI?

Heute geben wir mit Freude die Partnerschaft zwischen Novita AI und Z.ai bekannt, die eine Unterstützung für GLM-4.5 ab dem ersten Tag auf der Novita AI-Plattform als Startpartner von Z.ai ermöglicht. Diese bahnbrechende Zusammenarbeit führt die weltweit einheitlichste KI-Modellreihe ein, die fortschrittliches Reasoning, hochentwickelte Coding-Fähigkeiten und native agentische Funktionalität in einem einzigen, leistungsstarken Framework vereint – entwickelt für Entwickler, die die nächste Generation von KI-Anwendungen bauen.

Novita AI bietet nun das wegweisende GLM-4.5-Modell (355B Gesamtparameter, 32B aktiv) an: Ausgestattet mit hybriden Reasoning-Modi, die sowohl einen Denkmodus für komplexes Reasoning und Tool-Nutzung als auch einen Nicht-Denkmodus für sofortige Antworten bieten. Belegt insgesamt den 2. Platz über umfassende Benchmarks hinweg.

Beide Modelle bieten eine Kontextlänge von 128k und native Funktionsaufrufkapazität, verfügbar über die optimierte Inferenzinfrastruktur von Novita AI.

⚡ Gesamtleistung

GLM-4.5 belegt den 2. Platz und GLM-4.5-Air den 5. Platz in 12 Benchmarks, die agentische (3), Reasoning- (7) und Coding-Aufgaben (2) abdecken – im Vergleich mit Modellen von OpenAI, Anthropic, Google DeepMind, xAI, Alibaba, Moonshot und DeepSeek.

GLM-4.5 vereint alle Fähigkeiten, bei denen frühere Modelle in bestimmten Bereichen herausragten – Coding, Mathematik oder Reasoning – ohne jedoch in allen Aufgaben Bestleistungen zu erzielen.

Agentische Aufgaben

GLM-4.5 ist ein Foundation-Modell, das für agentische Aufgaben optimiert ist. Es bietet eine Kontextlänge von 128k und native Funktionsaufrufkapazität. Z.ai hat seine Agentenfähigkeiten anhand des τ-bench und BFCL-v3 (Berkeley Function Calling Leaderboard v3) gemessen. In beiden Benchmarks erreicht GLM-4.5 die Leistung von Claude-4-Sonnet.

Web-Browsing ist eine beliebte agentische Anwendung, die komplexes Reasoning und mehrfache Tool-Nutzung erfordert. Z.ai hat GLM-4.5 mit dem Benchmark BrowseComp evaluiert – einem anspruchsvollen Benchmark für Web-Browsing, der aus komplizierten Fragen besteht, die kurze Antworten erwarten. Mit Zugriff auf das Web-Browsing-Tool gibt GLM-4.5 bei 26,4 % aller Fragen korrekte Antworten und übertrifft damit Claude-4-Opus (18,8 %) und liegt nahe an o4-mini-high (28,0 %).

Benchmark	GLM-4.5	GLM-4.5-Air	o3	o4-mini-high	GPT-4.1	Claude 4 Opus	Claude 4 Sonnet	Gemini 2.5 Pro	Qwen3 235B Thinking 2507	DeepSeek R1 0528	Kimi K2	Grok4
TAU-bench	70.1	69.4	61.2	57.4	62.0	70.5	70.3	62.5	73.2	58.7	62.6	67.5
BFCL v3 (Full)	77.8	76.4	72.4	67.2	68.9	61.8	75.2	61.2	72.4	63.8	71.1	66.2
BrowseComp	26.4	21.3	49.7	28.3	4.1	18.8	14.7	7.6	4.6	3.2	7.9	32.6

Reasoning

Im Denkmodus können GLM-4.5 und GLM-4.5-Air komplexe Reasoning-Probleme lösen, darunter mathematische, wissenschaftliche und logische Probleme.

Benchmark	GLM-4.5	GLM-4.5-Air	o3	o4-mini-high	Claude 4 Opus	Claude 4 Sonnet	Gemini 2.5 Pro	Gemini 2.5 Flash	DeepSeek R1 0528	Qwen3-235B Thinking 2507	Grok4
MMLU Pro	84.6	81.4	85.3	83.2	87.3	84.2	86.2	83.2	84.9	84.5	86.6
AIME24	91.0	89.4	90.3	94.0	75.7	77.3	88.7	82.3	89.3	94.1	94.3
MATH 500	98.2	98.1	99.2	98.9	98.2	99.1	96.7	98.1	98.3	98.0	99.0
SciCode	41.7	37.3	41.0	46.5	39.8	40.0	42.8	39.4	40.3	42.9	45.7
GPQA	79.1	75.0	82.7	78.4	79.6	77.7	84.4	79.0	81.3	81.1	87.7
HLE	14.4	10.6	20.0	17.5	11.7	8.5	21.1	11.1	14.9	15.8	23.9
LiveCodeBench (2407-2501)	72.9	70.7	78.4	80.4	63.6	58.0	80.1	69.5	77.0	78.2	81.9
AA-Index (Estimated)	67.7	64.8	70.0	69.8	64.4	62.7	70.5	65.1	68.3	69.4	73.2

Coding

GLM-4.5 zeichnet sich auch beim Coding aus – sowohl beim Aufbau eines Coding-Projekts von Grund auf als auch beim agentischen Lösen von Coding-Aufgaben in bestehenden Projekten. Es kann nahtlos mit vorhandenen Coding-Toolkits wie Claude Code, Roo Code und CodeGeex kombiniert werden. Um die Coding-Fähigkeit zu bewerten, hat Z.ai verschiedene Modelle auf SWE-bench Verified und Terminal Bench verglichen.

Benchmark	GLM-4.5	GLM-4.5-Air	o3	o4-mini-high	GPT-4.1	Claude 4 Opus	Claude 4 Sonnet	Gemini 2.5 Pro	Gemini 2.5 Flash	Qwen3 235B Thinking 2507	Qwen3 235B	DeepSeek R1 0528	Kimi K2
SWE-bench Verified	64.2	57.6	69.1	54.8	48.6	67.8	70.4	49.0	60.4	35.0	36.2	41.4	65.4
Terminal-Bench	37.5	30.0	30.2	18.5	30.3	43.2	35.5	25.3	16.8	6.3	6.6	17.5	25.0

Um die agentischen Coding-Fähigkeiten von GLM-4.5 in realen Szenarien zu bewerten, hat Z.ai mit Claude Code umfassende Tests gegen Claude-4-Sonnet, Kimi K2 und Qwen3-Coder durchgeführt, wobei 52 Coding-Aufgaben aus den Bereichen Frontend-Entwicklung, Tool-Entwicklung, Datenanalyse, Testen und Algorithmenanwendungen abgedeckt wurden. GLM-4.5 schlägt Kimi K2 in 53,9 % der Aufgaben und dominiert Qwen3-Coder mit einer Gewinnquote von 80,8 %, während es gegenüber Claude-4-Sonnet noch Verbesserungspotenzial zeigt.

Bemerkenswert ist, dass GLM-4.5 mit 90,6 % die höchste durchschnittliche Tool-Call-Erfolgsquote erzielt und damit Claude-4-Sonnet (89,5 %), Kimi-K2 (86,2 %) und Qwen3-Coder (77,1 %) übertrifft – ein Beleg für überlegene Zuverlässigkeit und Effizienz bei agentischen Coding-Aufgaben.

🚀 Erste Schritte mit Novita AI

Nutzen Sie die Playground-Umgebung (kein Coding erforderlich)

Sofortiger Zugriff: Melden Sie sich an und beginnen Sie sofort mit GLM-4.5 zu experimentieren
Interaktive Oberfläche: Testen Sie komplexe Reasoning-Prompts und visualisieren Sie strukturierte Ausgaben in Echtzeit
Modellvergleich: Vergleichen Sie GLM-4.5 mit anderen führenden Modellen für Ihren spezifischen Anwendungsfall

Integration über API (für Entwickler)

Verbinden Sie GLM-4.5 mit Ihren Anwendungen über die einheitliche REST-API von Novita AI.

Option 1: Direkte API-Integration (Python-Beispiel)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="session_S4q9KTdBQujFkXSE5aZYZCrwN9f5QO96BtAFLw4FOgB__slLHW9KFAjmMgC12ag6mf2lJ1rASEvHbP_gv7Jh2Q==",
)

model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Hauptmerkmale:

OpenAI-kompatible API für nahtlose Integration
Flexible Parametersteuerung zur Feinabstimmung der Antworten
Streaming-Unterstützung für Echtzeit-Antworten

Option 2: Multi-Agent-Workflows mit dem OpenAI Agents SDK Erstellen Sie anspruchsvolle Multi-Agent-Systeme mit GLM-4.5:

Plug-and-Play-Integration: Verwenden Sie GLM-4.5 in jedem OpenAI-Agents-Workflow
Erweiterte Agentenfähigkeiten: Unterstützung für Übergaben, Routing und Tool-Integration mit einer Erfolgsquote von 90,6 %
Skalierbare Architektur: Entwickeln Sie Agenten, die die vereinheitlichten Fähigkeiten von GLM-4.5 in Reasoning, Coding und agentischer Funktion nutzen

Verbindung mit Drittanbieter-Plattformen

Entwicklungstools: Nahtlose Integration mit gängigen IDEs und Entwicklungsumgebungen wie Cursor und Cline über OpenAI-kompatible APIs
Orchestrierungs-Frameworks: Verbinden Sie sich mit LangChain, Dify, Langflow und anderen KI-Orchestrierungsplattformen über offizielle Konnektoren
Hugging Face-Integration: Nutzen Sie GLM-4.5 in Spaces, Pipelines oder mit der Transformers-Bibliothek über Novita AI-Endpunkte

🔬 Technische Innovation von GLM-4.5

MoE-Architektur-Exzellenz

GLM-4.5 übernimmt die Mixture-of-Experts (MoE)-Architektur, die die Recheneffizienz sowohl beim Training als auch bei der Inferenz verbessert. Im Vergleich zu DeepSeek-V3 reduziert das Design die Breite (Hidden-Dimension und geroutete Experten) und erhöht gleichzeitig die Höhe (Anzahl der Schichten).

Wichtigste technische Merkmale:

Grouped-Query Attention mit partiellem RoPE (fortgeführt von ChatGLM2)
QK-Norm zur Stabilisierung des Aufmerksamkeitslogit-Bereichs
Muon-Optimierer für beschleunigte Konvergenz und größere Batch-Größen-Toleranz
MTP (Multi-Token Prediction)-Schicht zur Unterstützung von spekulativem Decoding während der Inferenz

Fortschrittliche Training-Pipeline

Pre-Training: Zweistufiger Ansatz

15B Token auf generellem Pre-Training-Korpus
7B Token auf Code- und Reasoning-Korpus

Mid-Training: Domänenspezifische Optimierung

Repo-Level Code-Daten (500B Token)
Synthetische Reasoning-Daten (500B Token)
Langkontext- und Agent-Daten (100B Token)

Post-Training: Anspruchsvoller hybrider Ansatz

Expert-Training: Separate Modelle für Reasoning-, Agenten- und allgemeine Bereiche durch SFT und spezialisiertes RL
Einheitliches Training: Wissensdestillation, die Experten durch groß angelegte SFT-Selbstdestillation in einem einzigen Modell vereint, gefolgt von dreistufiger RL-Ausrichtung

slime: Revolutionäre RL-Infrastruktur

Das Training von GLM-4.5 wird durch slime unterstützt, eine Open-Source-RL-Infrastruktur für große Modelle:

Flexible hybride Trainingsarchitektur: Unterstützt sowohl synchrones Co-Located-Training als auch disaggregiertes asynchrones Training
Entkoppeltes agentenorientiertes Design: Trennt Rollout-Engines von Training-Engines für optimierte Leistung
Beschleunigte Datengenerierung: Mixed-Precision-Inferenz mit FP8 zur Datengenerierung bei gleichzeitiger Beibehaltung der BF16-Stabilität für das Training

🎯 Bereit für einheitliche KI?

Testen Sie GLM-4.5 und GLM-4.5-Air noch heute auf der Novita AI-Plattform. Erleben Sie aus erster Hand, wie einheitliche KI-Fähigkeiten das Mögliche verändern, wenn Reasoning, Coding und agentische Funktionalität in einer optimierten, produktionsreifen Infrastruktur zusammenkommen.

Jetzt loslegen →

Novita AI ist eine KI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, KI-Modelle über unsere simple API bereitzustellen und gleichzeitig eine erschwingliche und zuverlässige GPU-Cloud zum Aufbau und zur Skalierung bereitstellt.

Novita AI schließt Partnerschaft mit Z.ai zur Bereitstellung von GLM-4.5: Vereinheitlichung von Reasoning, Coding und agentischen KI-Fähigkeiten