Open Source LLM Guide 2026: Die besten Modelle, API-Zugriff und Coding-Agenten

Open Source LLM Guide 2026: Die besten Modelle, API-Zugriff und Coding-Agenten

Das beste Open-Source-LLM für dein Projekt im Jahr 2026 hängt von der Aufgabe ab, nicht von der Benchmark-Überschrift. Modelle wie DeepSeek V4 Pro, Qwen 3.5, Kimi K2 und GLM-5 erreichen in spezifischen Benchmarks jetzt das Niveau von Closed-APIs oder übertreffen sie sogar, aber die praktische Frage ist einfacher: Musst du das Modell selbst betreiben oder brauchst du eine zuverlässige Lösung in der Produktion, ohne ein GPU-Operations-Team? Dieser Leitfaden behandelt die führenden Open-Source-LLMs, wie du zwischen Self-Hosting und gehostetem API-Zugang wählst und wie du Open-Source-Modelle mithilfe von Novita AI in einen Coding-Agenten einbindest.

Was zählt als Open-Source-LLM?

„Open Source“ umfasst in der Praxis ein breites Spektrum. Die entscheidende operative Unterscheidung ist, ob du die Modellgewichte selbst ausführen kannst, nicht ob der Trainingscode öffentlich ist. Die häufigsten Fälle sind:

  • Völlig offene Gewichte mit freizügiger Lizenz (Apache 2.0, MIT): Du kannst das Modell kommerziell ohne Einschränkungen nutzen, modifizieren und bereitstellen. Beispiele: Qwen 3.5 (Apache 2.0), DeepSeek R1 (MIT), GLM-5 (MIT).
  • Offene Gewichte mit benutzerdefinierter Lizenz: Gewichte sind herunterladbar, aber die kommerzielle Nutzung, Weiterverbreitung oder Feinabstimmung kann Einschränkungen unterliegen. Metas Llama 4 verwendet eine benutzerdefinierte Lizenz mit Schwellenwerten für die Benutzerzahl über 700 Millionen monatliche Nutzer.
  • Forschung nur oder gesperrte Gewichte: Gewichte sind verfügbar, aber auf nicht-kommerzielle Nutzung beschränkt oder erfordern eine Genehmigung. Für Produktionsteams weniger relevant.

Für die meisten Produktionsentscheidungen ist der praktische Filter: Kannst du dieses Modell legal deinen Nutzern anbieten, und erlaubt die Lizenz den kommerziellen Anwendungsfall, den du benötigst?

Beste Open-Source-LLMs im Jahr 2026

Das Segment der offenen Gewichte hat sich deutlich verkleinert. Allein im April 2026 wurden sieben große Open-Source-Modellveröffentlichungen vorgestellt. Hier sind die Modelle, die eine Bewertung wert sind:

Allgemein und Reasoning

DeepSeek V4 Pro (685B, MIT-ähnlich) ist der aktuelle Benchmark-Leader für agentisches Coding. Es erreicht oder übertrifft Closed-Frontier-Modelle bei SWE-Bench und Funktionsaufruf-Benchmarks, was es zu einer praktischen Wahl für Coding-Agenten macht, die große Codebasen lesen und mehrstufige Tool-Aufrufe ausführen müssen. Es ist als gehostete API verfügbar, falls du die Infrastruktur für ein 685B-Modell nicht selbst betreiben kannst.

Qwen 3.5 (397B MoE, Apache 2.0) ist das stärkste vollständig freizügig lizenzierte Modell, das verfügbar ist. Mit insgesamt 397B und 17B aktiven Parametern erzielt es wettbewerbsfähige Reasoning- und Coding-Ergebnisse und bleibt dabei kosteneffizient pro Token. Die Apache-2.0-Lizenz macht es zur Standardwahl, wenn die Lizenzkompatibilität wichtig ist.

Kimi K2 (ca. 1T MoE) von Moonshot AI belegt den Spitzenplatz im Artificial Analysis Index unter den offenen Modellen und ist besonders stark bei Tool-Nutzung und Aufgaben mit langem Kontext. Es ist über eine gehostete API verfügbar, falls du ein Billionen-Parameter-MoE nicht selbst hosten möchtest.

DeepSeek R1 (685B, MIT) bleibt die stärkste Wahl für Mathematik und formales Reasoning – 79,8 % bei AIME. Wenn deine Anwendung Code-Verifikation, formale Beweise oder strukturierte Reasoning-Ketten umfasst, ist R1 der Benchmark-Referenzpunkt.

GLM-5 (744B, MIT) von Zhipu AI ist das erste Open-Weight-Modell, das 50 im AI Intelligence Index erreicht und 85 im Open-Weight-Leaderboard von BenchLM erzielt. Stark für autonome Fehlerbehebungsworkflows.

Coding-spezifisch

Qwen 2.5 Coder 32B (Apache 2.0) erreicht 92 % bei HumanEval und läuft auf einer einzelnen RTX 4090. Wenn du ein Coding-Modell benötigst, das du auf Consumer-Hardware selbst hosten kannst, ist dies die praktische Wahl.

Kimi K2 Code ist die API-zugängliche Coding-Variante von Kimi K2, optimiert für Codegenerierung und agentische Coding-Aufgaben. Verfügbar auf Novita AI mit 262K Kontext.

Klein und effizient

Phi-4 14B von Microsoft läuft in 8 GB VRAM und meistert Instruktionsbefolgung, Code und leichtes Reasoning gut. Verwende es, wenn Latenz- und Hardwarebeschränkungen wichtiger sind als Spitzenqualität.

Llama 4 Scout von Meta unterstützt bis zu 10 M Token Kontext und passt in 16 GB VRAM. Die richtige Wahl, wenn deine Arbeitslast die Verarbeitung langer Dokumente umfasst.

Modellvergleich auf einen Blick

Modell Größe Lizenz Am besten für Kontext
DeepSeek V4 Pro 685B MIT-ähnlich Agentisches Coding, SWE-Bench 1M
Qwen 3.5 397B MoE Apache 2.0 Reasoning, kommerzielle Nutzung 128K
Kimi K2 ~1T MoE Benutzerdefiniert Tool-Nutzung, langer Kontext 128K
DeepSeek R1 685B MIT Mathematik, formales Reasoning 163K
GLM-5 744B MIT Fehlerbehebung, allgemein 128K
Qwen 2.5 Coder 32B 32B Apache 2.0 Code, Selbsthosting 128K
Phi-4 14B 14B MIT Niedriger VRAM, Entwicklung 128K
Llama 4 Scout ~109B Benutzerdefiniert Lange Dokumente 10M

Self-Hosting vs. gehostete API-Inferenz

Dies ist die operative Entscheidung, die deine tatsächlichen Kosten und deinen Zeitaufwand bestimmt. Die Kurzfassung: Gehostete API-Inferenz ist günstiger und schneller zu betreiben, es sei denn, du bewegst dich in Richtung von etwa 2–5 Millionen Token pro Tag mit anhaltendem Traffic über einen Zeitraum von 12 Monaten.

Wann gehostete API-Inferenz die Nase vorn hat

  • Dein Team hat keine Erfahrung mit GPU-Operations
  • Du prototypst noch oder iterierst bei der Modellauswahl
  • Dein Token-Volumen liegt unter dem Break-Even-Punkt für Selbsthosting
  • Du musst Modelle schnell wechseln, wenn neue Versionen erscheinen
  • Zuverlässigkeit und automatische Skalierung sind wichtiger als Kostenoptimierung

Eine gehostete LLM-API, insbesondere eine, die OpenAI-kompatibel ist, ermöglicht dir, ein neues Modell mit einer einzeiligen Änderung deiner Basis-URL und Modell-ID hinzuzufügen. Du vermeidest Cold-Start-Management, Quantisierungs-Kompromisse, Batch-Konfiguration und Serving-Framework-Upgrades.

Wann Self-Hosting die Nase vorn hat

  • Deine Daten können deine Infrastruktur nicht verlassen (Gesundheitswesen, Finanzen, Recht, regulierte Branchen)
  • Du verarbeitest mehr als 5 Millionen Token pro Tag mit vorhersagbarem Traffic
  • Du musst einen feinabgestimmten oder angepassten Checkpoint bereitstellen, den kein gehosteter Anbieter anbietet
  • Du hast einen bestehenden GPU-Cluster mit verfügbarer Kapazität

Selbsthosting auf H100s mit SGLang oder vLLM ist bei Skalierung wirklich kosteneffizient. Aktuelle Benchmarks zeigen SGLang mit 29 % höherem Durchsatz als vLLM bei Standard-Workloads und bis zu 6x schneller bei prefix-lastigen RAG-Pipelines durch RadixAttention. Aber diese Gewinne zählen nur, wenn du die operative Kapazität hast, den Serving-Stack durch Modell-Updates, Hardwarefehler und Traffic-Spitzen zu warten.

Der hybride Weg

Die meisten Teams landen bei einem Hybriden: gehostete API für Prototyping und flexiblen Modellzugang, GPU-Instanzen für Workloads, die dedizierte Kapazität rechtfertigen. Der praktische Vorteil, auf einer einzigen KI-Cloud-Plattform zu bleiben, ist, dass du keine Authentifizierung, Abrechnung, Beobachtbarkeit und Bereitstellungspipelines neu aufbauen musst, wenn du von serverloser API zu dediziertem Endpunkt zu benutzerdefinierter GPU-Instanz wechselst.

Wie du über eine API auf Open-Source-LLMs zugreifst

Novita AI bietet OpenAI-kompatiblen API-Zugang zu einem Katalog von Open-Source-Modellen, darunter DeepSeek V4 Pro, DeepSeek V4 Flash, Kimi K2, Qwen 3.5, GLM-5, MiniMax M3 und andere. Die Endpunktstruktur ist dieselbe wie bei OpenAI, sodass vorhandener Code, der das openai SDK verwendet, mit minimalen Änderungen eine Verbindung zu Novita-Modellen herstellen kann.

Einfacher API-Aufruf

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "Du bist ein hilfreicher Assistent."},
        {"role": "user", "content": "Erkläre den Unterschied zwischen DeepSeek R1 und V4 Pro."},
    ],
)

print(response.choices[0].message.content)

Um das Modell zu wechseln, ändere den Parameter model. Es sind keine weiteren Änderungen erforderlich. Eine vollständige Liste der unterstützten Modell-IDs findest du unter novita.ai/docs/model-api/reference/llm/models.html.

TypeScript

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.novita.ai/v3/openai",
  apiKey: process.env.NOVITA_API_KEY,
});

const response = await client.chat.completions.create({
  model: "qwen/qwen3.5-397b-a17b",
  messages: [{ role: "user", content: "Schreibe eine Python-Funktion zum Parsen von JSON." }],
});

console.log(response.choices[0].message.content);

Preisübersicht

Die Preise variieren je nach Modell und werden pro Million Token berechnet. DeepSeek V4 Flash mit 0,14 $/Mt Input und 0,28 $/Mt Output ist die kosteneffizienteste Option für allgemeine Zwecke. DeepSeek V4 Pro mit 1,60 $/Mt Input und 3,20 $/Mt Output ist die Premium-Wahl für agentische und Coding-Workloads, bei denen die Modellqualität die Aufgabenerfüllungsrate direkt beeinflusst. Aktuelle Preise findest du unter novita.ai/models/llm, da sich diese mit neuen Modellhinzufügungen ändern.

Open-Source-LLMs für Coding-Agenten

Die effektivsten Coding-Agenten-Setups im Jahr 2026 kombinieren ein Open-Source-LLM für Reasoning und Codegenerierung mit einer sandboxed Ausführungsumgebung für das Ausführen des Codes. Dies ist eine andere Architektur als ein einfacher API-Aufruf: Der Agent muss Dateien lesen, Code schreiben, Befehle ausführen, Ausgaben überprüfen und iterieren.

Die beiden Fehlermodi, die es zu vermeiden gilt, sind:

  1. Ausführen von agentengeneriertem Code auf deinem Entwicklungsrechner oder Produktionsserver – ein Fehler, falls das Modell etwas Destruktives oder Unerwartetes generiert
  2. Selbstständiges Einrichten einer vollständigen VM pro Agentensitzung – schnell zu überfordern, langsam zu skalieren

Novita Agent Sandbox

Die Agent Sandbox von Novita bietet isolierte Linux-Umgebungen, die in unter 200 ms starten. Jede Sandbox hat ein Dateisystem, in das der Agent schreiben und aus dem er lesen kann, eine Shell, in der der Agent Befehle ausführen kann, und eine Isolation, sodass das, was das Modell generiert, keine anderen Sandboxes oder deine Infrastruktur beeinträchtigen kann. Sitzungen bleiben über Anfragen hinweg bestehen, sodass der Agent den Zustand über eine mehrstufige Aufgabe hinweg aufrechterhalten kann.

Das Python SDK ist einfach:

from novita_sandbox.code_interpreter import Sandbox

sandbox = Sandbox.create()

# Agent schreibt eine Datei
sandbox.files.write("/workspace/app.py", code_content)

# Agent führt sie aus
result = sandbox.commands.run("python /workspace/app.py")
print(result.stdout)

# Aufräumen
sandbox.kill()

Kombiniere dies mit einem beliebigen OpenAI-kompatiblen Modell über die LLM-API von Novita, und du hast einen Coding-Agenten, der Code generieren, ausführen, inspizieren und überarbeiten kann – ohne jede Infrastruktur außer deinem API-Schlüssel.

Open-Source-Agenten-Frameworks

Mehrere Open-Source-Coding-Agenten stehen als Drop-in-Laufzeitumgebungen auf der Novita Agent Sandbox zur Verfügung:

  • OpenClaw auf Novita – Stelle einen persistenten OpenClaw-Agenten über die Novita-Sandbox ohne Sitzungslimit bereit. Er verbindet sich automatisch mit der LLM-API und der Sandbox von Novita, was ihn praktisch für langlaufende Automatisierungsaufgaben macht.
  • Hermes Agent – Ein autonomer Agent von Nous Research mit persistentem Speicher. Läuft als langlebiger Prozess, nicht als einzelne Sitzung.
  • Goose – Ein Open-Source-Coding-Agent (45.000+ GitHub-Sterne) mit Novita als nativen Anbieter, der ihm Zugang zu über 200 Modellen hinter einem einzigen Credential gibt.

Für Teams, die benutzerdefinierte Coding-Agenten erstellen, anstatt ein vorhandenes Framework bereitzustellen, bietet die Novita Agent Runtime eine leichte Abstraktionsschicht, die Sandbox-Lebenszyklus, Toolaufruf-Routing und Sitzungspersistenz übernimmt.

Welches Open-Source-LLM solltest du verwenden?

Der Entscheidungsbaum ist kurz:

Für Coding und agentische Aufgaben: Beginne mit DeepSeek V4 Pro über die API. Es ist der aktuelle Leistungsführer für SWE-Bench und mehrstufige Tool-Nutzung. Wenn die Kosten die Einschränkung sind, erledigt DeepSeek V4 Flash einfachere Code-Aufgaben zu einem Bruchteil des Preises.

Für Reasoning und Mathematik: DeepSeek R1 ist immer noch der Benchmark-Referenzpunkt für AIME und formales Reasoning. Verwende es, wenn die Aufgabe strukturierte Problemlösung und nicht Code-Ausführung beinhaltet.

Für kommerzielle Nutzung mit offener Lizenzierung: Qwen 3.5 unter Apache 2.0 ist die sicherste Wahl, wenn deine Rechtsabteilung eine saubere Lizenz benötigt. Die 397B-MoE-Architektur hält die Kosten pro Token trotz der großen Parameteranzahl niedrig.

Für selbst gehostetes Coding auf Consumer-GPUs: Qwen 2.5 Coder 32B läuft auf einer einzelnen RTX 4090 und erzielt 92 % bei HumanEval. Wenn du ein Coding-Modell ohne High-End-GPU-Infrastruktur selbst hosten musst, ist dies die praktische Wahl.

Für lange Dokumente: Llama 4 Scout mit seinem 10M-Token-Kontextfenster bewältigt Arbeitslasten, die bei jedem anderen Modell eine Aufteilung in Blöcke erfordern würden.

Für kleine Umgebungen: Phi-4 14B passt in 8 GB VRAM und meistert Instruktionsbefolgung, Codegenerierung und leichtes Reasoning gut.

Das Muster bei all diesen Wahlmöglichkeiten: Gehosteter API-Zugang beseitigt betrieblichen Aufwand und ermöglicht es dir, Modelle zu wechseln, während sich die Landschaft entwickelt. Selbsthosting ist sinnvoll, wenn Datenhoheit oder Token-Ökonomie in großem Maßstab die GPU-Operations-Investition rechtfertigen. Die meisten Produktionsteams landen bei beidem.

Fazit

Die Open-Source-LLM-Landschaft im Jahr 2026 unterscheidet sich grundlegend von der vor zwei Jahren. Modelle wie DeepSeek V4 Pro, Qwen 3.5 und Kimi K2 sind nicht länger „gut genug für die meisten Aufgaben“ – sie sind die erste Wahl für spezifische Workloads wie agentisches Codieren, formales Reasoning und die Verarbeitung langer Dokumente.

Die praktische Entscheidung ist nicht, welches Modell in einer Rangliste am besten ist. Es ist, welches Modell zu deinem Betriebsmodell passt: eine gehostete API, wenn du schnell handeln und GPU-Operations vermeiden musst; Selbsthosting, wenn deine Daten deine Infrastruktur nicht verlassen können oder deine Token-Ökonomie die Investition rechtfertigt; und eine Sandbox-Ausführungsebene, wenn dein Modell auf Code einwirken und ihn nicht nur generieren muss.

Die LLM-API von Novita AI deckt die wichtigsten Open-Source-Modelle hinter einem OpenAI-kompatiblen Endpunkt ab, sodass du denselben Integrationscode gegen DeepSeek, Qwen, Kimi oder GLM ausführen kannst, ohne deinen Stack für jede Modellversion neu aufbauen zu müssen. Kombiniere es mit der Agent Sandbox, wenn die Aufgabe Codeausführung erfordert, und du hast den Kern eines produktionsreifen Coding-Agenten, ohne die zugrunde liegende Infrastruktur selbst verwalten zu müssen.

FAQ

Was ist das beste Open-Source-LLM im Jahr 2026?

DeepSeek V4 Pro und Kimi K2 führen bei allgemeinen Benchmarks, wobei DeepSeek V4 Pro speziell bei agentischem Coding und SWE-Bench vorn liegt. Qwen 3.5 ist die stärkste freizügig lizenzierte Option (Apache 2.0). Die richtige Antwort hängt von deiner Aufgabe ab: Coding, Reasoning, langer Kontext oder niedriger VRAM.

Was sind die besten Open-Source-LLMs für die lokale Nutzung?

Qwen 2.5 Coder 32B (einzelne RTX 4090), Phi-4 14B (8 GB VRAM) und Llama 4 Scout (16 GB VRAM, 10 M Kontext) sind die praktischen Optionen für lokale Inferenz. Modelle über 70B erfordern normalerweise Multi-GPU-Setups.

Sind Open-Source-LLMs genauso gut wie Closed-Modelle?

Bei bestimmten Aufgaben, ja. DeepSeek V4 Pro erreicht oder übertrifft GPT-4.1 bei SWE-Bench und Coding-Benchmarks. Bei allgemeinen offenen Aufgaben haben die besten Closed-Modelle immer noch einen Vorteil. Die Lücke hängt stark von der spezifischen Aufgabe und dem Benchmark ab.

Was gibt es heute Neues bei Open-Source-LLMs?

Der Veröffentlichungszyklus von Open-Source-LLMs liegt im Jahr 2026 bei etwa monatlich. Zu den jüngsten großen Veröffentlichungen gehören GLM-5, Kimi K2, DeepSeek V4 Pro und Qwen 3.5. Aktuelle Neuigkeiten findest du im Novita AI Blog und im Artificial Analysis Leaderboard für aktualisierte Ranglisten.

Wie kann ich auf Open-Source-LLM-Modelle zugreifen, ohne sie selbst zu hosten?

Nutze eine gehostete Inferenz-API. Novita AI bietet OpenAI-kompatiblen Zugang zu DeepSeek, Qwen, Kimi, GLM, MiniMax und anderen Open-Source-Modellen. Ändere deine Basis-URL zu https://api.novita.ai/v3/openai und die Modell-ID zu der gewünschten; keine weiteren Änderungen an deinem vorhandenen Code.

Was ist der Unterschied zwischen Open-Source-LLMs und Open-Source-Sprachmodellen?

Die Begriffe werden in den meisten Kontexten synonym verwendet. Technisch gesehen bezieht sich „Large Language Model“ speziell auf skalierte Transformer-basierte Sprachmodelle. „Open-Source-Sprachmodell“ kann sich auch auf kleinere Modelle oder Modelle außerhalb der Transformer-Architektur beziehen, aber im aktuellen Sprachgebrauch beschreiben beide Begriffe dieselbe Kategorie von Modellen.

Empfohlene Artikel