Open-Source-Modelle wie Deepseek V3 und Qwen3 Coder holen nicht nur zu ihren proprietären Pendants auf – sie liefern erstklassige Leistung mit einem 6- bis 10-fachen Kostenvorteil. Doch dieses enorme Potenzial bringt eine versteckte Herausforderung mit sich: Open-Source-Modelle werden nur selten gehostet, während proprietäre Modelle fast immer gehostet werden.
Für die meisten Teams ist die interne Bereitstellung dieser Modelle aus drei Hauptgründen herausfordernd:
- Kostenintensiv: Um ein Modell wie Llama 3.3 70B zu betreiben, benötigen Sie höchstwahrscheinlich zwei H100-GPUs, eine enorme Anfangsinvestition. Schlimmer noch: Diese teure Hardware steht bei geringer Nachfrage oft still, was zu schlechter Auslastung und verschwendeten Investitionen führt.
- Komplex: Die Bereitstellung und Wartung von LLMs erfordert tiefgehendes Fachwissen in Inferenzoptimierung und GPU-Betrieb, und die Einstellung eines ganzen MLOps-Teams ist für die meisten Unternehmen nicht sinnvoll.
- Umständlich: Neue Modelle werden häufig veröffentlicht, aber interne Setups sind starr, was das Testen neuer Modelle oder die Skalierung zur Bewältigung plötzlicher Nachfrageschwankungen langsam und schwierig macht.
Bei Novita AI glauben wir, dass Sie nicht zwischen der Leistungsfähigkeit von Open Source und der ausgereiften Qualität eines verwalteten Dienstes wählen sollten. Unsere Plattform ist darauf ausgelegt, die Stabilität, Leistung und Entwicklererfahrung zu liefern, die Sie von einem erstklassigen proprietären Modell erwarten – und das mit den Kostenvorteilen des Open-Source-Ökosystems. Wir bieten produktionsreifes Hosting für Open-Source-LLMs.
Hier erhalten Sie einen Einblick hinter die Kulissen unserer Arbeit, die dies möglich macht.
Hinter den Kulissen des Modell-Hostings
Wenn Sie ein benutzerdefiniertes Modell auf Novita AI hosten oder unsere Open-Source-LLM-API aufrufen, passiert unter der Haube eine Menge. Das Hosting von Modellen im großen Maßstab umfasst einen komplexen Prozess aus Orchestrierung, Optimierung und kontinuierlicher Überwachung, um sicherzustellen, dass jede Anfrage schnell und zuverlässig ist.
Modellspeicherung und Hardware
Wir unterhalten eine Warm-Bibliothek beliebter Open-Source-Modelle (z. B. Llama, Qwen, DeepSeek), in der diese Milliarden-Parameter-Modelle gespeichert werden. Da der Betrieb dieser LLMs spezielle Hardware erfordert, arbeiten wir mit Rechenzentren auf der ganzen Welt zusammen, um einen schnellen und zuverlässigen Service für Nutzer an jedem Standort zu gewährleisten und zu verwalten:
- Server, die leistungsstark genug für Inferenz-Workloads sind
- Netzwerk, um Anfragen und Antworten schnell zu übertragen
- Stromversorgung, um den Betrieb 24/7 aufrechtzuerhalten
Wir übernehmen die Hardwarekosten und bieten:
- Warm-Modell-Bibliothek: Wir unterhalten Hunderte von warmgestarteten Modellen. So können Sie die neuesten LLMs sofort für Ihren Anwendungsfall testen und validieren.
- Serverless-Endpunkte nach Nutzung (Pay-As-You-Go): Sie zahlen nur für die von Ihnen verwendeten Tokens. Dieses tokenbasierte Preismodell ist perfekt für Anwendungen mit variabler Nachfrage wie Chatbots und Textgenerierung und stellt sicher, dass Sie nie für ungenutzte Kapazitäten zahlen.
- Benutzerdefinierte Bereitstellungen auf Abruf: Wenn Sie mehr Kontrolle benötigen, können Sie leistungsstarke GPUs wie die NVIDIA H100 für nur 1,85 $ pro Stunde mieten. Dies ermöglicht es Ihnen, Ihre Ressourcen nach Bedarf zu skalieren und hohe Kapitalausgaben in vorhersehbare Betriebskosten umzuwandeln.
- Entwicklerfreundliche Integration: Wir haben eine einheitliche API entwickelt, die die zugrunde liegende Komplexität abstrahiert. Diese APIs sind mit beliebten Frameworks wie der OpenAI-API kompatibel, sodass Sie Anbieter einfach wechseln können: Ändern Sie einfach die Basis-URL und den Schlüssel, und Sie haben Zugriff auf alle Open-Modelle in unserer Bibliothek. Wir integrieren uns auch nahtlos mit Frameworks wie LangChain, LiteLLM und LlamaIndex, sodass das Wechseln oder Experimentieren mit neuen Modellen Ihre bestehenden Workflows nicht beeinträchtigt.
Inferenzoptimierung
Die reine Modellausführung ist erst der Anfang. Um die beste Leistung zu den niedrigsten Kosten zu bieten, verwenden wir mehrere Techniken zur Optimierung der Inferenz:
- Quantisierung: Reduzierung der Genauigkeit von Modellgewichten, wodurch diese kleiner und schneller ausgeführt werden können, bei gleichbleibender Leistung
- Batching: Gleichzeitige Verarbeitung mehrerer Benutzeranfragen zur Maximierung der GPU-Auslastung
- Lastverteilung: Verteilung von Anfragen auf mehrere Server, sodass kein einzelner Server überlastet wird und die Latenz niedrig bleibt
Wir kümmern uns um die zugrunde liegende Komplexität, um eine ausgereifte, entwicklerfreundliche Erfahrung zu bieten, die Open-Source-KI für alle zugänglich macht:
- Wir bieten integrierte Unterstützung für kritische Funktionen wie Funktionsaufrufe, strukturierte Ausgaben und Batch-Inferenz. Dadurch entfällt die Notwendigkeit, diese komplexen Systeme selbst zu entwickeln, was Ihre Time-to-Market verkürzt.
- Elastische Skalierung für jeden Workload: Unsere Infrastruktur ist vollständig elastisch ausgelegt. Serverless-Endpunkte skalieren automatisch, um hohe Gleichzeitigkeit mit einem Time to First Token (TTFT) von unter 300 ms zu bewältigen. Benutzerdefinierte und Enterprise-Bereitstellungen bieten GPU-Auto-Skalierung, um jede Nachfrage zu erfüllen und gleichzeitig Leistung und Datenisolierung zu gewährleisten.
Für geschäftskritische Anwendungen bieten wir eine „Zero-Ops“-Lösung an. Teilen Sie uns Ihre Anforderungen mit (Modellname, Ein-/Ausgabelänge, Leistungs-SLA), und unsere LLM-Optimizer-Engine entwirft die kostengünstigste Lösung individuell für Sie. Unser Expertenteam stellt das Modell außerdem für Sie bereit und verwaltet es, unterstützt von einer 99,5%igen SLA, garantierter Leistung und direktem technischem Support.
Eigenes Hosting vs. Nutzung gehosteter Modelle
Einige Entwickler bevorzugen es, ihre eigenen Modelle für maximale Kontrolle zu hosten. Wenn das auf Sie zutrifft, unterstützen wir Sie gerne: Mieten Sie GPUs stundenweise über Novita AI und passen Sie Ihren Stack genau nach Ihren Wünschen an.
Allerdings bringt eigenes Hosting erhebliche Kompromisse mit sich: Einrichtung und Wartung erfordern Zeit und Fachwissen, die Skalierung kann schwierig sein, und die Balance zwischen Kosten und Leistung ist eine dauerhafte Herausforderung.
Die Nutzung gehosteter Open-Source-LLM-APIs wie Novita beseitigt diesen Overhead und bietet Ihnen eine produktionsreife Lösung mit vorhersehbarer Leistung und minimalem betrieblichen Aufwand. Wir haben die Infrastruktur von Novita AI optimiert, um Ihnen die beste Erfahrung zu den niedrigsten Kosten zu bieten. Durch den Betrieb von Modellen im großen Maßstab können wir niedrigere Preise anbieten, als ein Einzelner oder kleines Unternehmen durch eigenes Hosting erreichen kann. Wir berechnen die Anzahl der verarbeiteten Tokens, sodass Sie nur für das zahlen, was Sie tatsächlich nutzen.
Wir haben drei Service-Stufen entwickelt, die perfekt auf jede Phase Ihrer KI-Reise abgestimmt sind:
| Serverless-Endpunkte | Benutzerdefinierte Bereitstellungen | Enterprise-Bereitstellungen | |
| Modellunterstützung | Aktuelle LLMs wie Qwen3, DeepSeek, LLaMA3 | Hunderte warmgestartete Modelle + Upload benutzerdefinierter Modelle | Hunderte warmgestartete Modelle + Upload benutzerdefinierter Modelle |
| Preisgestaltung | Pay-As-You-Go, tokenbasiert | GPU/Stunde auf Abruf | Leistungsbasierte tokenbasierte Preisgestaltung |
| Integration | Self-Service, Einzeilen-Integration | Self-Service GPU-Bereitstellung, Einzeilen-Integration | Expertenbereitstellung & Enterprise-Services |
| Elastische Skalierung | Elastische Skalierung innerhalb von Rate Limits | Dedizierte Endpunkte: Auto-Skalierung von GPUs basierend auf der Nutzung | Leistungsbasierte elastische Skalierung |
| Optimale Anwendungsfälle | Schneller Zugriff auf neue Modelle ohne Verwaltung der Infrastruktur | Bedarf an größerer Modellkontrolle und benutzerdefinierten Setups | Vollständig verwaltete Bereitstellungen mit garantierter Leistung |
Hinweis: Die maximale GPU-Anzahl für Dedizierte Endpunkte beträgt 8. Wenn Sie mehr GPUs benötigen, kontaktieren Sie den Vertrieb für Enterprise-Services.
Fazit
Egal, ob Sie ein fein abgestimmtes Modell für einen Nischenanwendungsfall betreiben oder mit dem neuesten Open-Source-LLM experimentieren: Novita AI bietet Ihnen den Komfort proprietärer Modelle zu Open-Source-Preisen. Wenn Sie an einer benutzerdefinierten Lösung interessiert sind oder Ihr Setup besprechen möchten, vereinbaren Sie hier einen Chat mit unseren Ingenieuren.
Danksagung: Besonderer Dank gilt Charles, LLM-Projektmanager bei Novita, für seine Beiträge und Einblicke in diesen Artikel.
