- Was „höhere Verfügbarkeit“ für einen Multi-Provider-LLM-Dienst bedeutet
- SLO-Design für Multi-Provider-LLM-Dienste
- Provider-Health-Monitoring-Kriterien
- Alarmierungsarchitektur für Provider-Verschlechterung
- Incident-Playbooks für Multi-Provider-LLM-Dienste
- Fallback-Richtlinien-Governance
- Wie Novita AI Multi-Provider-Uptime-Operationen unterstützt
- Checkliste für die Betriebsbereitschaft vor dem Produktionsstart
- FAQ
- Empfohlene Artikel
Der beste Multi-Provider-LLM-Dienst für niedrigere Kosten und höhere Verfügbarkeit vereint eine solide Routing-Architektur mit expliziten Betriebspraktiken: definierte SLOs, kontinuierliches Provider-Health-Monitoring, getestete Incident-Playbooks und geregelte Fallback-Richtlinien. Das Routing-Design bestimmt, welche Modelle verfügbar sind. Die Betriebspraxis entscheidet darüber, ob der Dienst seine Verfügbarkeitszusagen tatsächlich einhält.
Dieser Artikel konzentriert sich auf die Betriebsebene. Informationen zum Routing-Design selbst – Fallback-Richtlinien, kostenstufenbasierte Modellauswahl, Circuit Breaker und Retry-Budgets – finden Sie unter Best Multi-Provider LLM Platform for Lower Cost and Downtime.
Was „höhere Verfügbarkeit“ für einen Multi-Provider-LLM-Dienst bedeutet
Verfügbarkeit (Uptime) für einen LLM-Dienst ist nicht dasselbe wie Serververfügbarkeit. Die Statusseite eines Providers kann grün anzeigen, während Ihre Nutzer erhöhte Latenz, verschlechterte Ausgabequalität oder stille Teilausfälle in einem Agent-Workflow erleben.
Eine praktische Verfügbarkeits-SLO für einen Multi-Provider-LLM-Dienst sollte Folgendes abdecken:
- Erfolgreiche Abschlussrate: der Anteil der LLM-Anfragen, die eine gültige, nutzbare Antwort innerhalb des Latenz-Budgets zurückgeben
- Time to First Token (P95): die von interaktiven Nutzern erlebte Latenz, nicht nur die durchschnittliche Latenz
- Agent-Workflow-Abschlussrate: bei agentischen Workloads der Anteil der mehrstufigen Aufträge, die einen erfolgreichen Endzustand erreichen
- Kosten pro erfolgreichem Task: ein Effizienzsignal, das steigt, wenn Wiederholungen, Fallbacks oder längere Ausgaben die Kosten in die Höhe treiben, ohne die Anzahl erfolgreicher Abschlüsse zu erhöhen
Ein Dienst kann eine Serververfügbarkeit von 99,9 % haben und dennoch die benutzersichtbaren Verfügbarkeits-SLOs verfehlen, wenn Modellverschlechterung, Ratenlimiterschöpfung oder Sandbox-Fehler stille Fehler verursachen.
SLO-Design für Multi-Provider-LLM-Dienste
Definieren Sie SLOs nach Workload-Klasse, nicht nach Provider
Die Zuverlässigkeit von Providern variiert je nach Modell, Region und Tarif. Definieren Sie Ihre SLO-Ziele auf der Ebene der Workload-Klasse – der benutzerorientierten Operation – und nicht auf der Ebene des Providers.
| Workload-Klasse | Beispiel-SLO-Ziel | Fehlerbudget (30 Tage) |
|---|---|---|
| Interaktiver Chat (P95-Latenz ≤ 2 s) | 99,5 % erfolgreiche Abschlüsse | 3,6 Stunden |
| Agent-Workflow-Abschluss | 99,0 % Aufträge erreichen Endzustand | 7,2 Stunden |
| Batch-Extraktion / Klassifikation | 99,9 % Abschlüsse innerhalb des SLA-Fensters | 43 Minuten |
| Streaming-Generierung (P95 TTFT ≤ 1 s) | 99,0 % Anfragen halten TTFT-Budget ein | 7,2 Stunden |
Workload-Klassen-SLOs ermöglichen eine genaue Zuweisung von Fehlerbudgets. Wenn ein Incident das interaktive Chat-Budget, aber nicht das Batch-Budget aufbraucht, wissen Sie, wo Sie Ihre Zuverlässigkeitsarbeit konzentrieren müssen.
Trennen Sie Verfügbarkeits-SLO von Qualitäts-SLO
Ein Multi-Provider-System kann eine hohe Verfügbarkeit aufrechterhalten (Anfragen erhalten Antworten), während die Qualität leidet (ein Fallback-Modell liefert schwächere Antworten). Überwachen Sie beides:
- Verfügbarkeits-SLO: Nicht-Fehler-Antwortrate innerhalb des Latenz-Budgets
- Qualitäts-SLO: Anteil der Antworten, die eine Mindestqualitätsschwelle erreichen (menschliche Bewertungen, automatisierte Auswertung, Nutzer-Daumen-runter-Rate)
Wenn während eines Incidents Fallback-Routen aktiviert werden, ist die Qualitäts-SLO-Burn-Rate das Signal, das Ihnen sagt, ob der verschlechterte Modus akzeptabel ist oder ob das System Anfragen in die Warteschlange stellen oder anhalten sollte.
Provider-Health-Monitoring-Kriterien
Effektives Multi-Provider-Monitoring beobachtet mehr als nur die Statusseite des Providers. Bauen Sie Ihr eigenes Gesundheits-Signal aus dem beobachteten Datenverkehr auf.
| Signal | Was messen | Beispiel-Alarmschwelle |
|---|---|---|
| Fehlerrate pro Provider + Modell | 4xx/5xx-Antworten pro Minute | > 5 % über 5-Minuten-Fenster |
| P95-Latenz pro Provider + Modell | Time to First Token, Gesamtbearbeitungszeit | > 2× Baseline für 3 aufeinanderfolgende Minuten |
| Ratenlimit-Trefferquote | 429-Antworten als Anteil der Anfragen | > 2 % über 2-Minuten-Fenster |
| Fallback-Aktivierungsrate | Anfragen, die an sekundäres Modell weitergeleitet wurden | > 10 % über 5 Minuten anhaltend (kann auf primäre Verschlechterung hinweisen) |
| Agent-Workflow-Fehlerrate | Mehrstufige Aufträge, die keinen Endzustand erreichten | > 1 % über 10-Minuten-Fenster |
| Kosten pro erfolgreichem Task | (Eingabe-Token + Ausgabe-Token) × Preis / erfolgreiche Abschlüsse | > 20 % über 7-Tage-Basislinie |
| Qualitätsscore-Drift | Automatisierte Bewertungs-Bestehensquote oder negative Nutzerfeedback-Rate | > 15 % relativer Rückgang von der 7-Tage-Basislinie |
Für Teams, die die Novita AI LLM API nutzen, liefert der OpenAI-kompatible Chat-Completion-Endpunkt standardmäßige HTTP-Statuscodes und Latenz-Header, die direkt in diese Signale einfließen. Protokollieren Sie bei jeder Anfrage die Modell-ID, den Provider-Pfad und die Anzahl der Wiederholungen, damit Ihr Monitoring modellspezifisch ist und nicht nur auf Endpunktebene.
Was in jedem LLM-Anfragenlog ausgegeben werden sollte
{
"request_id": "req_abc123",
"workload_class": "interactive_chat",
"primary_model": "meta-llama/llama-3.1-70b-instruct",
"routed_model": "meta-llama/llama-3.1-8b-instruct",
"route_reason": "primary_rate_limited",
"provider": "novita",
"latency_ms": 1240,
"ttft_ms": 380,
"input_tokens": 512,
"output_tokens": 148,
"retry_count": 1,
"status": "success",
"quality_eval": "pass",
"cost_usd": 0.00031
}
route_reason ist das Feld, das die meisten Teams weglassen. Ohne es können Sie in Ihren Dashboards nicht zwischen einem gesunden Fallback (erwartetes Verhalten) und einem verschlechterten Fallback (Provider-Incident) unterscheiden.
Alarmierungsarchitektur für Provider-Verschlechterung
Alarme sollten auf zwei Ebenen ausgelöst werden: taktisch (sofortiges Handeln des Bereitschaftsingenieurs) und strategisch (Trend, der eine Änderung der Routing-Richtlinie erfordert).
Taktische Alarme (Seite den Bereitschaftsingenieur)
- Provider-Fehlerrate überschreitet 5 % für 5 Minuten bei einer Produktions-Workload-Klasse
- P95-Latenz überschreitet 2× Baseline für 3 aufeinanderfolgende Minuten beim interaktiven Chat
- Agent-Workflow-Fehlerrate überschreitet 1 % für 10 Minuten
- Qualitäts-SLO-Burn-Rate überschreitet 5 % des monatlichen Fehlerbudgets in 1 Stunde
Strategische Alarme (Slack-Kanal, keine Seite)
- Fallback-Aktivierungsrate über 10 %, anhaltend für 30 Minuten (Routing-Richtlinie muss möglicherweise angepasst werden)
- Kosten pro erfolgreichem Task 20 % über der 7-Tage-Basislinie für 2 Stunden
- Ratenlimit-Treffer für primäres Modell steigt über 24 Stunden an (Kapazitätsplanungssignal)
- Qualitätsscore-Drift-Alarm: Fallback-Modellqualität sinkt über 7-Tage-Fenster
Alarmweiterleitung nach Workload-Klasse
Senden Sie nicht jeden Alarm an denselben Kanal. Leiten Sie taktische Alarme nach Workload-Klasse weiter, damit das richtige Team handelt. Ein 429-Anstieg beim internen Copiloten ist ein weniger kritisches Ereignis als derselbe Anstieg beim kundenorientierten Agent-Workflow.
Incident-Playbooks für Multi-Provider-LLM-Dienste
Eine Routing-Richtlinie entscheidet, was automatisch zu tun ist. Ein Incident-Playbook führt den Bereitschaftsingenieur, wenn das automatische Verhalten nicht ausreicht oder der Incident unklar ist.
Playbook: Erhöhte Fehlerrate beim primären Provider
Auslöser: Fehlerrate des primären Modells > 5 % für 5 Minuten bei einer Produktions-Workload-Klasse.
- Überprüfen: Prüfen Sie die Statusseite des Providers und Ihre eigenen Fehlerlogs. Unterscheiden Sie einen transienten Spike von einer anhaltenden Verschlechterung.
- Auswirkungen bewerten: Wie viele Workload-Klassen sind betroffen? Ist das Fallback-Modell bereits aktiv und hält die Qualitäts-SLO ein?
- Wenn Fallback aktiv ist und Qualitäts-SLO eingehalten wird: Überwachen Sie die Erholung. Setzen Sie einen 30-minütigen Überprüfungspunkt.
- Wenn Fallback aktiv ist, aber Qualitäts-SLO brennt: Verlagern Sie risikoreiche Workloads (rechtlich, finanziell, sicherheitsrelevant) in die Warteschlange oder auf manuellen Halt. Informieren Sie die Stakeholder.
- Wenn kein Fallback verfügbar ist: Aktivieren Sie den verschlechterten Modus (benutzersichtbarer Hinweis, nicht dringende Anfragen in die Warteschlange). Eskalieren Sie an den Incident Commander.
- Erholung: Sobald die primäre Fehlerrate für 10 Minuten unter 1 % fällt, leiten Sie den Datenverkehr schrittweise zurück. Schalten Sie nicht den gesamten Datenverkehr auf einmal um.
- Nach dem Incident: Protokollieren Sie die Incident-Dauer, betroffene Workload-Klassen, Verbrauch des Qualitäts-SLOs, Kostenauswirkungen und alle aufgedeckten Lücken in der Fallback-Richtlinie.
Playbook: Ratenlimiterschöpfung
Auslöser: 429-Rate beim primären Modell > 2 % für 2 Minuten.
- Kontingent-Dashboards prüfen: Handelt es sich um ein anhaltendes Kapazitätsproblem oder einen Verkehrsspitze?
- Wenn Spike: Aktivieren Sie Backoff- und Retry-Budgets. Leiten Sie Überschuss für berechtigte Workloads an die sekundäre Modellstufe weiter.
- Wenn anhaltend: Implementieren Sie eine Anforderungswarteschlange für Workloads mit niedrigerer Priorität. Erwägen Sie, vorhersagbaren Datenverkehr mit hohem Volumen auf einen dedizierten Endpunkt zu verlagern – Novita AI GPU Cloud oder ein dedizierter LLM-Endpunkt kann eine vorhersagbarere Kapazität für Workloads bieten, die die gemeinsam genutzten API-Ratenlimits überschritten haben.
- Nicht endlos wiederholen: Erzwingen Sie Retry-Budgets. Protokollieren Sie jeden 429 mit der Workload-Klasse und dem Modell, damit Sie erkennen können, welche Aufrufmuster am stärksten betroffen sind.
Playbook: Spike bei Agent-Workflow-Fehlern
Auslöser: Agent-Workflow-Fehlerrate > 1 % für 10 Minuten.
- Fehlertyp unterscheiden: Liegt der Fehler im LLM-Aufruf (Modellfehler, Ratenlimit, Kontextüberlauf) oder in der Ausführungsebene (Sandbox-Timeout, fehlerhaft formatierte Tool-Ausgabe, Dateioperationsfehler)?
- Bei LLM-Ebenen-Fehlern: Befolgen Sie das obige Playbook für erhöhte Fehlerrate beim primären Provider.
- Bei Sandbox- oder Ausführungsfehlern: Prüfen Sie die Logs von Novita Agent Sandbox. Identifizieren Sie, ob das Problem systematisch ist (schlechte Prompt-Vorlage, die fehlerhafte Tool-Aufrufe verursacht) oder umgebungsbedingt (Sandbox-Kapazität, Netzwerk-Timeout).
- Betroffene Workflow-Typen isolieren: Ein Fehler in der Browser-Automatisierung sollte keinen Stopp bei Code-Ausführungs-Workflows auslösen, wenn diese unabhängig sind.
- Erholungs-Gate: Bevor Sie den vollen Datenverkehr wiederherstellen, führen Sie eine repräsentative Menge von goldenen Prompts durch den betroffenen Workflow aus und bestätigen Sie, dass die Fehlerrate wieder auf das Basisliveau zurückgekehrt ist.
Playbook: Qualitäts-SLO-Verschlechterung während des Fallbacks
Auslöser: Qualitätsscore fällt um > 15 % von der 7-Tage-Basislinie, während das Fallback-Modell aktiv ist.
- Identifizieren, welche Workload-Klassen betroffen sind: Qualitätsverschlechterung ist oft Workload-spezifisch. Ein Fallback-Modell kann einfache Klassifikation gut handhaben, aber bei längerer Argumentation nachlassen.
- Workload-klassenspezifische Fallback-Grenzen anwenden: Beschränken Sie das verschlechterte Fallback auf Workloads, bei denen ein Qualitätsabfall akzeptabel ist. Stellen Sie risikoreiche Aufgaben in die Warteschlange oder halten Sie sie an.
- Informieren Sie die Stakeholder über Auswirkungen auf Kunden.
- Nach dem Incident: Aktualisieren Sie die Fallback-Genehmigungsmatrix, um die beobachteten Qualitätsgrenzen des Backup-Modells widerzuspiegeln.
Fallback-Richtlinien-Governance
Routing-Richtlinien legen fest, welche Fallback-Modelle verfügbar sind. Governance legt fest, welche Fallbacks für jede Workload-Klasse genehmigt sind – und wann ein automatischer Fallback überhaupt nicht stattfinden sollte.
Fallback-Genehmigungsmatrix
Pflegen Sie eine dokumentierte Fallback-Genehmigungsmatrix nach Workload-Klasse:
| Workload-Klasse | Primäres Modell | Genehmigtes Fallback | Bedingungen | Verbotenes Fallback |
|---|---|---|---|---|
| Kunden-Chat | Modell A (groß) | Modell B (mittel) | Qualitätsbewertung bestanden an goldenem Set | Jedes Modell, das nicht auf der genehmigten Liste steht |
| Interner Copilot | Modell A (groß) | Modell B (mittel), Modell C (klein) | Qualitätsbewertung bestanden | N/A |
| Rechtliche / Compliance-Entwürfe | Modell A (groß) | Nur Warteschlange | Kein automatischer Fallback | Jedes kleinere Modell |
| Batch-Klassifikation | Modell C (klein) | Modell D (alternativer Provider) | Qualitätsbewertung bestanden | Große Modelle (Kostenkontrolle) |
| Browser-Agent | Modell A (groß) + Sandbox | Warteschlange | Sandbox-Ausführung muss bestätigt sein | Text-only-Modelle ohne Tool-Unterstützung |
Überprüfen Sie diese Matrix monatlich und nach jedem Incident, bei dem das Fallback-Verhalten unerwartet oder unzureichend war.
Wer besitzt Änderungen an Fallback-Richtlinien?
Änderungen an Fallback-Richtlinien sollten die Zustimmung sowohl des Engineering-Teams (kann das System die Änderung unterstützen?) als auch des Produkt- oder Risikoteams (ist der Qualitätskompromiss akzeptabel?) erfordern. Ein automatisches Routing-System, das ohne menschliche Zustimmung zur Qualitätsschwelle auf ein günstigeres Modell umschaltet, schafft ein stilles Produktrisiko.
Dokumentieren Sie jede Änderung: welches Modell, welche Workload-Klasse, welche Qualitätsbewertung durchgeführt wurde, wer sie genehmigt hat und welche Bedingungen eine Richtlinienüberprüfung auslösen.
Wie Novita AI Multi-Provider-Uptime-Operationen unterstützt
Novita AI fungiert als eine KI- und Agenten-Cloud – LLM API, Agent Sandbox und GPU Cloud – die Teams für die hier beschriebene Art von Betriebspraxis instrumentieren können.
Die LLM API liefert bei jeder Anfrage standardmäßige HTTP-Statuscodes, Latenz-Header und Token-Anzahlen und gibt Ihnen damit die Rohsignale für das Provider-Health-Monitoring und das SLO-Tracking. Die Modellbibliothek listet die aktuelle Modellverfügbarkeit auf, sodass Sie Routing-Richtlinien gegen tatsächlich unterstützte Modelle erstellen können. Die OpenAI-kompatible Chat-Completion-API bedeutet, dass vorhandene Observability-Tools (Anfragenprotokollierung, Latenzverfolgung, Fehlerraten-Dashboards) ohne benutzerdefinierte Instrumentierung funktionieren.
Novita Agent Sandbox fügt eine verwaltete Ausführungsumgebung für agentische Workflows hinzu. Die Möglichkeit, sowohl LLM-Aufrufergebnisse als auch Sandbox-Ausführungsergebnisse im selben Workflow-Log zu beobachten, ist für das Playbook zu Agent-Workflow-Fehlern direkt relevant: Ohne Logs aus beiden Ebenen können Sie einen Modellfehler nicht von einem Sandbox-Ausführungsfehler unterscheiden.
Novita AI GPU Cloud und dedizierte Endpunkte bieten Teams einen operativen Weg, wenn gemeinsame API-Ratenlimits zu einer Zuverlässigkeitseinschränkung werden. Für Workloads, bei denen 429s ein wiederkehrender Incident-Auslöser sind, entfernt der Wechsel zu dedizierter Kapazität eine Incident-Klasse aus dem Betriebsmodell gemeinsam genutzter APIs.
Checkliste für die Betriebsbereitschaft vor dem Produktionsstart
Verwenden Sie diese Checkliste, wenn Sie bewerten, ob Ihr Multi-Provider-LLM-Dienst betriebsbereit ist:
SLO-Definition
- [ ] SLO-Ziele für jede Produktions-Workload-Klasse definiert (Verfügbarkeit + Qualität)
- [ ] Fehlerbudgets berechnet und dokumentiert
- [ ] Burn-Rate-Alarme für jede SLO konfiguriert
Monitoring
- [ ] Jede LLM-Anfrage protokolliert: Modell, Provider, Routengrund, Latenz, Token, Anzahl Wiederholungen, Status, Ergebnis der Qualitätsbewertung
- [ ] Dashboards zeigen Fehlerrate, P95-Latenz, Fallback-Aktivierungsrate, Kosten pro erfolgreichem Task – aufgeschlüsselt nach Workload-Klasse
- [ ] Provider-Health-Signale aus beobachtetem Datenverkehr abgeleitet, nicht nur von Statusseiten
Alarmierung
- [ ] Taktische Alarme (Seite) für Produktions-Workload-Klassen konfiguriert
- [ ] Strategische Alarme (Slack) für Kostenabweichungen und Fallback-Raten-Trends konfiguriert
- [ ] Alarmweiterleitung ordnet Workload-Klasse dem zuständigen Team zu
Incident-Playbooks
- [ ] Playbooks geschrieben und zugänglich für: Fehlerspitze beim primären Provider, Ratenlimiterschöpfung, Agent-Workflow-Fehler, Qualitäts-SLO-Verschlechterung
- [ ] Erholungs-Gates für jedes Playbook definiert (was muss wahr sein, bevor der volle Datenverkehr wiederhergestellt wird)
- [ ] Prozess für die Überprüfung nach Incidents dokumentiert
Fallback-Governance
- [ ] Fallback-Genehmigungsmatrix existiert und ist aktuell
- [ ] Verbotene Fallback-Bedingungen für risikoreiche Workload-Klassen dokumentiert
- [ ] Genehmigungsprozess für Richtlinienänderungen definiert (Engineering + Produkt/Risiko)
- [ ] Monatliche Überprüfung geplant
Infrastruktur-Notausstieg
- [ ] Dedizierter Endpunkt oder GPU-Cloud-Pfad für Workloads identifiziert, bei denen gemeinsame API-Ratenlimits eine wiederkehrende Einschränkung darstellen
FAQ
Was ist der Unterschied zwischen Multi-Provider-Routing-Design und Multi-Provider-Betrieb?
Routing-Design legt die Richtlinie fest: welche Modelle primär und Fallback sind, wann wiederholt wird und wie mit bestimmten Fehlertypen umzugehen ist. Betrieb ist die fortlaufende Praxis, die Funktionsfähigkeit der Richtlinie zu überprüfen: Überwachung des SLO-Verbrauchs, Ausführung von Incident-Playbooks, wenn dies nicht der Fall ist, und Steuerung von Änderungen an der Richtlinie. Beides ist erforderlich für einen Dienst, der seine Verfügbarkeitszusagen zuverlässig einhält.
Wie setze ich eine realistische Verfügbarkeits-SLO für einen Multi-Provider-LLM-Dienst?
Messen Sie zunächst Ihre aktuelle erfolgreiche Abschlussrate und P95-Latenz über ein repräsentatives Verkehrsfenster. Setzen Sie Ihr SLO-Ziel auf ein Niveau, das Ihre Routing-Richtlinie mit dem verfügbaren Fehlerbudget realistischerweise unterstützen kann. Für einen neuen Dienst ist eine erfolgreiche Abschlussrate von 99,0 %–99,5 % ein vernünftiges Ausgangsziel. Passen Sie es an, nachdem Sie Ihre ersten Fehlerbudget-Fenster beobachtet haben.
Wie oft sollten Fallback-Genehmigungsmatrizen überprüft werden?
Mindestens monatlich und nach jedem Incident, bei dem das Fallback-Verhalten unerwartet war oder die Qualität während des Fallbacks abfiel. Modellfähigkeiten und Preise ändern sich häufig genug, dass eine im ersten Quartal gültige Matrix im dritten Quartal möglicherweise nicht mehr gültig ist.
Wann sollte ein Multi-Provider-Fallback nicht automatisch erfolgen?
Wenn die Workload-Klasse sicherheits-, rechts-, finanz- oder compliance-sensitiv ist und das Fallback-Modell nicht für diesen spezifischen Aufgabentyp evaluiert wurde. In diesen Fällen ist eine Warteschlange oder ein benutzersichtbarer „nicht verfügbar“-Zustand sicherer als eine qualitativ minderwertige automatische Antwort.
Wie passt Novita AI in dieses Betriebsmodell?
Novita AI stellt die Infrastrukturschichten bereit – LLM API für Inferenz, Agent Sandbox für agentische Ausführung, GPU Cloud für dedizierte Kapazität – die Sie mithilfe der oben beschriebenen Praktiken instrumentieren und betreiben. Es ersetzt nicht die SLO-Definitionen, Monitoring-Konfigurationen, Playbooks oder Governance-Entscheidungen, die einen Dienst zuverlässig machen. Diese kommen aus der Betriebspraxis Ihres Teams.
Empfohlene Artikel
- Best Multi-Provider LLM Platform for Lower Cost and Downtime – Routing-Design: Fallback-Richtlinien, kostenstufenbasierte Modellauswahl, Circuit Breaker
- Best LLM API Providers in 2026
- Which Inference Provider Is Right for AI Agents
- LLM Dedicated Endpoint on Novita AI
