Meilleur service LLM multi-fournisseur pour un coût réduit et une disponibilité accrue ?

Meilleur service LLM multi-fournisseur pour un coût réduit et une disponibilité accrue ?

Le meilleur service LLM multi-fournisseur pour un coût réduit et une disponibilité accrue est celui qui associe une architecture de routage solide à une pratique opérationnelle explicite : des SLO définis, une surveillance continue de la santé des fournisseurs, des playbooks d’incident testés et des politiques de basculement gouvernées. La conception du routage décide des modèles disponibles. Les opérations décident si le service respecte réellement ses engagements de disponibilité une fois ce routage en place.

Cet article se concentre sur la couche opérationnelle. Pour la conception du routage elle-même — politiques de basculement, sélection de modèles par niveau de coût, disjoncteurs et budgets de tentatives — voir Meilleure plateforme LLM multi-fournisseur pour un coût réduit et une disponibilité accrue.

Ce que signifie « disponibilité accrue » pour un service LLM multi-fournisseur

La disponibilité d’un service LLM n’est pas la même que la disponibilité du serveur. La page de statut d’un fournisseur peut être verte alors que vos utilisateurs subissent une latence élevée, une qualité de sortie dégradée ou des défaillances partielles silencieuses dans un workflow agent.

Un SLO de disponibilité pratique pour un service LLM multi-fournisseur devrait couvrir :

  • Taux d’achèvement réussi : la fraction des requêtes LLM qui renvoient une réponse valide et utilisable dans le budget de latence
  • Délai avant le premier token (P95) : la latence ressentie par les utilisateurs interactifs, pas seulement la latence moyenne
  • Taux d’achèvement des workflows agent : pour les charges de travail agentiques, la fraction des tâches multi-étapes qui atteignent un état terminal réussi
  • Coût par tâche réussie : un signal d’efficacité qui augmente lorsque les tentatives, les basculements ou les sorties plus longues gonflent les dépenses sans ajouter d’achèvements réussis

Un service peut avoir une disponibilité serveur de 99,9 % et pourtant manquer les SLO de disponibilité visibles par l’utilisateur si la dégradation du modèle, l’épuisement des limites de débit ou des défaillances de sandbox provoquent des erreurs silencieuses.

Conception des SLO pour les services LLM multi-fournisseurs

Définir les SLO par classe de charge de travail, pas par fournisseur

La fiabilité des fournisseurs varie selon le modèle, la région et le niveau. Définissez vos cibles SLO au niveau de la classe de charge de travail — l’opération visible par l’utilisateur — pas au niveau du fournisseur.

Classe de charge de travail Exemple de cible SLO Budget d’erreur (30 jours)
Chat interactif (latence P95 ≤ 2 s) 99,5 % d’achèvements réussis 3,6 heures
Achèvement de workflow agent 99,0 % des tâches atteignent l’état terminal 7,2 heures
Extraction / classification par lots 99,9 % d’achèvements dans la fenêtre SLA 43 minutes
Génération en streaming (P95 TTFT ≤ 1 s) 99,0 % des requêtes respectent le budget TTFT 7,2 heures

Les SLO par classe de charge de travail vous permettent d’allouer les budgets d’erreur avec précision. Si un incident épuise le budget du chat interactif mais pas celui du traitement par lots, vous savez où concentrer les efforts de fiabilité.

Séparer le SLO de disponibilité du SLO de qualité

Un système multi-fournisseur peut maintenir une haute disponibilité (les requêtes reçoivent des réponses) tandis que la qualité se dégrade (un modèle de basculement produit des réponses plus faibles). Suivez les deux :

  • SLO de disponibilité : taux de réponse sans erreur dans le budget de latence
  • SLO de qualité : fraction des réponses atteignant un seuil de qualité minimal (labels humains, évaluation automatisée, taux de votes négatifs des utilisateurs)

Lorsque les routes de basculement sont activées pendant un incident, le taux de combustion du SLO de qualité est le signal qui vous indique si le mode dégradé est acceptable ou si le système doit mettre en file d’attente ou s’arrêter.

Critères de surveillance de la santé des fournisseurs

Une surveillance multi-fournisseur efficace observe plus que la page de statut du fournisseur. Construisez votre propre signal de santé à partir du trafic observé.

Signal Que mesurer Exemple de seuil d’alerte
Taux d’erreur par fournisseur + modèle Réponses 4xx/5xx par minute > 5 % sur une fenêtre de 5 minutes
Latence P95 par fournisseur + modèle Délai avant le premier token, temps d’achèvement total > 2× la référence pendant 3 minutes consécutives
Taux de dépassement de limite de débit Réponses 429 en fraction des requêtes > 2 % sur une fenêtre de 2 minutes
Taux d’activation de basculement Requêtes routées vers le modèle secondaire > 10 % soutenu pendant 5 minutes (peut signaler une dégradation principale)
Taux d’échec des workflows agent Tâches multi-étapes n’ayant pas atteint l’état terminal > 1 % sur une fenêtre de 10 minutes
Coût par tâche réussie (tokens d’entrée + tokens de sortie) × prix / achèvements réussis > 20 % au-dessus de la référence sur 7 jours
Dérive du score de qualité Taux de réussite d’évaluation automatisée ou taux de feedback négatif utilisateur > 15 % de baisse relative par rapport à la référence sur 7 jours

Pour les équipes utilisant Novita AI LLM API, le point d’accès de complétion de chat compatible OpenAI renvoie des codes d’état HTTP standard et des en-têtes de latence qui alimentent directement ces signaux. Enregistrez l’ID du modèle, le chemin du fournisseur et le nombre de tentatives pour chaque requête afin que votre surveillance soit spécifique au modèle, pas seulement au niveau du point d’accès.

Que journaliser dans chaque log de requête LLM

{
  "request_id": "req_abc123",
  "workload_class": "interactive_chat",
  "primary_model": "meta-llama/llama-3.1-70b-instruct",
  "routed_model": "meta-llama/llama-3.1-8b-instruct",
  "route_reason": "primary_rate_limited",
  "provider": "novita",
  "latency_ms": 1240,
  "ttft_ms": 380,
  "input_tokens": 512,
  "output_tokens": 148,
  "retry_count": 1,
  "status": "success",
  "quality_eval": "pass",
  "cost_usd": 0.00031
}

route_reason est le champ que la plupart des équipes omettent. Sans lui, vous ne pouvez pas distinguer un basculement sain (comportement attendu) d’un basculement dégradé (incident fournisseur) dans vos tableaux de bord.

Architecture d’alerting pour la dégradation des fournisseurs

Les alertes doivent se déclencher à deux niveaux : tactique (action immédiate de l’astreinte) et stratégique (tendance nécessitant un changement de politique de routage).

Alertes tactiques (pagez l’ingénieur d’astreinte)

  • Le taux d’erreur du fournisseur dépasse 5 % pendant 5 minutes sur une classe de charge de travail de production
  • La latence P95 dépasse 2× la référence pendant 3 minutes consécutives sur le chat interactif
  • Le taux d’échec des workflows agent dépasse 1 % pendant 10 minutes
  • Le taux de combustion du SLO de qualité dépasse 5 % du budget d’erreur mensuel en 1 heure

Alertes stratégiques (canal Slack, pas de page)

  • Taux d’activation de basculement supérieur à 10 % soutenu pendant 30 minutes (la politique de routage peut nécessiter un ajustement)
  • Coût par tâche réussie 20 % au-dessus de la référence sur 7 jours pendant 2 heures
  • Les dépassements de limite de débit du modèle principal augmentent sur 24 heures (signal de planification de capacité)
  • Alerte de dérive du score de qualité : la qualité du modèle de secours diminue sur une fenêtre de 7 jours

Routage des alertes par classe de charge de travail

N’envoyez pas chaque alerte sur le même canal. Routez les alertes tactiques par classe de charge de travail afin que la bonne équipe agisse. Un pic de 429 sur le copilote interne est un événement de priorité inférieure au même pic sur le workflow agent orienté client.

Playbooks d’incident pour les services LLM multi-fournisseurs

Une politique de routage décide quoi faire automatiquement. Un playbook d’incident guide l’ingénieur d’astreinte lorsque le comportement automatique ne suffit pas ou lorsque l’incident est ambigu.

Playbook : Taux d’erreur élevé du fournisseur principal

Déclencheur : Taux d’erreur du modèle principal > 5 % pendant 5 minutes sur une classe de charge de travail de production.

  1. Vérifier : Consultez la page de statut du fournisseur et vos propres logs d’erreur. Distinguez un pic transitoire d’une dégradation soutenue.
  2. Évaluer l’impact : Combien de classes de charge de travail sont affectées ? Le modèle de basculement est-il déjà actif et dans les limites du SLO de qualité ?
  3. Si le basculement est actif et le SLO de qualité respecté : Surveillez la récupération. Fixez un point de contrôle de révision à 30 minutes.
  4. Si le basculement est actif mais que le SLO de qualité se consume : Déplacez les charges de travail à haut risque (juridique, financier, sensible à la sécurité) vers une file d’attente ou une mise en attente manuelle. Notifiez les parties prenantes.
  5. Si aucun basculement n’est disponible : Activez le mode dégradé (avis visible par l’utilisateur, mettez en file d’attente les requêtes non urgentes). Escaladez vers le responsable d’incident.
  6. Récupération : Une fois que le taux d’erreur principal revient sous 1 % pendant 10 minutes, transférez progressivement le trafic. Ne basculez pas tout le trafic d’un coup.
  7. Post-incident : Enregistrez la durée de l’incident, les classes de charge de travail affectées, la consommation du SLO de qualité, l’impact sur les coûts et toute lacune de la politique de basculement découverte.

Playbook : Épuisement des limites de débit

Déclencheur : Taux de 429 sur le modèle principal > 2 % pendant 2 minutes.

  1. Vérifier les tableaux de bord de quota : S’agit-il d’un problème de capacité soutenu ou d’un pic de trafic ?
  2. Si pic : Activez les budgets de backoff et de tentatives. Routez l’excédent vers le niveau de modèle secondaire pour les charges de travail éligibles.
  3. Si soutenu : Mettez en œuvre la mise en file d’attente des requêtes pour les charges de travail de moindre priorité. Envisagez de déplacer le trafic volumineux prévisible vers un point d’accès dédié — Novita AI GPU Cloud ou un point d’accès LLM dédié peut fournir une capacité plus prévisible pour les charges de travail qui ont dépassé les limites de débit des API partagées.
  4. Ne réessayez pas indéfiniment : Appliquez des budgets de tentatives. Enregistrez chaque 429 avec la classe de charge de travail et le modèle afin d’identifier les schémas d’appel les plus affectés.

Playbook : Pic d’échec des workflows agent

Déclencheur : Taux d’échec des workflows agent > 1 % pendant 10 minutes.

  1. Distinguer le type d’échec : L’échec provient-il de l’appel LLM (erreur de modèle, limite de débit, dépassement de contexte) ou de la couche d’exécution (timeout sandbox, sortie d’appel d’outil malformée, erreur d’opération fichier) ?
  2. Pour les échecs de couche LLM : Suivez le playbook du taux d’erreur élevé du fournisseur principal ci-dessus.
  3. Pour les échecs sandbox ou d’exécution : Consultez les logs de Novita Agent Sandbox. Identifiez si le problème est systématique (mauvais template de prompt provoquant des appels d’outils malformés) ou environnemental (capacité sandbox, timeout réseau).
  4. Isolez les types de workflow affectés : Un échec d’automatisation de navigateur ne devrait pas déclencher un arrêt des workflows d’exécution de code s’ils sont indépendants.
  5. Porte de récupération : Avant de restaurer tout le trafic, exécutez un ensemble représentatif de prompts d’or via le workflow affecté et confirmez que le taux d’échec revient à la référence.

Playbook : Dégradation du SLO de qualité pendant le basculement

Déclencheur : Le score de qualité chute de plus de 15 % par rapport à la référence sur 7 jours tandis que le modèle de basculement est actif.

  1. Identifier les classes de charge de travail affectées : La dégradation de la qualité est souvent spécifique à la charge de travail. Un modèle de basculement peut bien gérer la classification simple mais se dégrader sur le raisonnement long.
  2. Appliquer des limites de basculement spécifiques à la classe de charge de travail : Restreignez le basculement dégradé aux charges de travail où la baisse de qualité est acceptable. Mettez en file d’attente ou arrêtez les tâches à haut risque.
  3. Notifier les parties prenantes en cas d’impact client.
  4. Post-incident : Mettez à jour la matrice d’approbation de basculement pour refléter les limites de qualité observées pour le modèle de secours.

Gouvernance des politiques de basculement

Les politiques de routage déterminent quels modèles de basculement sont disponibles. La gouvernance détermine quels basculements sont approuvés pour chaque classe de charge de travail — et quand le basculement automatique ne doit pas du tout se produire.

Matrice d’approbation de basculement

Maintenez une matrice d’approbation de basculement documentée par classe de charge de travail :

Classe de charge de travail Modèle principal Basculement approuvé Conditions Basculement interdit
Chat client Modèle A (grand) Modèle B (moyen) Évaluation qualité réussie sur l’ensemble d’or Tout modèle non listé
Copilote interne Modèle A (grand) Modèle B (moyen), Modèle C (petit) Évaluation qualité réussie N/A
Rédaction juridique / conformité Modèle A (grand) File d’attente uniquement Pas de basculement automatique Tout modèle plus petit
Classification par lots Modèle C (petit) Modèle D (autre fournisseur) Évaluation qualité réussie Grands modèles (contrôle des coûts)
Agent navigateur Modèle A (grand) + Sandbox File d’attente L’exécution sandbox doit être confirmée Modèles textuels sans support d’outils

Révisez cette matrice mensuellement et après chaque incident où le comportement de basculement était inattendu ou inadéquat.

Qui est propriétaire des changements de politique de basculement ?

Les changements de politique de basculement devraient nécessiter l’approbation à la fois de l’équipe d’ingénierie (le système peut-il supporter le changement ?) et de l’équipe produit ou risque (le compromis qualité est-il acceptable ?). Un système de routage automatique qui bascule vers un modèle moins cher sans validation humaine du niveau de qualité crée un risque produit silencieux.

Documentez chaque changement : quel modèle, quelle classe de charge de travail, quelle évaluation qualité a été réalisée, qui l’a approuvé, et quelles conditions déclenchent une révision de la politique.

Comment Novita AI prend en charge les opérations de disponibilité multi-fournisseur

Novita AI opère en tant que cloud AI et agent — LLM API, Agent Sandbox, et GPU Cloud — que les équipes peuvent instrumenter pour le type de pratique opérationnelle décrite ici.

Le LLM API renvoie des codes d’état HTTP standard, des en-têtes de latence et des compteurs de tokens pour chaque requête, vous fournissant les signaux bruts pour la surveillance de la santé des fournisseurs et le suivi des SLO. La bibliothèque de modèles liste la disponibilité actuelle des modèles afin que vous puissiez construire des politiques de routage basées sur des modèles réellement pris en charge. L’API de complétion de chat compatible OpenAI signifie que les outils d’observabilité existants (journalisation des requêtes, suivi de latence, tableaux de bord de taux d’erreur) fonctionnent sans instrumentation personnalisée.

Novita Agent Sandbox ajoute un environnement d’exécution géré pour les workflows agentiques. La possibilité d’observer à la fois les résultats des appels LLM et les résultats d’exécution sandbox dans le même log de workflow est directement pertinente pour le playbook d’échec de workflow agent : vous ne pouvez pas distinguer une erreur de modèle d’une erreur d’exécution sandbox sans logs des deux couches.

Novita AI GPU Cloud et les points d’accès dédiés offrent aux équipes une voie opérationnelle lorsque les limites de débit des API partagées deviennent une contrainte de fiabilité. Pour les charges de travail où les 429 sont un déclencheur d’incident récurrent, passer à une capacité dédiée supprime une classe d’incident du modèle opérationnel d’API partagée.

Liste de contrôle de préparation opérationnelle avant la mise en production

Utilisez cette liste de contrôle lorsque vous évaluez si votre service LLM multi-fournisseur est prêt pour les opérations :

Définition des SLO

  • [ ] Cibles SLO définies pour chaque classe de charge de travail de production (disponibilité + qualité)
  • [ ] Budgets d’erreur calculés et documentés
  • [ ] Alertes de taux de combustion configurées pour chaque SLO

Surveillance

  • [ ] Chaque requête LLM journalise : modèle, fournisseur, raison du routage, latence, tokens, nombre de tentatives, statut, résultat d’évaluation qualité
  • [ ] Les tableaux de bord montrent le taux d’erreur, la latence P95, le taux d’activation de basculement, le coût par tâche réussie — ventilés par classe de charge de travail
  • [ ] Signaux de santé des fournisseurs dérivés du trafic observé, pas seulement des pages de statut

Alerting

  • [ ] Alertes tactiques (page) configurées pour les classes de charge de travail de production
  • [ ] Alertes stratégiques (Slack) configurées pour la dérive des coûts et les tendances du taux de basculement
  • [ ] Le routage des alertes associe la classe de charge de travail à l’équipe propriétaire

Playbooks d’incident

  • [ ] Playbooks rédigés et accessibles pour : pic d’erreur du fournisseur principal, épuisement des limites de débit, échec de workflow agent, dégradation du SLO de qualité
  • [ ] Portes de récupération définies pour chaque playbook (ce qui doit être vrai avant de restaurer tout le trafic)
  • [ ] Processus de révision post-incident documenté

Gouvernance des basculements

  • [ ] Matrice d’approbation de basculement existe et est à jour
  • [ ] Conditions de basculement interdit documentées pour les classes de charge de travail à haut risque
  • [ ] Processus de validation des changements de politique défini (ingénierie + produit/risque)
  • [ ] Révision mensuelle planifiée

Échappatoire d’infrastructure

  • [ ] Chemin vers un point d’accès dédié ou GPU Cloud identifié pour les charges de travail où les limites de débit des API partagées sont une contrainte récurrente

FAQ

Quelle est la différence entre la conception du routage multi-fournisseur et les opérations multi-fournisseur ?

La conception du routage décide de la politique : quels modèles sont principaux et de basculement, quand réessayer, et comment gérer des types d’erreur spécifiques. Les opérations sont la pratique continue de vérification que la politique fonctionne : surveillance de la combustion des SLO, exécution des playbooks d’incident lorsqu’elle ne fonctionne pas, et gouvernance des changements de politique. Les deux sont nécessaires pour un service qui respecte de manière fiable ses engagements de disponibilité.

Comment définir un SLO de disponibilité réaliste pour un service LLM multi-fournisseur ?

Commencez par mesurer votre taux d’achèvement réussi actuel et la latence P95 sur une fenêtre de trafic représentative. Fixez votre cible SLO à un niveau que votre politique de routage peut raisonnablement supporter avec le budget d’erreur disponible. Pour un nouveau service, un taux d’achèvement réussi de 99,0 % à 99,5 % est un point de départ raisonnable. Ajustez après avoir observé vos premières fenêtres de budget d’erreur.

À quelle fréquence les matrices d’approbation de basculement doivent-elles être révisées ?

Au minimum mensuellement, et après tout incident où le comportement de basculement était inattendu ou la qualité s’est dégradée pendant le basculement. Les capacités et les prix des modèles changent suffisamment souvent pour qu’une matrice valide au T1 puisse ne pas être valide au T3.

Quand le basculement multi-fournisseur ne doit-il pas être automatique ?

Lorsque la classe de charge de travail a une sensibilité en matière de sécurité, juridique, financière ou de conformité et que le modèle de basculement n’a pas été évalué sur ce type de tâche spécifique. Dans ces cas, la mise en file d’attente ou un état indisponible visible par l’utilisateur est plus sûr qu’une réponse automatique de moindre qualité.

Comment Novita AI s’intègre-t-il dans ce modèle opérationnel ?

Novita AI fournit les couches d’infrastructure — LLM API pour l’inférence, Agent Sandbox pour l’exécution agentique, GPU Cloud pour la capacité dédiée — que vous instrumentez et exploitez en utilisant les pratiques ci-dessus. Il ne remplace pas les définitions de SLO, les configurations de surveillance, les playbooks ou les décisions de gouvernance qui rendent un service fiable. Ceux-ci proviennent de la pratique opérationnelle de votre équipe.

Articles recommandés