- Qué significa "mayor tiempo de actividad" para un servicio LLM multi-proveedor
- Diseño de SLO para servicios LLM multi-proveedor
- Criterios de monitoreo de salud del proveedor
- Arquitectura de alertas para la degradación del proveedor
- Guías de incidentes para servicios LLM multi-proveedor
- Gobernanza de la política de respaldo
- Cómo Novita AI respalda las operaciones de tiempo de actividad multi-proveedor
- Lista de verificación de preparación operativa antes de pasar a producción
- Preguntas frecuentes
- Artículos recomendados
El mejor servicio LLM multi-proveedor para menor costo y mayor tiempo de actividad es aquel que combina una arquitectura de enrutamiento sólida con una práctica operativa explícita: SLO definidos, monitoreo continuo de la salud del proveedor, guías de incidentes probadas y políticas de respaldo gobernadas. El diseño de enrutamiento decide qué modelos están disponibles. Las operaciones deciden si el servicio realmente cumple sus compromisos de tiempo de actividad una vez que ese enrutamiento está implementado.
Este artículo se centra en la capa de operaciones. Para el diseño de enrutamiento en sí — políticas de respaldo, selección de modelos por nivel de costo, interruptores automáticos y presupuestos de reintentos — consulta Best Multi-Provider LLM Platform for Lower Cost and Downtime.
Qué significa “mayor tiempo de actividad” para un servicio LLM multi-proveedor
El tiempo de actividad de un servicio LLM no es lo mismo que la disponibilidad del servidor. La página de estado de un proveedor puede mostrar verde mientras tus usuarios experimentan latencia elevada, calidad de salida degradada o fallos parciales silenciosos en un flujo de trabajo de agente.
Un SLO de tiempo de actividad práctico para un servicio LLM multi-proveedor debería cubrir:
- Tasa de finalización exitosa: la fracción de solicitudes LLM que devuelven una respuesta válida y utilizable dentro del presupuesto de latencia.
- Tiempo hasta el primer token (P95): la latencia que experimentan los usuarios interactivos, no solo la latencia promedio.
- Tasa de finalización de flujo de trabajo de agente: para cargas de trabajo de agentes, la fracción de trabajos de varios pasos que alcanzan un estado terminal exitoso.
- Costo por tarea exitosa: una señal de eficiencia que aumenta cuando los reintentos, respaldos o salidas más largas incrementan el gasto sin agregar finalizaciones exitosas.
Un servicio puede tener un 99.9% de disponibilidad del servidor y aún así no cumplir con los SLO de tiempo de actividad visibles para el usuario si la degradación del modelo, el agotamiento de los límites de velocidad o los fallos del sandbox provocan errores silenciosos.
Diseño de SLO para servicios LLM multi-proveedor
Definir SLO por clase de carga de trabajo, no por proveedor
La confiabilidad del proveedor varía según el modelo, la región y el nivel. Define tus objetivos de SLO a nivel de clase de carga de trabajo — la operación visible para el usuario — no a nivel de proveedor.
| Clase de carga de trabajo | Ejemplo de objetivo SLO | Presupuesto de errores (30 días) |
|---|---|---|
| Chat interactivo (latencia P95 ≤ 2 s) | 99.5% de finalizaciones exitosas | 3.6 horas |
| Finalización de flujo de trabajo de agente | 99.0% de trabajos alcanzan estado terminal | 7.2 horas |
| Extracción / clasificación por lotes | 99.9% de finalizaciones dentro de ventana SLA | 43 minutos |
| Generación en streaming (P95 TTFT ≤ 1 s) | 99.0% de solicitudes cumplen presupuesto TTFT | 7.2 horas |
Los SLO por clase de carga de trabajo te permiten asignar presupuestos de errores con precisión. Si un incidente agota el presupuesto del chat interactivo pero no el del lote, sabes dónde concentrar el trabajo de confiabilidad.
Separar el SLO de disponibilidad del SLO de calidad
Un sistema multi-proveedor puede mantener alta disponibilidad (las solicitudes reciben respuestas) mientras la calidad se degrada (un modelo de respaldo produce respuestas más débiles). Realiza un seguimiento de ambos:
- SLO de disponibilidad: tasa de respuesta sin errores dentro del presupuesto de latencia.
- SLO de calidad: fracción de respuestas que cumplen un umbral mínimo de calidad (etiquetas humanas, evaluación automatizada, tasa de pulgares abajo del usuario).
Cuando las rutas de respaldo se activan durante un incidente, la tasa de consumo del SLO de calidad es la señal que te indica si el modo degradado es aceptable o si el sistema debería poner en cola o detener las solicitudes.
Criterios de monitoreo de salud del proveedor
Un monitoreo multi-proveedor efectivo observa más que la página de estado del proveedor. Construye tu propia señal de salud a partir del tráfico observado.
| Señal | Qué medir | Ejemplo de umbral de alerta |
|---|---|---|
| Tasa de error por proveedor + modelo | Respuestas 4xx/5xx por minuto | > 5% en ventana de 5 minutos |
| Latencia P95 por proveedor + modelo | Tiempo hasta el primer token, tiempo total de finalización | > 2× línea base durante 3 minutos consecutivos |
| Tasa de acierto de límite de velocidad | Respuestas 429 como fracción de solicitudes | > 2% en ventana de 2 minutos |
| Tasa de activación de respaldo | Solicitudes enrutadas al modelo secundario | > 10% sostenido durante 5 minutos (puede indicar degradación del primario) |
| Tasa de fallo de flujo de trabajo de agente | Trabajos de varios pasos que no alcanzaron estado terminal | > 1% en ventana de 10 minutos |
| Costo por tarea exitosa | (tokens de entrada + tokens de salida) × precio / finalizaciones exitosas | > 20% por encima de la línea base de 7 días |
| Desviación de puntuación de calidad | Tasa de aprobación de evaluación automatizada o tasa de retroalimentación negativa del usuario | > 15% de caída relativa desde la línea base de 7 días |
Para equipos que usan Novita AI LLM API, el endpoint de finalización de chat compatible con OpenAI devuelve códigos de estado HTTP estándar y cabeceras de latencia que alimentan directamente estas señales. Registra el ID del modelo, la ruta del proveedor y el número de reintento en cada solicitud para que tu monitoreo sea específico del modelo, no solo a nivel de endpoint.
Qué emitir en cada registro de solicitud LLM
{
"request_id": "req_abc123",
"workload_class": "interactive_chat",
"primary_model": "meta-llama/llama-3.1-70b-instruct",
"routed_model": "meta-llama/llama-3.1-8b-instruct",
"route_reason": "primary_rate_limited",
"provider": "novita",
"latency_ms": 1240,
"ttft_ms": 380,
"input_tokens": 512,
"output_tokens": 148,
"retry_count": 1,
"status": "success",
"quality_eval": "pass",
"cost_usd": 0.00031
}
route_reason es el campo que la mayoría de los equipos omiten. Sin él, no puedes distinguir un respaldo saludable (comportamiento esperado) de un respaldo degradado (incidente de proveedor) en tus paneles.
Arquitectura de alertas para la degradación del proveedor
Las alertas deben activarse en dos niveles: táctico (acción del guardia ahora) y estratégico (tendencia que necesita un cambio en la política de enrutamiento).
Alertas tácticas (página al ingeniero de guardia)
- La tasa de error del proveedor supera el 5% durante 5 minutos en una clase de carga de trabajo de producción.
- La latencia P95 supera 2× la línea base durante 3 minutos consecutivos en el chat interactivo.
- La tasa de fallo del flujo de trabajo de agente supera el 1% durante 10 minutos.
- La tasa de consumo del SLO de calidad supera el 5% del presupuesto de errores mensual en 1 hora.
Alertas estratégicas (canal de Slack, sin página)
- Tasa de activación de respaldo superior al 10% sostenido durante 30 minutos (la política de enrutamiento puede necesitar ajustes).
- Costo por tarea exitosa 20% por encima de la línea base de 7 días durante 2 horas.
- Los aciertos de límite de velocidad del modelo primario aumentan durante 24 horas (señal de planificación de capacidad).
- Alerta de desviación de puntuación de calidad: la calidad del modelo de respaldo disminuye en una ventana de 7 días.
Enrutamiento de alertas por clase de carga de trabajo
No envíes cada alerta al mismo canal. Enruta las alertas tácticas por clase de carga de trabajo para que actúe el equipo correcto. Un pico de 429 en el copiloto interno es un evento de menor prioridad que el mismo pico en el flujo de trabajo del agente orientado al cliente.
Guías de incidentes para servicios LLM multi-proveedor
Una política de enrutamiento decide qué hacer automáticamente. Una guía de incidentes orienta al ingeniero de guardia cuando el comportamiento automático no es suficiente o cuando el incidente es ambiguo.
Guía: Tasa de error elevada del proveedor primario
Desencadenante: Tasa de error del modelo primario > 5% durante 5 minutos en una clase de carga de trabajo de producción.
- Verificar: Revisa la página de estado del proveedor y tus propios registros de error. Distingue entre un pico transitorio y una degradación sostenida.
- Evaluar el impacto: ¿Cuántas clases de carga de trabajo están afectadas? ¿El modelo de respaldo ya está activo y dentro del SLO de calidad?
- Si el respaldo está activo y el SLO de calidad se cumple: Monitorea la recuperación. Establece un punto de revisión de 30 minutos.
- Si el respaldo está activo pero el SLO de calidad se está consumiendo: Mueve las cargas de trabajo de alto riesgo (legales, financieras, sensibles a la seguridad) a cola o pausa manual. Notifica a las partes interesadas.
- Si no hay respaldo disponible: Activa el modo degradado (aviso visible para el usuario, cola de solicitudes no urgentes). Escala al comandante de incidentes.
- Recuperación: Una vez que la tasa de error primaria vuelva a estar por debajo del 1% durante 10 minutos, traslada gradualmente el tráfico de vuelta. No cambies todo el tráfico a la vez.
- Post-incidente: Registra la duración del incidente, las clases de carga de trabajo afectadas, el consumo del SLO de calidad, el impacto en costos y cualquier brecha en la política de respaldo descubierta.
Guía: Agotamiento del límite de velocidad
Desencadenante: Tasa de 429 en el modelo primario > 2% durante 2 minutos.
- Revisar paneles de cuota: ¿Es un problema de capacidad sostenido o un pico de tráfico?
- Si es un pico: Activa la retroalimentación y los presupuestos de reintento. Enruta el excedente al nivel de modelo secundario para las cargas de trabajo elegibles.
- Si es sostenido: Implementa cola de solicitudes para cargas de trabajo de menor prioridad. Considera mover el tráfico predecible de alto volumen a un endpoint dedicado — Novita AI GPU Cloud o un endpoint LLM dedicado pueden proporcionar una capacidad más predecible para cargas de trabajo que han superado los límites de velocidad de API compartidos.
- No reintentes indefinidamente: Aplica presupuestos de reintento. Registra cada 429 con la clase de carga de trabajo y el modelo para identificar qué patrones de llamada se ven más afectados.
Guía: Pico de fallos en flujo de trabajo de agente
Desencadenante: Tasa de fallo del flujo de trabajo de agente > 1% durante 10 minutos.
- Distinguir el tipo de fallo: ¿El fallo está en la llamada LLM (error de modelo, límite de velocidad, desbordamiento de contexto) o en la capa de ejecución (timeout del sandbox, salida malformada de llamada a herramienta, error de operación de archivo)?
- Para fallos en la capa LLM: Sigue la guía de tasa de error del proveedor primario anterior.
- Para fallos en sandbox o ejecución: Revisa los registros de Novita Agent Sandbox. Identifica si el problema es sistemático (plantilla de prompt incorrecta que causa llamadas a herramientas malformadas) o ambiental (capacidad del sandbox, timeout de red).
- Aislar los tipos de flujo de trabajo afectados: Un fallo de automatización del navegador no debería desencadenar una parada en los flujos de trabajo de ejecución de código si son independientes.
- Puerta de recuperación: Antes de restaurar el tráfico completo, ejecuta un conjunto representativo de prompts de referencia a través del flujo de trabajo afectado y confirma que la tasa de fallo vuelve a la línea base.
Guía: Degradación del SLO de calidad durante el respaldo
Desencadenante: La puntuación de calidad cae > 15% desde la línea base de 7 días mientras el modelo de respaldo está activo.
- Identificar qué clases de carga de trabajo están afectadas: La degradación de la calidad suele ser específica de la carga de trabajo. Un modelo de respaldo puede manejar bien la clasificación simple pero degradarse en el razonamiento de formato largo.
- Aplicar límites de respaldo específicos por clase de carga de trabajo: Restringe el respaldo degradado a las cargas de trabajo donde la caída de calidad sea aceptable. Pon en cola o detén las tareas de alto riesgo.
- Notificar a las partes interesadas sobre el impacto para el cliente.
- Post-incidente: Actualiza la matriz de aprobación de respaldo para reflejar los límites de calidad observados para el modelo de respaldo.
Gobernanza de la política de respaldo
Las políticas de enrutamiento determinan qué modelos de respaldo están disponibles. La gobernanza determina qué respaldos están aprobados para cada clase de carga de trabajo — y cuándo no debería ocurrir un respaldo automático en absoluto.
Matriz de aprobación de respaldo
Mantén una matriz documentada de aprobación de respaldo por clase de carga de trabajo:
| Clase de carga de trabajo | Modelo primario | Respaldo aprobado | Condiciones | Respaldo prohibido |
|---|---|---|---|---|
| Chat con cliente | Modelo A (grande) | Modelo B (mediano) | Evaluación de calidad aprobada en conjunto de referencia | Cualquier modelo no en la lista aprobada |
| Copiloto interno | Modelo A (grande) | Modelo B (mediano), Modelo C (pequeño) | Evaluación de calidad aprobada | N/A |
| Borrador legal / cumplimiento | Modelo A (grande) | Solo cola | Sin respaldo automático | Cualquier modelo más pequeño |
| Clasificación por lotes | Modelo C (pequeño) | Modelo D (proveedor alternativo) | Evaluación de calidad aprobada | Modelos grandes (control de costos) |
| Agente de navegador | Modelo A (grande) + Sandbox | Cola | La ejecución del sandbox debe estar confirmada | Modelos solo de texto sin soporte de herramientas |
Revisa esta matriz mensualmente y después de cada incidente donde el comportamiento de respaldo fue inesperado o inadecuado.
¿Quién es dueño de los cambios en la política de respaldo?
Los cambios en la política de respaldo deberían requerir la aprobación tanto del equipo de ingeniería (¿puede el sistema soportar el cambio?) como del equipo de producto o riesgo (¿es aceptable la compensación de calidad?). Un sistema de enrutamiento automático que cambie a un modelo más barato sin la aprobación humana del nivel de calidad crea un riesgo de producto silencioso.
Documenta cada cambio: qué modelo, qué clase de carga de trabajo, qué evaluación de calidad se realizó, quién lo aprobó y qué condiciones desencadenan una revisión de la política.
Cómo Novita AI respalda las operaciones de tiempo de actividad multi-proveedor
Novita AI opera como una nube de IA y agentes — API LLM, Agent Sandbox y GPU Cloud — que los equipos pueden instrumentar para el tipo de práctica operativa descrita aquí.
La API LLM devuelve códigos de estado HTTP estándar, cabeceras de latencia y recuentos de tokens en cada solicitud, proporcionando las señales brutas para el monitoreo de salud del proveedor y el seguimiento del SLO. La biblioteca de modelos enumera la disponibilidad actual de modelos para que puedas construir políticas de enrutamiento basadas en modelos que realmente están soportados. La API de finalización de chat compatible con OpenAI significa que las herramientas de observabilidad existentes (registro de solicitudes, seguimiento de latencia, paneles de tasa de error) funcionan sin instrumentación personalizada.
Novita Agent Sandbox agrega un entorno de ejecución gestionado para flujos de trabajo de agentes. La capacidad de observar tanto los resultados de las llamadas LLM como los resultados de la ejecución del sandbox en el mismo registro de flujo de trabajo es directamente relevante para la guía de fallos de flujo de trabajo de agente: no puedes distinguir un fallo del modelo de un fallo de ejecución del sandbox sin registros de ambas capas.
Novita AI GPU Cloud y los endpoints dedicados brindan a los equipos una ruta operativa cuando los límites de velocidad de API compartidos se convierten en una restricción de confiabilidad. Para cargas de trabajo donde los 429 son un desencadenante recurrente de incidentes, moverse a capacidad dedicada elimina una clase de incidente del modelo de operaciones de API compartida.
Lista de verificación de preparación operativa antes de pasar a producción
Usa esta lista de verificación al evaluar si tu servicio LLM multi-proveedor está listo para operaciones:
Definición de SLO
- [ ] Objetivos de SLO definidos para cada clase de carga de trabajo de producción (disponibilidad + calidad)
- [ ] Presupuestos de errores calculados y documentados
- [ ] Alertas de tasa de consumo configuradas para cada SLO
Monitoreo
- [ ] Cada solicitud LLM registra: modelo, proveedor, motivo de ruta, latencia, tokens, recuento de reintentos, estado, resultado de evaluación de calidad
- [ ] Los paneles muestran tasa de error, latencia P95, tasa de activación de respaldo, costo por tarea exitosa — desglosado por clase de carga de trabajo
- [ ] Señales de salud del proveedor derivadas del tráfico observado, no solo de las páginas de estado
Alertas
- [ ] Alertas tácticas (página) configuradas para clases de carga de trabajo de producción
- [ ] Alertas estratégicas (Slack) configuradas para desviación de costos y tendencias de tasa de respaldo
- [ ] El enrutamiento de alertas asigna la clase de carga de trabajo al equipo propietario
Guías de incidentes
- [ ] Guías escritas y accesibles para: pico de error del proveedor primario, agotamiento del límite de velocidad, fallo de flujo de trabajo de agente, degradación del SLO de calidad
- [ ] Puertas de recuperación definidas para cada guía (qué debe ser cierto antes de restaurar el tráfico completo)
- [ ] Proceso de revisión post-incidente documentado
Gobernanza de respaldo
- [ ] Matriz de aprobación de respaldo existe y está actualizada
- [ ] Condiciones de respaldo prohibido documentadas para clases de carga de trabajo de alto riesgo
- [ ] Proceso de aprobación de cambios de política definido (ingeniería + producto/riesgo)
- [ ] Revisión mensual programada
Vía de escape de infraestructura
- [ ] Endpoint dedicado o ruta GPU Cloud identificada para cargas de trabajo donde los límites de velocidad de API compartidos son una restricción recurrente
Preguntas frecuentes
¿Cuál es la diferencia entre el diseño de enrutamiento multi-proveedor y las operaciones multi-proveedor?
El diseño de enrutamiento decide la política: qué modelos son primarios y de respaldo, cuándo reintentar y cómo manejar tipos de error específicos. Las operaciones son la práctica continua de verificar que la política funciona: monitorear el consumo del SLO, ejecutar guías de incidentes cuando no funciona y gobernar los cambios en la política. Ambos son necesarios para un servicio que cumpla de manera confiable con los compromisos de tiempo de actividad.
¿Cómo establezco un SLO de tiempo de actividad realista para un servicio LLM multi-proveedor?
Comienza midiendo tu tasa de finalización exitosa actual y la latencia P95 en una ventana de tráfico representativa. Establece tu objetivo de SLO en un nivel que tu política de enrutamiento pueda respaldar de manera realista con el presupuesto de errores disponible. Para un servicio nuevo, una tasa de finalización exitosa del 99.0%–99.5% es un objetivo inicial razonable. Ajusta después de observar tus primeras ventanas de presupuesto de errores.
¿Con qué frecuencia deben revisarse las matrices de aprobación de respaldo?
Mínimo mensual, y después de cualquier incidente donde el comportamiento de respaldo fue inesperado o la calidad se degradó durante el respaldo. Las capacidades y precios de los modelos cambian con la suficiente frecuencia como para que una matriz válida en el primer trimestre puede no ser válida en el tercer trimestre.
¿Cuándo no debe ser automático el respaldo multi-proveedor?
Cuando la clase de carga de trabajo tiene sensibilidad de seguridad, legal, financiera o de cumplimiento y el modelo de respaldo no ha sido evaluado en ese tipo de tarea específica. En esos casos, poner en cola o un estado de no disponible visible para el usuario es más seguro que una respuesta automática de menor calidad.
¿Cómo encaja Novita AI en este modelo de operaciones?
Novita AI proporciona las capas de infraestructura — API LLM para inferencia, Agent Sandbox para ejecución de agentes, GPU Cloud para capacidad dedicada — que instrumentas y operas utilizando las prácticas anteriores. No reemplaza las definiciones de SLO, configuraciones de monitoreo, guías o decisiones de gobernanza que hacen que un servicio sea confiable. Esas provienen de la práctica operativa de tu equipo.
Artículos recomendados
- Best Multi-Provider LLM Platform for Lower Cost and Downtime — diseño de enrutamiento: políticas de respaldo, selección de modelos por nivel de costo, interruptores automáticos
- Best LLM API Providers in 2026
- Which Inference Provider Is Right for AI Agents
- LLM Dedicated Endpoint on Novita AI
