最佳多提供商 LLM 服务:更低成本与更高正常运行时间?

最佳多提供商 LLM 服务:更低成本与更高正常运行时间?

最佳多提供商 LLM 服务结合了健全的路由架构与明确的运维实践:定义好的 SLO、持续的提供商健康监控、经过测试的事件处理手册以及受管理的回退策略。路由设计决定哪些模型可用。运维则决定在路由就位后,服务是否真正满足其正常运行时间承诺。

本文聚焦于运维层。关于路由设计本身——回退策略、成本层级模型选择、熔断器和重试预算——请参阅最佳多提供商 LLM 平台:更低成本与更少停机时间

“更高正常运行时间”对于多提供商 LLM 服务的含义

LLM 服务的正常运行时间与服务器可用性不同。提供商的状态页面可能显示绿色,而您的用户却经历着高延迟、输出质量下降或 Agent 工作流中的静默部分失败。

实用的多提供商 LLM 服务正常运行时间 SLO 应涵盖:

  • 成功完成率:在延迟预算内返回有效可用响应的 LLM 请求比例
  • 首字节时间 (P95):交互式用户经历的延迟,而不仅仅是平均延迟
  • Agent 工作流完成率:对于智能体工作负载,达到成功终止状态的多步骤工作比例
  • 每成功任务成本:当重试、回退或更长输出增加开销而未增加成功完成量时上升的效率信号

如果模型退化、速率限制耗尽或沙箱故障导致静默错误,服务可能拥有 99.9% 的服务器可用性,但仍无法满足用户可见的正常运行时间 SLO。

多提供商 LLM 服务的 SLO 设计

按工作负载类别定义 SLO,而非按提供商

提供商可靠性因模型、区域和层级而异。在工作负载类别级别(面向用户的操作)定义 SLO 目标,而非提供商级别。

工作负载类别 示例 SLO 目标 错误预算 (30 天)
交互式聊天 (P95 延迟 ≤ 2 秒) 99.5% 成功完成率 3.6 小时
Agent 工作流完成 99.0% 任务达到终止状态 7.2 小时
批量提取/分类 99.9% 在 SLA 窗口内完成 43 分钟
流式生成 (P95 TTFT ≤ 1 秒) 99.0% 请求满足 TTFT 预算 7.2 小时

工作负载类别 SLO 让您能够准确分配错误预算。如果某事件消耗了交互式聊天的预算而未消耗批量预算,您就知道应将可靠性工作聚焦于何处。

区分可用性 SLO 与质量 SLO

多提供商系统可能在维持高可用性(请求收到响应)的同时质量下降(回退模型产生较弱的答案)。跟踪两者:

  • 可用性 SLO:延迟预算内的无错误响应率
  • 质量 SLO:达到最低质量阈值(人工标注、自动评估、用户踩率)的响应比例

当事件期间回退路由激活时,质量 SLO 燃烧率是告诉您降级模式是否可接受,或者系统是否应排队或停止的信号。

提供商健康监控标准

有效的多提供商监控不仅观察提供商状态页面。从观察到的流量中构建您自己的健康信号。

信号 测量内容 告警阈值示例
按提供商+模型的错误率 每分钟 4xx/5xx 响应 > 5% 在 5 分钟窗口内
按提供商+模型的 P95 延迟 首字节时间、总完成时间 > 2 倍基线连续 3 分钟
速率限制命中率 429 响应占请求比例 > 2% 在 2 分钟窗口内
回退激活率 路由到备用模型的请求 > 10% 持续 5 分钟(可能表示主模型降级)
Agent 工作流失败率 未达到终止状态的多步骤任务 > 1% 在 10 分钟窗口内
每成功任务成本 (输入 tokens + 输出 tokens) × 价格 / 成功完成数 > 20% 高于 7 天基线
质量分数漂移 自动评估通过率或用户负面反馈率 > 15% 相对下降相对于 7 天基线

对于使用 Novita AI LLM API 的团队,兼容 OpenAI 的聊天补全端点 返回标准 HTTP 状态码和延迟标头,可直接输入到这些信号中。在每次请求中记录模型 ID、提供商路径和重试次数,以便您的监控是针对具体模型的,而不仅仅是端点级别。

每次 LLM 请求日志中应包含的内容

{
  "request_id": "req_abc123",
  "workload_class": "interactive_chat",
  "primary_model": "meta-llama/llama-3.1-70b-instruct",
  "routed_model": "meta-llama/llama-3.1-8b-instruct",
  "route_reason": "primary_rate_limited",
  "provider": "novita",
  "latency_ms": 1240,
  "ttft_ms": 380,
  "input_tokens": 512,
  "output_tokens": 148,
  "retry_count": 1,
  "status": "success",
  "quality_eval": "pass",
  "cost_usd": 0.00031
}

route_reason 是大多数团队忽略的字段。没有它,您无法在仪表盘中区分健康的回退(预期行为)与降级的回退(提供商事件)。

针对提供商降级的告警架构

告警应在两个级别触发:战术级(立即通知值班工程师)和战略级(需要更改路由策略的趋势)。

战术告警(分页值班工程师)

  • 在生产工作负载类别上提供商错误率超过 5% 持续 5 分钟
  • 交互式聊天中 P95 延迟超过 2 倍基线连续 3 分钟
  • Agent 工作流失败率超过 1% 持续 10 分钟
  • 质量 SLO 燃烧率在 1 小时内超过月度错误预算的 5%

战略告警(Slack 频道,不分页)

  • 回退激活率高于 10% 持续 30 分钟(可能需要调整路由策略)
  • 每成功任务成本高于 7 天基线 20% 持续 2 小时
  • 主模型速率限制命中率在 24 小时内呈上升趋势(容量规划信号)
  • 质量分数漂移告警:备用模型质量在 7 天窗口内下降

按工作负载类别路由告警

不要将所有告警发送到同一渠道。按工作负载类别路由战术告警,以便正确的团队行动。内部助手上的 429 激增是优先级较低的事件,而客户面向 Agent 工作流上的相同激增则是较高优先级。

多提供商 LLM 服务的事件处理手册

路由策略决定自动执行的操作。事件处理手册在自动行为不足或事件不明确时指导值班工程师。

处理手册:主提供商错误率升高

触发条件:生产工作负载类别上主模型错误率 > 5% 持续 5 分钟。

  1. 验证:检查提供商状态页面和您自己的错误日志。区分瞬时尖峰与持续降级。
  2. 评估影响:有多少工作负载类别受到影响?回退模型是否已激活且处于质量 SLO 范围内?
  3. 如果回退已激活且质量 SLO 达标:监控恢复情况。设置 30 分钟审查检查点。
  4. 如果回退已激活但质量 SLO 正在燃烧:将高风险工作负载(法律、财务、安全敏感)移至队列或手动冻结。通知利益相关者。
  5. 如果无回退可用:激活降级模式(用户可见通知,对非紧急请求进行排队)。上报给事件指挥官。
  6. 恢复:一旦主模型错误率恢复到低于 1% 并持续 10 分钟,逐步将流量切回。不要一次性切换所有流量。
  7. 事后:记录事件持续时间、受影响的工负载类别、质量 SLO 燃烧、成本影响以及发现的任何回退策略缺口。

处理手册:速率限制耗尽

触发条件:主模型 429 频率 > 2% 持续 2 分钟。

  1. 检查配额仪表盘:这是持续容量问题还是流量尖峰?
  2. 如果是尖峰:激活退避和重试预算。将溢出流量路由到符合条件的备用模型层级。
  3. 如果是持续问题:对低优先级工作负载实施请求排队。考虑将可预测的高流量移至专用端点——Novita AI GPU Cloud 或专用 LLM 端点可为已超过共享 API 速率限制的工作负载提供更可预测的容量。
  4. 不要无限重试:强制执行重试预算。记录每个 429 及其工作负载类别和模型,以便您识别哪些调用模式受影响最大。

处理手册:Agent 工作流失败尖峰

触发条件:Agent 工作流失败率 > 1% 持续 10 分钟。

  1. 区分失败类型:失败是发生在 LLM 调用层(模型错误、速率限制、上下文溢出)还是执行层(沙箱超时、工具调用格式错误、文件操作错误)?
  2. 对于 LLM 层失败:遵循上方的主提供商错误率处理手册。
  3. 对于沙箱或执行失败:检查 Novita Agent Sandbox 日志。确定问题是系统性的(不良提示模板导致格式错误的工具调用)还是环境性的(沙箱容量、网络超时)。
  4. 隔离受影响的工作流类型:浏览器自动化故障不应触发代码执行工作流的停止,如果它们相互独立的话。
  5. 恢复门控:在恢复全部流量之前,通过受影响的工作流运行一组代表性的黄金提示,并确认失败率恢复到基线。

处理手册:回退期间质量 SLO 降级

触发条件:质量分数从 7 天基线下降 > 15%,同时回退模型处于激活状态。

  1. 确定哪些工作负载类别受到影响:质量降级通常针对特定工作负载。回退模型可能能很好地处理简单分类,但在长篇幅推理上会降级。
  2. 应用工作负载类别特定的回退限制:将降级的回退仅限于质量下降可接受的工作负载。对高风险任务进行排队或停止。
  3. 通知利益相关者客户面影响。
  4. 事后:更新回退批准矩阵,以反映观察到的备用模型质量限制。

回退策略治理

路由策略决定哪些回退模型可用。治理则决定哪些回退模型被 批准 用于每个工作负载类别——以及何时根本不应发生自动回退。

回退批准矩阵

按工作负载类别维护一份文档化的回退批准矩阵:

工作负载类别 主模型 批准的回退 条件 禁止的回退
客户聊天 模型 A(大型) 模型 B(中型) 质量评估通过黄金集 不在批准列表中的任何模型
内部助手 模型 A(大型) 模型 B(中型)、模型 C(小型) 质量评估通过 不适用
法律/合规草稿 模型 A(大型) 仅队列 无自动回退 任何较小模型
批量分类 模型 C(小型) 模型 D(备选提供商) 质量评估通过 大型模型(成本控制)
浏览器 Agent 模型 A(大型)+ 沙箱 队列 必须确认沙箱执行 不支持工具的纯文本模型

每月审查此矩阵,并在每次回退行为意外或不充分的事件后审查。

谁负责回退策略更改?

回退策略更改应获得工程团队(系统能否支持该更改?)和产品/风险团队(质量权衡是否可接受?)的签字批准。自动路由系统在未对质量标准进行人工签字的情况下切换到更便宜的模型,会带来静默产品风险。

记录每次更改:哪个模型、哪个工作负载类别、进行了什么质量评估、谁批准了、以及什么条件会触发策略审查。

Novita AI 如何支持多提供商正常运行时间运维

Novita AI 作为 AI 和 Agent 云提供 —— LLM API、Agent Sandbox 和 GPU Cloud —— 团队可将其用于此处描述的运维实践。

LLM API 在每次请求中返回标准 HTTP 状态码、延迟标头和 token 计数,为您提供提供商健康监控和 SLO 跟踪的原始信号。模型库 列出当前模型可用性,以便您针对实际支持的模型构建路由策略。兼容 OpenAI 的聊天补全 API 意味着现有的可观测性工具(请求日志记录、延迟跟踪、错误率仪表盘)无需自定义检测即可工作。

Novita Agent Sandbox 为 Agent 工作流增加了托管执行环境。在同一工作流日志中同时观察 LLM 调用结果和沙箱执行结果的能力与 Agent 工作流失败处理手册直接相关:没有来自两个层的日志,您无法区分模型故障与沙箱执行故障。

Novita AI GPU Cloud 和专用端点为团队提供了一条运维路径,当共享 API 速率限制成为可靠性约束时。对于 429 是重复事件触发条件的工作负载,迁移到专用容量可以从共享 API 运维模型中移除一类事件。

上线前的运维就绪检查清单

在评估您的多提供商 LLM 服务是否运维就绪时,使用此检查清单:

SLO 定义

  • [ ] 为每个生产工作负载类别定义 SLO 目标(可用性 + 质量)
  • [ ] 计算并记录错误预算
  • [ ] 为每个 SLO 配置燃烧率告警

监控

  • [ ] 每次 LLM 请求记录:模型、提供商、路由原因、延迟、token、重试次数、状态、质量评估结果
  • [ ] 仪表盘显示错误率、P95 延迟、回退激活率、每成功任务成本——按工作负载类别分解
  • [ ] 提供商健康信号源自观察到的流量,而不仅是状态页面

告警

  • [ ] 为生产工作负载类别配置战术告警(分页)
  • [ ] 为成本漂移和回退率趋势配置战略告警(Slack)
  • [ ] 告警路由将工作负载类别映射到所属团队

事件处理手册

  • [ ] 编写并可供访问的手册:主提供商错误尖峰、速率限制耗尽、Agent 工作流失败、质量 SLO 降级
  • [ ] 为每个手册定义恢复门控(在恢复全部流量之前必须满足的条件)
  • [ ] 记录事后审查流程

回退治理

  • [ ] 存在回退批准矩阵且为最新
  • [ ] 为高风险工作负载类别记录禁止的回退条件
  • [ ] 定义策略更改签字流程(工程 + 产品/风险)
  • [ ] 安排每月审查

基础设施逃生通道

  • [ ] 确定为共享 API 速率限制是重复约束的工作负载标识的专用端点或 GPU Cloud 路径

常见问题

多提供商路由设计与多提供商运维有何区别?

路由设计决定策略:哪些模型是主模型和回退模型、何时重试以及如何处理特定错误类型。运维是验证策略是否有效的持续实践:监控 SLO 燃烧、在策略失效时运行事件手册,以及管理策略更改。两者对于可靠满足正常运行时间承诺的服务都是必需的。

如何为多提供商 LLM 服务设置现实的正常运行时间 SLO?

首先测量当前在代表性流量窗口内的成功完成率和 P95 延迟。将 SLO 目标设置在您的路由策略在可用错误预算下能够实际支持的水平。对于新服务,99.0%–99.5% 的成功完成率是合理的起始目标。在观察了前几个错误预算窗口后进行调整。

回退批准矩阵应多久审查一次?

至少每月一次,并在任何回退行为意外或回退期间质量下降的事件之后。模型能力和定价变化频繁,以至于第一季度有效的矩阵可能在第三季度不再有效。

何时不应自动进行多提供商回退?

当工作负载类别具有安全、法律、财务或合规敏感性,且回退模型未在该特定任务类型上进行评估时。在这些情况下,排队或用户可见的不可用状态比低质量的自动响应更安全。

Novita AI 如何融入此运维模型?

Novita AI 提供基础设施层——用于推理的 LLM API、用于 Agent 执行的 Agent Sandbox、用于专用容量的 GPU Cloud——您可以使用上述实践对其进行检测和运维。它不会取代使服务可靠的 SLO 定义、监控配置、手册或治理决策。这些来自您团队的运维实践。

推荐文章