大语言模型正在改变技术,驱动着虚拟助手、聊天机器人和自动化内容生成。但你的模型是否发挥出了最佳性能?
答案就在于 LLM 指标——这些关键指标反映了性能、响应能力、可扩展性和可观测性。在本指南中,我们将探讨核心指标,并展示如何优化系统以实现最高效率,同时增强其可观测性。
什么是 LLM 指标?
AI 性能的基本要素
LLM 指标是量化评估大语言模型性能的度量标准。它们提供了系统吞吐量、可靠性和响应能力的洞察,帮助开发者保持高性能和用户满意度。
为什么 LLM 指标至关重要?
- 实时监控性能:指标能揭示低效和瓶颈。
- 无缝扩展:确保模型能够应对增长的需求而不崩溃。
- 优化成本:利用指标有效分配资源,降低开支。
- 提升用户体验:提高可靠性和响应能力,增强满意度。
跟踪 LLM 成功的关键指标
接下来,我们将探讨监控和优化 LLM 的核心指标,并附上可操作的建议。
1. 每分钟请求数 (RPM):衡量系统吞吐量
什么是每分钟请求数?
每分钟请求数跟踪一分钟内处理的推理请求数量,准确反映系统吞吐量。
公式:
RPM = 总请求数 ÷ 时间(分钟)
示例:
如果系统在一分钟内处理 500 个请求,则 RPM 为 500。
为什么重要:
- 高 RPM 表明系统能处理更多请求,支持更好的可扩展性。
- 有助于识别高峰需求时段,规划基础设施升级。
专业建议:
- 监控 RPM 趋势以预测使用高峰。
- 横向扩展(增加服务器)或纵向扩展(增强现有服务器性能)以维持性能。
2. 请求成功率 (RSR):确保可靠性
什么是请求成功率?
请求成功率显示返回有效响应的请求百分比,反映系统可靠性。
公式:
请求成功率 (%) = (成功请求数 ÷ 总请求数) × 100
示例:
如果 1000 个请求中有 900 个成功,则请求成功率为 90%。
为什么重要:
- 指示系统的可靠性程度。
- 低请求成功率可能指向资源限制、错误或网络问题。
专业建议:
- 定期监控并调查请求成功率的下降。
- 优化流水线,解决基础设施问题以提高可靠性。
3. 每请求平均令牌数 (ATPR):理解复杂性
什么是每请求平均令牌数?
每请求平均令牌数跟踪每个请求中模型处理的平均令牌数量(输入 + 输出)。
公式:
每请求平均令牌数 = 总处理令牌数 ÷ 总请求数
示例:
如果系统在 10 个请求中处理了 300 个令牌,则每请求平均令牌数为 30。
为什么重要:
- 反映请求的复杂性。
- 更高的令牌数需要更多资源,增加处理成本。
专业建议:
- 分析令牌分布以优化批处理策略。
- 管理高令牌请求,避免不必要的成本。
4. 端到端延迟 (e2e_latency):跟踪总响应时间
什么是端到端延迟?
端到端延迟衡量从接收请求到传递完整响应的总时长。
公式:
e2e_latency = 完整响应时间 − 请求时间
示例:
如果请求在 0 毫秒到达,响应在 200 毫秒传递,则 e2e_latency 为 200 毫秒。
为什么重要:
- 对实时应用(如聊天机器人或虚拟助手)至关重要。
- 高 e2e_latency 会使用户受挫,降低满意度。
专业建议:
- 将 e2e_latency 拆解为组成部分(如推理时间、网络延迟)以定位问题。
- 使用缓存并优化推理流水线以缩短响应时间。
5. 首令牌时间 (TTFT):提升初始响应速度
什么是首令牌时间?
首令牌时间衡量模型生成第一个响应令牌的速度。
公式:
TTFT = 首令牌生成时间 − 请求时间
示例:
如果请求后 150 毫秒生成第一个令牌,则 TTFT 为 150 毫秒。
为什么重要:
- 对实时用户交互至关重要。
- 快速的 TTFT 能提升系统的感知响应速度。
专业建议:
- 预加载或预热模型以减少延迟。
- 将 TTFT 与 e2e_latency 结合监控,全面了解响应能力。
6. 每输出令牌时间 (TPOT):优化令牌生成
什么是每输出令牌时间?
每输出令牌时间衡量生成第一个令牌后,生成每个令牌的平均时间。
公式:
TPOT = 生成第一个令牌后的总时间 ÷ 第一个令牌后生成的令牌数
示例:
如果生成 10 个令牌需要 100 毫秒,则 TPOT 为每个令牌 10 毫秒。
为什么重要:
- 反映令牌生成效率,尤其对于文本密集型输出。
- 高 TPOT 可能导致大输出时响应变慢。
专业建议:
- 使用并行化或微调模型以提高令牌生成速度。
- 将 TPOT 与其他延迟指标结合监控,优化用户体验。
分步指南:如何观测 LLM 指标
1. 定义关键指标
首先确定你的 LLM 应用最相关的指标。考虑用户体验、系统性能和可扩展性等因素。例如:
- 实时应用: 优先考虑端到端延迟和首令牌时间。
- 高吞吐系统: 关注吞吐量(每分钟请求数)和可靠性(请求成功率)。
- 成本管理: 监控令牌使用情况(每请求平均令牌数和每输出令牌时间)。
2. 通过压力测试检验系统极限
- 模拟高需求场景,评估系统在压力下的表现。
- 识别瓶颈,并根据需要制定扩展计划。
3. 分析模型性能
- 将延迟拆解为组成部分(如推理时间、网络延迟),发现低效环节。
- 跟踪令牌生成时间,分析处理速度并优化工作流。
4. 为关键指标设置告警
- 为关键指标(如每分钟请求数和端到端延迟)设定阈值。
- 自动化通知,快速发现并解决性能问题。
5. 迭代与优化
- 持续审查性能数据,识别趋势。
- 优化基础设施、流水线和模型架构以提升性能。
实时监控:在 Novita AI 上观测 LLM 指标

Novita AI 通过专用的 指标控制台 简化了指标跟踪,为你的 LLM 部署提供实时洞察。
| **指标 ** | ** 在 Novita AI 上监控的内容** |
|---|---|
| 每分钟请求数 | 跟踪吞吐量,确保系统能高效应对流量高峰。 |
| 请求成功率 | 观察趋势,识别并排查可靠性问题。 |
| 每请求平均令牌数 | 分析令牌使用情况,有效管理成本。 |
| 端到端延迟 | 监控延迟,确保流畅的用户体验。 |
| 首令牌时间 | 衡量初始响应速度,改善实时应用。仅当启用 stream=true 参数时,才会对流式请求跟踪此指标。 |
| 每输出令牌时间 | 优化较长响应的令牌生成速度。仅当启用 stream=true 参数时,才会对流式请求跟踪此指标。 |
在 Novia AI 上更详细地探索 LLM 指标。
使用 Novita AI 指标控制台的技巧
- 在 LLM Playground 中测试模型,实时观察指标变化。
- 使用筛选器分析高峰和非高峰时段的具体指标。
- 根据趋势调整资源分配,保持高性能。
总结:为什么 LLM 指标至关重要
LLM 指标是成功部署 AI 的基石。通过跟踪每分钟请求数 (RPM)、请求成功率、端到端延迟和每输出令牌时间等指标,你可以获得可操作的洞察,优化系统的性能、可扩展性和可靠性。
像 Novita AI 这样的平台可以轻松实时监控并响应这些指标,确保你的 LLM 始终保持最佳运行状态。从今天开始利用 LLM 指标,提供更快、更智能、更高效的 AI 解决方案。
常见问题
什么是 LLM 指标?
LLM 指标是量化评估大语言模型性能的度量标准,重点关注吞吐量、可靠性和响应能力等方面。
为什么 LLM 指标很重要?
LLM 指标对于实时监控以发现低效、确保需求扩展、通过知情资源分配优化成本,以及通过提高可靠性和响应能力增强用户体验至关重要。
如何有效监控 LLM 性能?
要有效监控 LLM 性能,应定义相关指标,进行压力测试,分析性能以发现低效,为关键阈值设置告警,并根据性能数据定期审查和优化。
如何衡量 LLM 的准确性?
LLM 的准确性通过精确率、召回率、F1 分数和整体准确率百分比等指标衡量,这些指标评估模型输出与预期响应的匹配程度。
如何验证 LLM 性能?
验证 LLM 性能涉及在标准化数据集上进行基准测试,评估准确性、流畅性、连贯性和相关性,通常使用带标签数据集的地面真实评估。
Novita AI 是一站式云平台,助力你的 AI 雄心。集成 API、无服务器、GPU 实例——经济高效的工具应有尽有。消除基础设施负担,免费起步,让你的 AI 愿景成为现实。
推荐阅读
