理解 LLM 指标：提升模型性能

什么是 LLM 指标？
跟踪 LLM 成功的关键指标
分步指南：如何观测 LLM 指标
实时监控：在 Novita AI 上观测 LLM 指标
总结：为什么 LLM 指标至关重要
常见问题

大语言模型正在改变技术，驱动着虚拟助手、聊天机器人和自动化内容生成。但你的模型是否发挥出了最佳性能？

答案就在于 LLM 指标——这些关键指标反映了性能、响应能力、可扩展性和可观测性。在本指南中，我们将探讨核心指标，并展示如何优化系统以实现最高效率，同时增强其可观测性。

什么是 LLM 指标？

AI 性能的基本要素

LLM 指标是量化评估大语言模型性能的度量标准。它们提供了系统吞吐量、可靠性和响应能力的洞察，帮助开发者保持高性能和用户满意度。

为什么 LLM 指标至关重要？

实时监控性能：指标能揭示低效和瓶颈。
无缝扩展：确保模型能够应对增长的需求而不崩溃。
优化成本：利用指标有效分配资源，降低开支。
提升用户体验：提高可靠性和响应能力，增强满意度。

跟踪 LLM 成功的关键指标

接下来，我们将探讨监控和优化 LLM 的核心指标，并附上可操作的建议。

1. 每分钟请求数 (RPM)：衡量系统吞吐量

什么是每分钟请求数？
每分钟请求数跟踪一分钟内处理的推理请求数量，准确反映系统吞吐量。

公式：
RPM = 总请求数 ÷ 时间（分钟）

示例：
如果系统在一分钟内处理 500 个请求，则 RPM 为 500。

为什么重要：

高 RPM 表明系统能处理更多请求，支持更好的可扩展性。
有助于识别高峰需求时段，规划基础设施升级。

专业建议：

监控 RPM 趋势以预测使用高峰。
横向扩展（增加服务器）或纵向扩展（增强现有服务器性能）以维持性能。

2. 请求成功率 (RSR)：确保可靠性

什么是请求成功率？
请求成功率显示返回有效响应的请求百分比，反映系统可靠性。

公式：
请求成功率 (%) = (成功请求数 ÷ 总请求数) × 100

示例：
如果 1000 个请求中有 900 个成功，则请求成功率为 90%。

为什么重要：

指示系统的可靠性程度。
低请求成功率可能指向资源限制、错误或网络问题。

专业建议：

定期监控并调查请求成功率的下降。
优化流水线，解决基础设施问题以提高可靠性。

3. 每请求平均令牌数 (ATPR)：理解复杂性

什么是每请求平均令牌数？
每请求平均令牌数跟踪每个请求中模型处理的平均令牌数量（输入 + 输出）。

公式：
每请求平均令牌数 = 总处理令牌数 ÷ 总请求数

示例：
如果系统在 10 个请求中处理了 300 个令牌，则每请求平均令牌数为 30。

为什么重要：

反映请求的复杂性。
更高的令牌数需要更多资源，增加处理成本。

专业建议：

分析令牌分布以优化批处理策略。
管理高令牌请求，避免不必要的成本。

4. 端到端延迟 (e2e_latency)：跟踪总响应时间

什么是端到端延迟？
端到端延迟衡量从接收请求到传递完整响应的总时长。

公式：
e2e_latency = 完整响应时间 − 请求时间

示例：
如果请求在 0 毫秒到达，响应在 200 毫秒传递，则 e2e_latency 为 200 毫秒。

为什么重要：

对实时应用（如聊天机器人或虚拟助手）至关重要。
高 e2e_latency 会使用户受挫，降低满意度。

专业建议：

将 e2e_latency 拆解为组成部分（如推理时间、网络延迟）以定位问题。
使用缓存并优化推理流水线以缩短响应时间。

5. 首令牌时间 (TTFT)：提升初始响应速度

什么是首令牌时间？
首令牌时间衡量模型生成第一个响应令牌的速度。

公式：
TTFT = 首令牌生成时间 − 请求时间

示例：
如果请求后 150 毫秒生成第一个令牌，则 TTFT 为 150 毫秒。

为什么重要：

对实时用户交互至关重要。
快速的 TTFT 能提升系统的感知响应速度。

专业建议：

预加载或预热模型以减少延迟。
将 TTFT 与 e2e_latency 结合监控，全面了解响应能力。

6. 每输出令牌时间 (TPOT)：优化令牌生成

什么是每输出令牌时间？
每输出令牌时间衡量生成第一个令牌后，生成每个令牌的平均时间。

公式：
TPOT = 生成第一个令牌后的总时间 ÷ 第一个令牌后生成的令牌数

示例：
如果生成 10 个令牌需要 100 毫秒，则 TPOT 为每个令牌 10 毫秒。

为什么重要：

反映令牌生成效率，尤其对于文本密集型输出。
高 TPOT 可能导致大输出时响应变慢。

专业建议：

使用并行化或微调模型以提高令牌生成速度。
将 TPOT 与其他延迟指标结合监控，优化用户体验。

分步指南：如何观测 LLM 指标

1. 定义关键指标

首先确定你的 LLM 应用最相关的指标。考虑用户体验、系统性能和可扩展性等因素。例如：

实时应用： 优先考虑端到端延迟和首令牌时间。
高吞吐系统： 关注吞吐量（每分钟请求数）和可靠性（请求成功率）。
成本管理： 监控令牌使用情况（每请求平均令牌数和每输出令牌时间）。

2. 通过压力测试检验系统极限

模拟高需求场景，评估系统在压力下的表现。
识别瓶颈，并根据需要制定扩展计划。

3. 分析模型性能

将延迟拆解为组成部分（如推理时间、网络延迟），发现低效环节。
跟踪令牌生成时间，分析处理速度并优化工作流。

4. 为关键指标设置告警

为关键指标（如每分钟请求数和端到端延迟）设定阈值。
自动化通知，快速发现并解决性能问题。

5. 迭代与优化

持续审查性能数据，识别趋势。
优化基础设施、流水线和模型架构以提升性能。

实时监控：在 Novita AI 上观测 LLM 指标

Novita AI 通过专用的 指标控制台 简化了指标跟踪，为你的 LLM 部署提供实时洞察。

指标	在 Novita AI 上监控的内容
每分钟请求数	跟踪吞吐量，确保系统能高效应对流量高峰。
请求成功率	观察趋势，识别并排查可靠性问题。
每请求平均令牌数	分析令牌使用情况，有效管理成本。
端到端延迟	监控延迟，确保流畅的用户体验。
首令牌时间	衡量初始响应速度，改善实时应用。仅当启用 `stream=true` 参数时，才会对流式请求跟踪此指标。
每输出令牌时间	优化较长响应的令牌生成速度。仅当启用 `stream=true` 参数时，才会对流式请求跟踪此指标。

在 Novia AI 上更详细地探索 LLM 指标。

使用 Novita AI 指标控制台的技巧

在 LLM Playground 中测试模型，实时观察指标变化。
使用筛选器分析高峰和非高峰时段的具体指标。
根据趋势调整资源分配，保持高性能。

总结：为什么 LLM 指标至关重要

LLM 指标是成功部署 AI 的基石。通过跟踪每分钟请求数 (RPM)、请求成功率、端到端延迟和每输出令牌时间等指标，你可以获得可操作的洞察，优化系统的性能、可扩展性和可靠性。

像 Novita AI 这样的平台可以轻松实时监控并响应这些指标，确保你的 LLM 始终保持最佳运行状态。从今天开始利用 LLM 指标，提供更快、更智能、更高效的 AI 解决方案。

常见问题

什么是 LLM 指标？

LLM 指标是量化评估大语言模型性能的度量标准，重点关注吞吐量、可靠性和响应能力等方面。

为什么 LLM 指标很重要？

LLM 指标对于实时监控以发现低效、确保需求扩展、通过知情资源分配优化成本，以及通过提高可靠性和响应能力增强用户体验至关重要。

如何有效监控 LLM 性能？

要有效监控 LLM 性能，应定义相关指标，进行压力测试，分析性能以发现低效，为关键阈值设置告警，并根据性能数据定期审查和优化。

如何衡量 LLM 的准确性？

LLM 的准确性通过精确率、召回率、F1 分数和整体准确率百分比等指标衡量，这些指标评估模型输出与预期响应的匹配程度。

如何验证 LLM 性能？

验证 LLM 性能涉及在标准化数据集上进行基准测试，评估准确性、流畅性、连贯性和相关性，通常使用带标签数据集的地面真实评估。

Novita AI 是一站式云平台，助力你的 AI 雄心。集成 API、无服务器、GPU 实例——经济高效的工具应有尽有。消除基础设施负担，免费起步，让你的 AI 愿景成为现实。

推荐阅读

理解 LLM 指标：提升模型性能

什么是 LLM 指标？

AI 性能的基本要素

为什么 LLM 指标至关重要？

跟踪 LLM 成功的关键指标

1. 每分钟请求数 (RPM)：衡量系统吞吐量

2. 请求成功率 (RSR)：确保可靠性

3. 每请求平均令牌数 (ATPR)：理解复杂性

4. 端到端延迟 (e2e_latency)：跟踪总响应时间

5. 首令牌时间 (TTFT)：提升初始响应速度

6. 每输出令牌时间 (TPOT)：优化令牌生成

分步指南：如何观测 LLM 指标

1. 定义关键指标

2. 通过压力测试检验系统极限

3. 分析模型性能

4. 为关键指标设置告警

5. 迭代与优化

实时监控：在 Novita AI 上观测 LLM 指标

使用 Novita AI 指标控制台的技巧

总结：为什么 LLM 指标至关重要

常见问题

Product

RESOURCES

Partners

Company

什么是 LLM 指标？

AI 性能的基本要素

为什么 LLM 指标至关重要？

跟踪 LLM 成功的关键指标

1. 每分钟请求数 (RPM)：衡量系统吞吐量

2. 请求成功率 (RSR)：确保可靠性

3. 每请求平均令牌数 (ATPR)：理解复杂性

4. 端到端延迟 (e2e_latency)：跟踪总响应时间

5. 首令牌时间 (TTFT)：提升初始响应速度

6. 每输出令牌时间 (TPOT)：优化令牌生成

分步指南：如何观测 LLM 指标

1. 定义关键指标

2. 通过压力测试检验系统极限

3. 分析模型性能

4. 为关键指标设置告警

5. 迭代与优化

实时监控：在 Novita AI 上观测 LLM 指标

使用 Novita AI 指标控制台的技巧

总结：为什么 LLM 指标至关重要

常见问题

相关文章

Product

RESOURCES

Partners

Company