核心亮点
性能:L40S 在所有指标上均优于 A40,独家支持 FP8,FP32/TF32 性能显著更高,内存带宽和 CUDA/Tensor Core 效率也更出色。
能效:L40S 每块 GPU 功耗降低约 60%,即可实现同等或更优性能,而 A40 缺乏对低精度 AI 任务的 FP8 支持。
应用场景:L40S 凭借先进的 Ada Lovelace 架构,更适合 AI 推理、精度要求高的任务及可视化工作负载。

Novita AI

Runpod
在 Novita AI 上使用 L40S 的成本大约是 RunPod 的一半。
NVIDIA L40S 基于 Ada Lovelace 架构,是 A40 的重大升级。它凭借原生 FP8 支持增强了 AI 推理能力,通过第三代 RT Core 实现了卓越的图形性能,并提升了能效。这些进步使 L40S 成为现代数据中心工作负载中多功能且经济高效的选择。
L40S vs A40:架构对比
NVIDIA L40S 基于 Ada Lovelace 架构,与其采用 Ampere 架构的前代产品 NVIDIA A40 相比,迈出了重要一步。两者均面向广泛的数中心工作负载,包括 AI、图形和 HPC,但 L40S 带来了显著的性能提升和新特性。

| 特性 / 指标 | NVIDIA L40S (Ada Lovelace) | NVIDIA A40 (Ampere) |
|---|---|---|
| **架构 ** | Ada Lovelace | Ampere |
| **CUDA 核心 ** | 18,176 | 10,752 |
| **Tensor 核心 ** | 568(第四代) | 336(第三代) |
| **RT 核心 ** | 142(第三代) | 84(第二代) |
| **FP32 性能 ** | 91.6 TFLOPS | 37.4 TFLOPS |
| TF32 Tensor(稀疏) | 183 | 366* | 74.8 | 149.6* |
| FP8 Tensor(稀疏) | 733 PFLOPS | 不支持原生(Ampere 限制) |
| FP16 Tensor(稀疏) | 362.05 TFLOPS | 149.7 | 299.4* |
| GPU 内存 | 48GB GDDR6 支持 ECC | 48GB GDDR6 支持 ECC |
| **内存带宽 ** | 864 GB/s | 696 GB/s |
| 功耗(TDP) | 350W | 300W |
| 多实例 GPU(MIG) | 否 | 否 |
| NVLink | 否 | 是(2 路,总带宽 112.5 GB/s) |
L40S vs A40:能效

比较 GPU 时,完成相同工作负载所需的总功耗是衡量效率更有意义的指标——而这一点正是 L40S 的突出之处。
- **FP32 性能 **:L40S 约为 91.6 TFLOPS,A40 约为 37.4 TFLOPS——性能约为其 2.4 倍。
- TF32(稀疏):L40S 达到 366 TFLOPS,A40 约为 149.6 TFLOPS——性能同样约为其 2.4 倍。
- **FP8 性能 :L40S 具有 ** 显著优势 ,支持 ** 原生 FP8。采用较旧 Ampere 架构的 A40 ** 完全不支持 FP8。
要达到 L40S 的性能:
- 使用 L40S:仅需 **1 块卡 **,功耗约 350W。
- 使用 A40:理论上需要 ** 约 2.4 块卡 **,总功耗约 720W。
在实际部署中,这意味着 L40S 能以一半的功耗提供更高的吞吐量 ,使其在功耗敏感或大规模环境中成为 更具成本效益和可扩展性的选择。
L40S vs A40:应用场景
AI 训练与推理
| 领域 | L40S | A40 |
|---|---|---|
| 训练 | 适合中/大规模训练(TF32:366 TFLOPS),成本较低,但缺少 NVLink。 | 更适合需要高带宽的大型模型(TF32:149.6 TFLOPS,支持 NVLink)。 |
| 推理 | 出色的 FP8 支持(738 PFLOPS),适合大语言模型及部署。 | 不支持 FP8;在 FP16、BF16、INT8 方面表现强劲。 |
图形与可视化
| 特性 | L40S | A40 |
|---|---|---|
| CUDA 核心 | 18,176 | 10,752 |
| RT 核心 | 142 | 84 |
| 驱动 | 支持 RTX Enterprise、Omniverse、Studio | 侧重计算,图形工具有限 |
| FP32 性能 | 91.6 TFLOPS | 37.4 TFLOPS |
精度要求高的任务
| 特性 | L40S | A40 |
|---|---|---|
| FP64 使用场景 | 1431 | 585 |
| FP32 使用场景 | 91.6 | 37.4 |
推荐
- 选择 L40S,如果你需要:
- 高吞吐量推理(尤其是 FP8 支持)
- 经济高效的中等规模 AI 训练
- 视觉工作负载(渲染、Omniverse)
- 采用现代架构的通用 AI 加速
- 选择 A40,如果你需要:
- 支持 NVLink 的大规模多 GPU 训练
- 更传统、侧重计算且不依赖图形功能的配置
如何以极低价格运行 L40S?
Novita AI 提供基于云的高性能 GPU 实例。凭借强大的 GPU,可为复杂任务提供高效性能,增强跨各种硬件的部署便捷性,并且相比维护本地硬件进行大规模 AI 部署,更具成本效益。
步骤 1:注册账户
通过我们的网站创建您的 Novita AI 账户。注册后,在左侧边栏中导航至“探索”部分,查看我们的 GPU 产品,开启您的 AI 开发之旅。

步骤 2:探索模板和 GPU 服务器
选择与项目需求匹配的模板,如 PyTorch、TensorFlow 或 CUDA。然后选择您偏好的 GPU 配置——可选包括强大的 L40S、RTX 4090 或 A100 SXM4,每种配置提供不同的显存、内存和存储规格。

步骤 3:定制部署
通过选择偏好的操作系统和配置选项,定制您的环境,以确保针对特定 AI 工作负载和开发需求实现最佳性能。

步骤 4:启动实例
选择“启动实例”开始部署。您的高性能 GPU 环境将在几分钟内准备就绪,可立即开始机器学习、渲染或计算项目。

NVIDIA L40S 在几乎所有方面相比 A40 实现了重大飞跃——从 FP8 推理到图形渲染和能效。凭借 Ada Lovelace 架构,其性能是 A40 的 **2 倍以上 **,同时功耗显著降低。对于 AI 推理、中等规模训练和可视化密集型工作流,L40S 是明确的赢家。而 A40 对于需要 NVLink 的旧系统或传统计算工作负载可能仍具价值。
常见问题
L40S 和 A40 哪个 GPU 更适合 AI 推理?
L40S。它支持原生 FP8,性能高达 738 PFLOPS,使其在推理任务中远更强大。
L40S 能否用于大规模 AI 训练?
可以。L40S 提供 366 TFLOPS(TF32 稀疏),非常适合中到大规模训练——尽管它缺乏 NVLink 支持。
是什么让 L40S 能效更高?
仅需 1 块 L40S(约 350W) 即可达到 2.4 块 A40(约 720W) 的性能,能源成本减半。
[Novita AI](https://novita.ai/?utm_source=blogs_GPU&utm_medium=article&utm_campaign=NVIDIA A100 GPU Performance: Why It’s Still the Go-to Choice for AI Training) 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷方式,同时提供经济实惠且可靠的 GPU 云,用于构建和扩展。
推荐阅读
