L40S 与 A40:释放下一代 AI 与图形性能

L40S 与 A40:释放下一代 AI 与图形性能

核心亮点

性能L40S 在所有指标上均优于 A40,独家支持 FP8,FP32/TF32 性能显著更高,内存带宽和 CUDA/Tensor Core 效率也更出色。
能效:L40S 每块 GPU 功耗降低约 60%,即可实现同等或更优性能,而 A40 缺乏对低精度 AI 任务的 FP8 支持。
应用场景:L40S 凭借先进的 Ada Lovelace 架构,更适合 AI 推理、精度要求高的任务及可视化工作负载。

Novita AI

Runpod

在 Novita AI 上使用 L40S 的成本大约是 RunPod 的一半。

立即尝试使用 Novita AI

NVIDIA L40S 基于 Ada Lovelace 架构,是 A40 的重大升级。它凭借原生 FP8 支持增强了 AI 推理能力,通过第三代 RT Core 实现了卓越的图形性能,并提升了能效。这些进步使 L40S 成为现代数据中心工作负载中多功能且经济高效的选择。

L40S vs A40:架构对比

NVIDIA L40S 基于 Ada Lovelace 架构,与其采用 Ampere 架构的前代产品 NVIDIA A40 相比,迈出了重要一步。两者均面向广泛的数中心工作负载,包括 AI、图形和 HPC,但 L40S 带来了显著的性能提升和新特性。

l40s vs a 40

特性 / 指标 NVIDIA L40S (Ada Lovelace) NVIDIA A40 (Ampere)
**架构 ** Ada Lovelace Ampere
**CUDA 核心 ** 18,176 10,752
**Tensor 核心 ** 568(第四代) 336(第三代)
**RT 核心 ** 142(第三代) 84(第二代)
**FP32 性能 ** 91.6 TFLOPS 37.4 TFLOPS
TF32 Tensor(稀疏) 183 | 366* 74.8 | 149.6*
FP8 Tensor(稀疏) 733 PFLOPS 不支持原生(Ampere 限制)
FP16 Tensor(稀疏) 362.05 TFLOPS 149.7 | 299.4*
GPU 内存 48GB GDDR6 支持 ECC 48GB GDDR6 支持 ECC
**内存带宽 ** 864 GB/s 696 GB/s
功耗(TDP) 350W 300W
多实例 GPU(MIG)
NVLink 是(2 路,总带宽 112.5 GB/s)

L40S vs A40:能效

L40S vs A100:能效

比较 GPU 时,完成相同工作负载所需的总功耗是衡量效率更有意义的指标——而这一点正是 L40S 的突出之处。

  • **FP32 性能 **:L40S 约为 91.6 TFLOPS,A40 约为 37.4 TFLOPS——性能约为其 2.4 倍
  • TF32(稀疏):L40S 达到 366 TFLOPS,A40 约为 149.6 TFLOPS——性能同样约为其 2.4 倍
  • **FP8 性能 :L40S 具有 ** 显著优势 ,支持 ** 原生 FP8。采用较旧 Ampere 架构的 A40 ** 完全不支持 FP8

要达到 L40S 的性能:

  • 使用 L40S:仅需 **1 块卡 **,功耗约 350W
  • 使用 A40:理论上需要 ** 约 2.4 块卡 **,总功耗约 720W

在实际部署中,这意味着 L40S 能以一半的功耗提供更高的吞吐量 ,使其在功耗敏感或大规模环境中成为 更具成本效益和可扩展性的选择。

L40S vs A40:应用场景

AI 训练与推理

领域 L40S A40
训练 适合中/大规模训练(TF32:366 TFLOPS),成本较低,但缺少 NVLink。 更适合需要高带宽的大型模型(TF32:149.6 TFLOPS,支持 NVLink)。
推理 出色的 FP8 支持(738 PFLOPS),适合大语言模型及部署。 不支持 FP8;在 FP16、BF16、INT8 方面表现强劲。

图形与可视化

特性 L40S A40
CUDA 核心 18,176 10,752
RT 核心 142 84
驱动 支持 RTX Enterprise、Omniverse、Studio 侧重计算,图形工具有限
FP32 性能 91.6 TFLOPS 37.4 TFLOPS

精度要求高的任务

特性 L40S A40
FP64 使用场景 1431 585
FP32 使用场景 91.6 37.4

推荐

  • 选择 L40S,如果你需要:
    • 高吞吐量推理(尤其是 FP8 支持)
    • 经济高效的中等规模 AI 训练
    • 视觉工作负载(渲染、Omniverse)
    • 采用现代架构的通用 AI 加速
  • 选择 A40,如果你需要:
    • 支持 NVLink 的大规模多 GPU 训练
    • 更传统、侧重计算且不依赖图形功能的配置

如何以极低价格运行 L40S?

Novita AI 提供基于云的高性能 GPU 实例。凭借强大的 GPU,可为复杂任务提供高效性能,增强跨各种硬件的部署便捷性,并且相比维护本地硬件进行大规模 AI 部署,更具成本效益。

步骤 1:注册账户

通过我们的网站创建您的 Novita AI 账户。注册后,在左侧边栏中导航至“探索”部分,查看我们的 GPU 产品,开启您的 AI 开发之旅。

Novita AI 网站截图

立即尝试使用 Novita AI

步骤 2:探索模板和 GPU 服务器

选择与项目需求匹配的模板,如 PyTorch、TensorFlow 或 CUDA。然后选择您偏好的 GPU 配置——可选包括强大的 L40S、RTX 4090 或 A100 SXM4,每种配置提供不同的显存、内存和存储规格。

novita ai 网站截图:使用云 GPU

步骤 3:定制部署

通过选择偏好的操作系统和配置选项,定制您的环境,以确保针对特定 AI 工作负载和开发需求实现最佳性能。

novita ai 网站截图:使用云 GPU

步骤 4:启动实例

选择“启动实例”开始部署。您的高性能 GPU 环境将在几分钟内准备就绪,可立即开始机器学习、渲染或计算项目。

novita ai 网站截图:使用云 GPU

NVIDIA L40S 在几乎所有方面相比 A40 实现了重大飞跃——从 FP8 推理到图形渲染和能效。凭借 Ada Lovelace 架构,其性能是 A40 的 **2 倍以上 **,同时功耗显著降低。对于 AI 推理、中等规模训练和可视化密集型工作流,L40S 是明确的赢家。而 A40 对于需要 NVLink 的旧系统或传统计算工作负载可能仍具价值。

常见问题

L40S 和 A40 哪个 GPU 更适合 AI 推理?

L40S。它支持原生 FP8,性能高达 738 PFLOPS,使其在推理任务中远更强大。

L40S 能否用于大规模 AI 训练?

可以。L40S 提供 366 TFLOPS(TF32 稀疏),非常适合中到大规模训练——尽管它缺乏 NVLink 支持。

是什么让 L40S 能效更高?

仅需 1 块 L40S(约 350W) 即可达到 2.4 块 A40(约 720W) 的性能,能源成本减半。

[Novita AI](https://novita.ai/?utm_source=blogs_GPU&utm_medium=article&utm_campaign=NVIDIA A100 GPU Performance: Why It’s Still the Go-to Choice for AI Training) 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷方式,同时提供经济实惠且可靠的 GPU 云,用于构建和扩展。

推荐阅读