使用 RXT4080 提升性能：GPU 云使用技巧

引言
解锁 Mixtral 开源模型的潜力
什么是 Mixtral 模型？
在 4080 上运行 Mixtral
运行 Mixtral 的未来趋势

关键要点

Mixtral 简介： Mixtral 是目前最受欢迎的免费开源大语言模型。
使用 RTX4080 运行 LLM 的问题： 显存不足、TTFT 缓慢以及成本高昂。
如何解决这些问题： 提升 Mixtral 性能、使用多张显卡或使用扩展内存。
使用 GPU 实例的优势： 更高的可扩展性、更低的成本、按需付费以及更低的维护成本。
相关教程： 关于在本地运行 Mixtral 的教程，以及关于使用 GPU 实例的教程。

引言

本博客将探讨如何让 Mixtral 系列产品在 RTX 4080 GPU（一种消费级硬件，如笔记本电脑）上运行得更好。我们将讨论内存管理以及如何设置 GPU 以高效利用其资源，包括至少使用两块配备 16 GB 显存的 GPU 以获得最佳性能。我们还将比较在本地计算机上运行 LLM 模型与使用 GPU 实例的区别，后者通过将显存用作高速缓冲区以实现高效加载并防止性能问题，从而可能带来更好的性能。

解锁 Mixtral 开源模型的潜力

在释放 Mixtral 的潜力之前，用户首先需要了解什么是 Mixtral。此外，了解 Mixtral 的不同版本也有助于用户根据不同的 LLM 版本选择合适的硬件设备。

什么是 Mixtral 模型？

Mixtral 是 Mistral.ai 创建的一款免费开源大语言模型。在 2023 年的 Imsys 榜单中，Mixtral 8x7b 成为用户评价最高的 LLM 开源模型之一。

LLM 排名

它采用了一种称为专家稀疏混合（MoE）的方法，也称为稀疏专家混合。这与常规的 LLM 不同，因为 Mixtral 并非所有部分同时被使用。相反，只有少数“专家”部分会根据任务被激活。

Mistral 有多少个版本？

截至 2024 年，Mistral.ai 已经推出了四个免费开源的 LLM 模型，如下所示：

Mistral 7B
Mixtral 8x7B
Mixtral 8x22B

随着 Mixtral 系列产品的发展，该系列产品的推理能力、多语言能力以及数学编码能力都得到了极大的提升。

然而，这些改进也要求用户使用更多的内存和更好的性能。例如，在 PC 上运行 Mixtral 8x22b 的硬件要求是，需要大约 300GB 显存的 GPU 才能流畅运行该 LLM 模型。

在 4080 上运行 Mixtral

现在有些用户选择使用 RTX4080 来运行 Mixtral，例如 Slaghton 成功使用两块 RTX4080 运行了 Mixtral 8x7b。然而，由于本地 GPU 的内存限制，该 LLM 只能以最低效率运行。在这种情况下，LLM 每秒只能生成大约 7 到 8 个 token。

如何使用本地 GPU 运行 Mixtral 8x7b？

视频教程： 在 Windows 笔记本电脑上本地安装 Mixtral 8x7B

步骤 1： 你需要足够的电脑空间来运行，所以首先开始清理你的电脑！

步骤 2： 安装必要的 Python 库和工具，例如 TensorFlow、PyTorch 等。这些库和工具可以通过 pip 或 conda 安装。

步骤 3： 从官方渠道下载 Mixtral 8x7B 模型文件。模型文件通常以压缩包形式提供，其中包含模型的权重和配置文件。

步骤 4： 将下载的模型文件解压到指定目录。

步骤 5： 根据模型的配置文件，设置必要的环境变量，例如模型路径、设备类型（CPU/GPU）等。

使用本地 RTX4080 运行 Mixtral 会发生什么？

尝试使用消费级显卡运行 LLM 的用户可能会遇到以下问题。

显存不足： RXT4080 的最大显存为 16GB，但流畅运行 Mixtral 可能需要约 200 到 300GB。
TTFT 缓慢： 根据几位 Reddit 内容发布者使用 4060、4080 和 4090 运行 Mistral 7b 和 Mixtral 8x7b 的经验，使用消费级显卡运行 LLM 模型的 TTFT 速度只能达到 1t/s 到 8t/s。
成本高昂： 这些内容发布者通常使用多张显卡或外部内存来运行 Mixtral。根据 Amazon 网站上公布的价格，一块 RTX4080 显卡的售价为 999 美元。

如何提升 4080 运行 Mixtral 的性能？

调整 LLM 的设置对于在 RTX 4080 的 16GB GPU 内存上获得最佳性能非常重要。其中一个关键设置是“批次大小”。此设置定义了一次处理多少个输入样本。如果降低批次大小，可以减少显存使用。
使用扩展内存来扩展 4080 显卡的内存也是一个好主意。
使用多张显卡。

运行 Mixtral 的未来趋势

随着 LLM 的发展，运行 LLM 所需的计算能力和显存也在不断增加。个人使用消费级显卡运行 LLM 的机会也越来越小。一种运行 LLM 的新方式正在 LLM 个人和企业用户中流行起来，那就是使用 GPU 实例来运行。

什么是 GPU 实例？

GPU 实例是在云计算环境中提供的配备了图形处理单元（GPU）的虚拟机或计算资源。

应用场景：

深度学习： 训练神经网络模型需要大量矩阵运算，GPU 的并行处理能力可以显著加速训练。
图形渲染： 用于游戏开发、影视制作等领域，提供高质量的图形输出。
科学计算： 物理、化学、生物等领域的复杂模拟和计算。

GPU 实例 vs 本地 GPU

使用 GPU 实例更便宜： 使用 RTX 4090 的 GPU 实例价格低于 1 美元/小时。但根据 Amazon 的数据，一块本地 RTX4090 的价格约为 1660 美元。

GPU 实例的成本

更高的可扩展性： GPU 实例用户只需点击鼠标，即可根据需求动态调整 GPU 实例的数量和性能。
按需付费： 用户可以根据使用量付费，无需前期硬件投资。
更低的维护成本： 使用虚拟 GPU 资源无需担心硬件损坏导致程序无法运行。

如何使用 GPU 云？

步骤 1： 访问 Novita.ai 网站，点击“产品”——“GPU 实例”

Novita.ai 网站页面

步骤 2： 点击“立即开始构建”

Novita.ai 网站页面

步骤 3： 选择你需要的显卡类型和所需的内存量，然后点击 ** 部署**。

Novita.ai 网站页面

关于如何创建 GPU 实例的详细信息，请参阅 如何在 Novita AI GPU 实例上使用 Llama 3

常见问题解答

Mixtral 需要多少 RAM？

Mixtral 通常需要至少 8GB 的 RAM 才能良好运行。如果你的任务更复杂，更多的 RAM 会有所帮助。拥有足够的 RAM 对于 Mixtral 流畅运行并高效处理任务非常重要。

Mixtral 8x22B 需要什么 GPU？

要有效使用 Mixtral 8x22B，你需要一块强大的 GPU。最好至少拥有 48GB 的显存。NVIDIA A100 是一个不错的选择，可以从 Mixtral 获得最佳性能。

Mistral 7B 的 token 生成速度有多快？

Mistral 7B 展现出了出色的 token 生成速度。这些速度会根据你的硬件和设置而改变。在高端消费级 GPU（如 RTX 4080）上，它通常每秒生成 10 到 20 个 token。

Novita AI 是一个一体化云平台，助力您的 AI 雄心。集成 API、无服务器计算、GPU 实例——您所需的高性价比工具。消除基础设施障碍，免费开始，让您的 AI 愿景成为现实。

推荐阅读

Mixtral 8x22b 秘密揭秘：全面指南

LLM 模型对比：您的全面指南

2024 年 5 款最佳 AI GPU：您的终极指南

使用 RXT4080 提升性能：GPU 云使用技巧

关键要点

引言

解锁 Mixtral 开源模型的潜力