使用 RXT4080 提升效能：GPU 雲端技巧

簡介
解鎖 Mixtral 開源模型的潛力
什麼是 Mixtral 模型？
在 4080 上運行 Mixtral
運行 Mixtral 的未來趨勢

重點摘要

Mixtral 簡介： Mixtral 是現今最受歡迎的免費開源大型語言模型。
使用 RTX4080 運行 LLM 的問題： 顯示記憶體不足、TTFT 緩慢、以及成本高昂。
如何解決這些問題： 改善 Mixtral 的效能、使用多張顯示卡、或使用擴充記憶體。
使用 GPU 實例的優勢： 更高的擴展性、較低成本、按需付費、以及較低的維護成本。
相關教學： 在本地端運行 Mixtral 的教學，以及使用 GPU 實例的教學。

簡介

本部落格將探討如何讓 Mixtral 系列產品在 RTX 4080 GPU（一種消費級硬體，例如筆記型電腦）上運行得更好。我們將討論管理記憶體和設定 GPU 以有效利用其資源，包括使用至少兩張各具有 16 GB 視訊記憶體（VRAM）的 GPU 以獲得最佳效能。此外，我們也將比較在個人電腦上運行 LLM 模型與使用 GPU 實例的差異，後者可利用 VRAM 作為高速緩衝區以有效載入並防止效能問題，進而提供更佳的效能。

解鎖 Mixtral 開源模型的潛力

在釋放 Mixtral 的潛力之前，使用者首先需要了解什麼是 Mixtral。此外，了解不同版本的 Mixtral 也有助於使用者根據不同的 LLM 版本選擇合適的硬體設備。

什麼是 Mixtral 模型？

Mixtral 是由 Mistral.ai 創建的免費開源大型語言模型。在 2023 年 Imsys 排行榜中，Mixtral 8x7b 成為使用者評價最高的 LLM 開源模型之一。

LLM 排名

它採用了一種稱為專家稀疏混合（MoE）的方法，也稱為稀疏混合專家。這與一般的 LLM 不同，因為 Mixtral 並非所有部分同時被使用。相反地，只有少數的「專家」區塊會根據任務而被啟動。

Mistral 有幾個版本？

截至 2024 年，Mistral.ai 已推出四個免費開源的 LLM 模型，如下所示：

Mistral 7B
Mixtral 8x7B
Mixtral 8x22B

隨著 Mixtral 系列產品的發展，該系列產品的推理能力、多語言能力以及數學編碼能力都得到了大幅提升。

然而，這些改進也需要使用者使用更多的記憶體和更好的效能。例如，在 PC 上運行 Mixtral 8x22b 的硬體需求，需要大約 300GB 的 GPU 記憶體才能順暢運行此 LLM 模型。

在 4080 上運行 Mixtral

現在有些使用者選擇使用 RTX4080 來運行 Mixtral，例如 Slaghton 成功使用兩張 RTX4080 運行了 Mixtral 8x7b。然而，由於本地端 GPU 的記憶體限制，這個 LLM 只能以最低的生產力運行。在這種情況下，LLM 每秒只能產生約 7 到 8 個 tokens。

如何使用本地 GPU 運行 Mixtral 8x7b？

影片教學： 在 Windows 筆記型電腦上本地安裝 Mixtral 8x7B

步驟 1： 你需要夠大的電腦空間來運行，所以請先清理你的電腦！

步驟 2： 安裝必要的 Python 函式庫和工具，例如 TensorFlow、PyTorch 等。這些函式庫和工具可以透過 pip 或 conda 來安裝。

步驟 3： 從官方管道下載 Mixtral 8x7B 模型檔案。模型檔案通常以壓縮包的形式提供，其中包含模型的權重和配置檔案。

步驟 4： 將下載的模型檔案解壓縮到指定的目錄。

步驟 5： 根據模型的配置文件，設定必要的環境變數，例如模型路徑、設備類型（CPU/GPU）等。

使用本地 RTX4080 運行 Mixtral 會發生什麼？

嘗試使用消費級顯示卡運行 LLM 的人可能會遇到以下問題。

顯示記憶體不足： RXT4080 的最大顯示記憶體為 16GB，但順暢運行 Mixtral 可能需要約 200 到 300GB。
TTFT 緩慢： 根據多位 Reddit 內容發表者使用 4060、4080 和 4090 運行 Mistral 7b 和 Mixtral 8x7b 的經驗，使用消費級顯示卡運行 LLM 模型的 TTFT 速度僅能達到 1t/s 到 8T/s。
成本高昂： 這些內容發表者經常使用多張顯示卡或外部記憶體來運行 Mixtral。根據亞馬遜網站上的價格，一張 RTX4080 顯示卡售價 999 美元。

如何改善 4080 運行 Mixtral 的效能？

微調 LLM 的設定對於在 RTX 4080 的 16GB GPU 記憶體上獲得最佳效能非常重要。其中一個關鍵設定是「batch size」（批次大小）。此設定定義了一次同時處理多少輸入樣本。如果降低批次大小，可以減少 VRAM 的使用量。
使用擴充記憶體來擴充 4080 顯示卡的記憶體也是個好主意。
使用多張顯示卡。

運行 Mixtral 的未來趨勢

隨著 LLM 的發展，運行 LLM 所需的運算能力和顯示記憶體也越來越高。個人使用消費級顯示卡運行 LLM 的機會也越來越小。一種運行 LLM 的新方式正逐漸受到 LLM 個人和企業的歡迎，那就是使用 GPU 實例來運行。

什麼是 GPU 實例？

GPU 實例是在雲端運算環境中提供的虛擬機器或運算資源，配備了圖形處理器（GPU）。

應用場景：

深度學習： 訓練神經網路模型需要大量的矩陣運算，GPU 的並行處理能力可以顯著加速訓練。
圖形渲染： 用於遊戲開發、影視製作等領域，提供高品質的圖形輸出。
科學計算： 物理、化學和生物領域的複雜模擬和計算。

GPU 實例 vs 本地 GPU

使用 GPU 實例更便宜： 使用 RTX 4090 的 GPU 實例價格低於每小時 1 美元。但根據亞馬遜的資料，一張本地 RTX4090 的價格約為 1,660 美元。

GPU 實例成本
更高的擴展性： GPU 實例的使用者可以根據需求，透過滑鼠點擊動態調整 GPU 實例的數量和效能。
按需付費： 使用者可以根據使用量付費，無需預先投資硬體。
較低的維護成本： 使用虛擬 GPU 資源無需擔心因硬體損壞導致程式無法運行的問題。