MiniMax M2.5 VRAM 需求:本地部署指南

MiniMax M2.5 VRAM 需求:本地部署指南

MiniMax M2.5 可以在消費級硬體上運行——但僅限於使用高壓縮量化技術。 透過 Unsloth AI 的動態 3 位元 GGUF 量化,可將 457GB 的全精度模型壓縮至約 101GB。本指南將拆解不同量化等級的實際 VRAM 需求,並結合 Novita AI 雲端計費對應到特定 GPU配置。

MiniMax M2.5 簡介

MiniMax M2.5 是擁有 2290 億參數的混合專家(MoE)模型,共 256 層專家層,每個 token 會啟動 8 個專家(約 100 億參數)。它在 SWE-Bench Verified 上獲得 80.2% 的分數、Multi-SWE-Bench 51.3%、BrowseComp 76.3%,是當前最強的开源代理編碼與工具使用模型之一。該模型支援 20.5 萬 token 的上下文視窗,並採用 MIT 授權,可無限制用於商業用途。

minimax m2.5

From Huggingface

Minimax M2.5 的基準測試結果

From Huggingface

Minimax M2.5 的基準測試結果

From Huggingface

MiniMax M2.5 的 VRAM 需求

VRAM 需求會隨精度等級而變化。下表列出 Unsloth 的 GGUF 量化與混合 AWQ 格式的檔案大小——根據上下文長度與批次大小,還需額外增加 4-10GB 的 KV 快取開銷。

配置 所需 VRAM
BF16(全精度) 457 GB
Q8_0 GGUF 243 GB
Q6_K GGUF 188 GB
Q4_K_M GGUF 138 GB
IQ4_XS GGUF 122 GB
Q3_K_M GGUF(動態 3 位元) 109 GB
Q2_K GGUF 83 GB
UD-IQ2_XXS GGUF(超動態 2 位元) 74 GB

透過混合量化方案(INT4 AWQ 權重、FP8 注意力機制,以及校準過的 FP8 KV 快取),MiniMax M2.5 在 192GB VRAM 上可達到 37 萬 token 的上下文長度,且批次處理吞吐量遠高於標準 AWQ(標準 AWQ 通常會受到 KV 快取限制)。

https://www.reddit.com/r/LocalLLaMA/comments/1r9bokx/new\_hybrid\_awq\_quant\_make\_minimaxm25\_fly\_with/

MiniMax M2.5 的 GPU 建議配置

以下所有計價均為 Novita AI 隨需計費價格,多 GPU 成本計算方式為單 GPU 價格 × 數量。

RTX 5090 (32GB)

配置 總 VRAM 量化方式 備註
3× RTX 5090 96GB Q2_K 可運行但會逼近記憶體極限
4× RTX 5090 128GB Q3_K_M 動態 3 位元 搭配適中批次大小時運行穩定

H100 (80GB)

配置 總 VRAM 量化方式 備註
2× H100 160GB Q4_K_M 運行穩定,模型品質更高

不建議使用: 單張 RTX 4090 或 RTX 5090 即便使用最激進的量化方式也無法容納 MiniMax M2.5。使用 Q3_K_M 量化的 Strix Halo APU 運行速度「幾乎無法使用」,雖能處理 8 萬 token 上下文,但推論速度不切實際。

https://www.reddit.com/r/LocalLLaMA/comments/1r8rgcp/minimax\_25\_on\_strix\_halo\_thread/

gpu 在 novita 的計價

試試高性價比 GPU!

實際部署策略

策略一:優先使用 API,搭配 Spot GPU 故障轉移

開發與輕量生產場景可優先使用 Novita AI API,計費為每 100 萬 token 0.3 美元/1.2 美元。當流量超過每月約 1 億 token(API 月成本約 150 美元)時,可啟動每小時 5.18 美元的2×H100 Spot 執行個體處理批次任務,同時保留 API 處理即時使用者面向的推論。這種混合方式能在控制成本的同時,維持互動應用的低延遲。

為進一步降低大規模使用成本,Novita 提供低價 API 計費,同時對重複讀取的提示快取提供折扣。當提示被重複使用時(例如系統指令、模板或重複上下文),快取中的 token 會以更低的費率提供,無需重新計算——同時降低延遲與成本。這種「優先 API + 批次處理」的架構效率更高,特別適合代理工作流程與高頻查詢場景。

立即試用 MiniMax M2.5!

minimax m2.5 api on novita ai

策略二:搭配量化技術自主部署

對於有隱私需求或高流量持續運算的團隊,可部署2×H100上運行 Q3_K_M 動態 3 位元或 Q4_K_M 量化版本。GGUF 格式可使用 llama.cpp 部署,生產環境吞吐量最佳化則可搭配 vLLM 與 AWQ 技術。

如何在雲端 GPU 上使用 MiniMax M2.5?

步驟 1:註冊帳號

透過我們的官方網站建立 Novita AI 帳號,註冊完成後,點擊左側邊欄的「探索」選項,即可查看我們的GPU 產品,開始你的 AI 開發之旅。

Novita AI 網站截圖

步驟 2:探索模板與 GPU 伺服器

根據專案需求選擇對應的模板,例如 PyTorch、TensorFlow 或 CUDA,接著選擇你偏好的 GPU 配置——我們提供多款高效能 GPU 選項,各自搭載不同的 VRAM、RAM 與儲存規格。

探索模板與 GPU 伺服器

步驟 3:自訂你的部署環境

選擇你偏好的作業系統與配置選項,自訂你的部署環境,確保能為你的特定 AI 工作負載與開發需求發揮最佳效能。

自訂部署環境

試試高性價比 GPU!

MiniMax M2.5 的 2290 億參數 MoE 架構能提供頂尖的編碼效能,但 2 位元量化至少需要 96GB VRAM,生產級 3-4 位元部署則需要 128-160GB VRAM。對大多數開發者而言,在每月 5000 萬 token 以內的用量下,採用每 100 萬 token 0.3 美元/1.2 美元的 API 部署,是成本、效能與簡易性最佳平衡的方案。

常見問題

我可以在一張單獨的 RTX 4090 上運行 MiniMax M2.5 嗎?

不行,MiniMax M2.5 即便使用最激進的 UD-IQ2_XXS 2 位元量化,至少也需要 74GB VRAM。單張 RTX 4090 僅有 24GB VRAM,你至少需要 3-4 張消費級 GPU,或是 2 張 H100。

哪種量化等級能維持 MiniMax M2.5 的生產級輸出品質?

Q4_K_M(138GB)或動態 3 位元 Q3_K_M(109GB)是平衡性最佳的選擇。生產環境請避免使用 Q2_K(83GB)——儘管其上下文容量更高,但 Reddit 使用者回報其編碼品質會出現明顯下降。

MiniMax M2.5 的 API 計費方式是如何運作的?

使用 Novita 的計費方案(每 100 萬 token 0.3 美元/1.2 美元),每天處理 100 萬 token 的話,透過 API 每月成本約為 45 美元

Novita AI 是 AI 與代理雲端平台,協助開發者與新創公司高效能、高可靠、低成本地建構、部署與擴展模型與代理應用程式。

推薦閱讀