MiniMax M2.5 可以在消费级硬件上运行,但需要进行激进的量化。 借助 Unsloth AI 的动态 3 位 GGUF 量化技术,您可以将 457GB 的全精度模型缩小到大约 101GB。本指南详细分析了不同量化级别下的实际显存需求,并将其映射到相应的模型。 具体的 GPU 配置 Novita AI 云定价。
MiniMax M2.5 介绍
MiniMax M2.5 是一个拥有 229 亿参数的混合专家模型,包含 256 个专家层,每个 token 激活 8 个专家(约 10 亿个参数)。它实现了…… SWE-Bench Verified 测试得分 80.2%,Multi-SWE-Bench 测试得分 51.3%,BrowseComp 测试得分 76.3%。这使其成为最强大的开放式智能体编码和工具使用模型之一。该模型支持 205K 个令牌的上下文窗口,并采用 MIT 许可证,可不受限制地用于商业用途。

MiniMax M2.5 的显存要求
显存大小需要随精度级别而变化。下表显示了 Unsloth 的 GGUF 量化和混合 AWQ 格式的文件大小——根据上下文长度和批处理大小,还需要为键值缓存增加 4-10GB 的开销。
| 配置 | 需要 VRAM |
|---|---|
| BF16(全精度) | 457 GB |
| Q8_0 GGUF | 243 GB |
| Q6_K GGUF | 188 GB |
| Q4_K_M GGUF | 138 GB |
| IQ4_XS GGUF | 122 GB |
| Q3_K_M GGUF(动态 3 位) | 109 GB |
| Q2_K GGUF | 83 GB |
| UD-IQ2_XXS GGUF(超动态 2 位) | 74 GB |
MiniMax M2.5 采用混合量化方案(INT4 AWQ 权重、FP8 注意力机制和校准的 FP8 KV 缓存),在 192GB VRAM 上可以达到 370K 上下文,并且与通常受 KV 缓存限制的标准 AWQ 相比,可以实现更高的批处理吞吐量。
GPU MiniMax M2.5 的推荐
以下所有价格均已反映 Novita AI 按需定价。多-GPU 成本按单项计算GPU 单价×数量。
RTX 5090(32GB)
| 配置 | 总 VRAM | 量化 | 笔记 |
|---|---|---|---|
| 3× RTX 5090 | 96GB | Q2_K | 能用,但会占用大量内存 |
| 4× RTX 5090 | 128GB | Q3_K_M 动态 3 位 | 稳定性适中,批次控制良好 |
H100(80GB)
| 配置 | 总 VRAM | 量化 | 笔记 |
|---|---|---|---|
| 2×H100 | 160GB | 问题4 | 部署稳定,模型质量更高 |
不建议: 即使在最激进的量化设置下,单张 RTX 4090 或 RTX 5090 也无法装入 MiniMax M2.5 插槽。Strix Halo APU 搭配 Q3_K_M 处理器,虽然能够处理 80K 上下文,但推理速度却“几乎无法使用”。

实际部署策略
策略一:API优先,采用Spot策略 GPU 故障转移
开始 Novita AI 开发和轻量级生产环境的 API 费用为每百万代币 0.30 美元/1.20 美元。当流量规模超过每月约 1 亿代币(API 费用为每月 150 美元)时,即可启动 API 服务。 现场实例 2×H100 每小时 5.18 美元 对于批量处理作业,保留用于实时用户推理的 API。这种混合方法既能控制成本,又能保持交互式使用的低延迟。
为了进一步降低规模化成本,Novita 提供低成本的 API 定价以及折扣后的提示缓存读取服务。当提示被重复使用时(例如,系统指令、模板或重复的上下文),缓存的令牌会以较低的频率提供服务,而不是重新计算——从而降低延迟和成本。这使得 API 优先 + 批处理架构更加高效,尤其适用于代理工作流和高频查询。
策略二:自托管量化
对于有隐私要求或高容量持续工作负载的团队,部署 Q3_K_M 动态 3 位或 Q4_K_M 量化 2×H100. 使用 llama.cpp 处理 GGUF 格式或 vLLM 采用 AWQ 实现生产级吞吐量优化。
如何通过云端访问 MiniMax M2.5 GPU?
第一步:注册一个账户
建立你的 Novita AI 通过我们的网站注册账户。注册后,请前往左侧边栏的“探索”部分查看我们的 GPU 供品 开启您的人工智能开发之旅。

第三步: 探索模板和 GPU 服务器
从 PyTorch、TensorFlow 或 CUDA 等模板中选择符合您项目需求的模板。然后选择您喜欢的 GPU 配置选项包括强大的 GPU它们的显存、内存和存储规格各不相同。

步骤三:定制您的部署方案
通过选择您喜欢的操作系统和配置选项来定制您的环境,以确保满足您的特定 AI 工作负载和开发需求的最佳性能。

MiniMax M2.5 的 229 位 MoE 架构可实现前沿的编码性能,但 2 位量化至少需要 96GB 显存,而生产级 3-4 位部署则需要 128-160GB 显存。对于大多数开发者而言,API 部署方案(每百万代币 0.30 美元/1.20 美元)在每月 5000 万代币以内提供了最佳的性价比和易用性平衡。
常見問題解答
不,即使在最激进的 UD-IQ2_XXS 2 位量化设置下,MiniMax M2.5 也至少需要 74GB 显存。而一块 RTX 4090 只有 24GB 显存。你至少需要 3-4 块消费级显卡。 GPUs 或 2×H100。
Q4_K_M (138GB) 或动态 3 位 Q3_K_M (109GB) 能达到最佳平衡。生产环境应避免使用 Q2_K (83GB)——Reddit 用户反映,尽管上下文容量更高,但代码质量明显下降。
按照 Novita 每百万代币 0.30 美元/1.20 美元的价格计算,每天处理 100 万代币的成本约为 $ 45 /月 通过 API。
Novita AI 是一个人工智能和代理云平台,帮助开发者和初创公司构建、部署和扩展高性能、高可靠性和高性价比的模型和代理应用程序。
推荐阅读
探索 Novita 的更多内容
订阅即可将最新帖子发送到您的电子邮箱。









