如何访问 MiniMax M1

如何访问 MiniMax M1

MiniMax M1 代表了 AI 语言模型技术的重大飞跃,引入了强大的长上下文推理能力和灵活的部署选项。本综合指南将带你了解如何访问和实现 MiniMax M1,为增强 AI 驱动项目提供所需工具。

关键亮点

MiniMax M1:456B 参数 MoE 模型,1M 上下文。

通过 API 使用 MiniMax M1
简单,兼容 OpenAI 的 API。
可自定义参数,提供免费试用。

本地使用 MiniMax M1
分步安装指南。

在第三方平台上连接 MiniMax M1
通过 Hugging Face Spaces、智能体框架和兼容 OpenAI 的 API 无缝集成 MiniMax M1,实现高效的开发工作流程。

限时活动:新用户可领取 $10 免费额度,在 Novita AI 上探索并构建 LLM 应用。

MiniMax M1 是什么?

MiniMax M1 是世界上首个开源的大规模混合专家推理模型。它结合了专家混合(MoE)架构与创新的 Lightning Attention 机制,专为超长上下文推理和复杂任务而设计。MiniMax 支持 函数调用,其处理高达 100 万 token 上下文 的能力使其成为研究、软件开发、数学推理等要求苛刻的应用程序的理想选择。

基本信息 详情
发布日期 2025 年 6 月
模型规模 456B 参数(45.9B 活跃)
架构 混合专家混合(MoE)与 Lightning Attention
上下文长度 1M token
训练 基于多样化问题集的大规模强化学习
特色功能 测试时计算的高效扩展,用于强化学习的混合注意力

benchmark of MiniMax M1

Minimax M1 benchmarks

Minimax M1

高效长上下文处理:

  • 支持长上下文窗口,能够一次性处理极长文档、技术代码库和多轮对话。
  • 采用混合专家混合(MoE)架构与 Lightning Attention,实现高效推理,计算成本约为同等密集模型的 25%。
  • 非常适合需要深入上下文理解的企业级大规模知识库、研究论文和智能体工作流。

经济高效的部署:

  • 提供具有竞争力的 API 定价:每百万输入 token 0.55 美元,每百万输出 token 2.2 美元。

开源且对研究友好:

  • 完全开源权重的模型,鼓励社区微调和集成,支持法律、医学和科学研究等领域的特定领域定制。
  • 支持函数调用和智能体 AI 工具使用,实现复杂工作流和多步推理。

通过 API 使用 MiniMax M1

Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷方式,并提供经济可靠的 GPU 云用于构建和扩展。

第 1 步:登录并访问模型库

登录你的账户,点击 模型库 按钮。

Log In and Access the Model Library

立即尝试 MiniMax M1 演示!

第 2 步:选择模型

浏览可用选项,选择适合你需求的模型。

Choose Your Model

第 3 步:开始免费试用

开始免费试用,探索所选模型的功能。

MiniMax M1 playground

第 4 步:获取 API 密钥

为了通过 API 进行身份验证,我们将为你提供一个新的 API 密钥。进入“设置”页面,可以复制 API 密钥,如图所示。

get api key

第 5 步:安装 API

使用特定于编程语言的包管理器安装 API。

install api

安装后,将所需库导入到开发环境中。使用你的 API 密钥初始化 API,开始与 Novita AI LLM 交互。以下是适用于 Python 用户的聊天补全 API 示例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "minimaxai/minimax-m1-80k"
stream = True # or False
max_tokens = 20000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

本地运行 MiniMax M1

分步安装指南

# Step 1: Install Python and Create a Virtual Environment
# Make sure Python 3.8+ is installed, then create and activate a virtual environment.
python3 -m venv minimax_env
source minimax_env/bin/activate  # On Windows, use `minimax_env\Scripts\activate`

# Step 2: Install Required Libraries
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118  # GPU optimized PyTorch
pip install vllm huggingface-hub  # vLLM for serving MiniMax M1, and Hugging Face utilities

# Step 3: (Optional) Login to Hugging Face if you want to pull models later
pip install huggingface-cli
huggingface-cli login  # Follow prompts to authenticate

# Step 4: Download MiniMax M1 Model (if not already done)
# Replace <model-name> with actual MiniMax M1 repo name on Hugging Face
huggingface-cli download MiniMaxAI/MiniMax-M1-80k --local-dir ./minimax-m1

# Step 5: Set Environment Variable for Fast Loading (Linux/macOS)
export SAFETENSORS_FAST_GPU=1

# Step 6: Launch MiniMax M1 API Server with vLLM
# Adjust --tensor-parallel-size according to your GPU count
python3 -m vllm.entrypoints.api_server \
  --model ./minimax-m1 \
  --tensor-parallel-size 8 \
  --trust-remote-code \
  --max_model_len 8192 \
  --dtype bfloat16

# Step 7: Test Inference with curl (in a new terminal)
curl -X POST http://localhost:8000/generate \
  -H "Content-Type: application/json" \
  -d '{"prompt": "Explain quantum computing in simple terms.", "max_tokens": 100}'

# Step 8: (Optional) Python inference example
python3 -c "
import requests
response = requests.post('http://localhost:8000/generate', json={
    'prompt': 'Explain quantum computing in simple terms.',
    'max_tokens': 100
})
print(response.json())
"

GPU 内存需求:

  • 最低: 640GB VRAM
  • 推荐: 1,128GB VRAM(8 x H200 SXM 141GB 配置)以获得最佳性能

在第三方平台上连接 MiniMax M1

  • Hugging Face:通过 Novita AI 端点在 Spaces、管道或 Transformers 库中使用 MiniMax M1

MiniMax M1 on Huggingface

  • 智能体与编排框架: 通过官方连接器和分步集成指南,轻松将 Novita AI 与合作伙伴平台(如 ContinueAnythingLLMLangChainDifyLangflow)连接。
  • 兼容 OpenAI 的 API: 享受与 ClineCursor 等工具的无缝迁移和集成,这些工具专为 OpenAI API 标准设计。

Novita AI 已与超过 20 个平台集成,详细教程可在文档中找到。

Novita AI Integrates with 20+ Platforms

MiniMax M1 是一款开创性的大规模混合注意力推理模型,在处理超长上下文长度和复杂推理任务方面表现出色。它采用混合专家混合(MoE)架构与 Lightning Attention 机制,实现了高效且可扩展的推理。你可以通过 API 使用 MiniMax M1,或在第三方平台上进行连接。

限时活动:新用户可领取 $10 免费额度,在 Novita AI 上探索并构建 LLM 应用。

常见问题

如何免费使用 MiniMax AI?

你可以在 Novita AI 上免费尝试 MiniMax AI 演示。新用户可领取 $10 免费额度,在 Novita AI 上探索并构建 LLM 应用。

本地运行 MiniMax M1 需要什么硬件?

最低: 640GB VRAM
推荐: 1,128GB VRAM(8 x H200 SXM 141GB 配置)以获得最佳性能

MiniMax M1 是开源的吗?

是的,MiniMax M1 完全开源,可在 Hugging Face 等平台获取。

关于 Novita AI

Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷方式,并提供经济可靠的 GPU 云用于构建和扩展。