Руководство по доступу к MiniMax M2.5: Веб, API, CLI, самостоятельный хостинг 2026

Руководство по доступу к MiniMax M2.5: Веб, API, CLI, самостоятельный хостинг 2026

MiniMax M2.5 — это разреженная модель смеси экспертов с 229 миллиардами параметров, которая обеспечивает эффективный вывод несмотря на свой масштаб. Разработанная китайской компанией MiniMax, она входит в число лучших открытых моделей для автономного программирования и задач веб-навигации, достигая 80,2% на SWE-Bench Verified и 76,3% на BrowseComp.

Novita предлагает ускоренную версию модели, которая сохраняет высокую производительность предыдущей версии при значительном увеличении скорости.

Попробуйте MiniMax M2.5 Highspeed сейчас!

Сравнение методов доступа

Метод Время настройки Стоимость (1M токенов/день) Лучше всего подходит для
Веб-плейграунд 0 минут Бесплатно (с ограничением скорости) Первая оценка, разовые задачи
Novita AI API 2 минуты Ввод: $0,3 /Мт
Чтение из кэша: $0,03 /Мт
Вывод: $1,2 /Мт
Продакшн-приложения, средний объем, быстрое прототипирование
NovitaClaw 5 минут Ввод: $0,3 /Мт
Чтение из кэша: $0,03 /Мт
Вывод: $1,2 /Мт
Автоматизация терминала, DevOps-процессы
Claude Code 5 минут Ввод: $0,3 /Мт
Чтение из кэша: $0,03 /Мт
Вывод: $1,2 /Мт
Изучение кодовой базы, интеграция с IDE
Локальный (Q4_K_M) 30–60 минут Единоразовые инвестиции: $60 000–$90 000 Высоконагруженный продакшн, требования к конфиденциальности данных
Облачный GPU 5 минут 8x GPU $11,60/час Краткосрочные эксперименты, пиковые нагрузки, тестирование больших моделей

1. Веб-плейграунд

Самый быстрый способ начать работу без барьеров — веб-плейграунд Novita AI: нет необходимости в регистрации, ключах API, оценка возможностей происходит мгновенно. Это лучше всего подходит для быстрого тестирования возможностей модели перед переходом к интеграции через API или локальному развертыванию.

Типичные сценарии использования: Инжиниринг промптов, оценка качества, тестирование задач программирования, сравнение выходных данных с другими моделями параллельно. Веб-плейграунд идеально подходит для первичной оценки и разовых задач — не требуется никакой технической настройки.

прямой доступ к minimax m2.5

Попробуйте MiniMax M2.5 сейчас!

2. Novita AI API (рекомендуется для большинства разработчиков)

Почему стоит выбрать Novita AI API?

  • Совместим с OpenAI и Anthropic
  • Конкурентные тарифы: $0,30/$1,20 за 1 миллион токенов.
  • Поддержка тарифов за кэш: Тарификация за кэш позволяет повторно использовать ранее сохраненные промпты, что помогает сократить повторные вычисления и снизить общие затраты.

Руководство по настройке

Шаг 1: Войдите в аккаунт и перейдите в библиотеку моделей

Войдите в свой аккаунт и нажмите кнопку Библиотека моделей.

Вход в аккаунт и переход в библиотеку моделей

Шаг 2: Выберите нужную модель

Просмотрите доступные варианты и выберите модель, которая подходит для ваших задач.

Выбор модели

Шаг 3: Начните бесплатный пробный период

Начните бесплатный пробный период, чтобы изучить возможности выбранной модели.

Novita AI предоставляет совместимые с OpenAI эндпоинты для MiniMax M2.5

Попробуйте доступный MiniMax M2.5 сейчас!

Шаг 4: Получите ваш API-ключ

Для аутентификации через API мы предоставим вам новый API-ключ. Перейдя на страницу «Настройки», вы можете скопировать API-ключ, как показано на изображении.

получение API-ключа

Шаг 5: Установите API

Установите API с помощью менеджера пакетов, соответствующего вашему языку программирования.

После установки импортируйте необходимые библиотеки в вашу среду разработки. Инициализируйте API с вашим API-ключом, чтобы начать взаимодействие с Novita AI LLM. Ниже приведен пример использования API завершения чата для пользователей Python.

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="minimax/minimax-m2.5",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=131100,
    temperature=0.7
)

print(response.choices[0].message.content)

3. Доступ через инструменты для работы с кодом

NovitaClaw

NovitaClaw — это инструмент командной строки для развертывания и управления постоянными агентами OpenClaw в песочнице Novita Agent. Одной командой вы можете запустить полностью размещенный экземпляр агента, который работает непрерывно — нет ограничений по сессиям или необходимости в ручных перезапусках. После развертывания к агенту можно получить доступ и управлять им через несколько интерфейсов, включая CLI, веб-интерфейс или внешние скрипты автоматизации.

Начало работы

Требования

Перед началом работы убедитесь, что у вас есть:

Шаг 1: Установите NovitaClaw

macOS / Linux:

sudo pip3 install novitaclaw

Windows PowerShell:

pip install novitaclaw

Проверка: выполните команду novitaclaw --help. Если вы видите список команд, установка прошла успешно.

Шаг 2: Укажите ваш API-ключ

macOS / Linux:

export NOVITA_API_KEY=sk_your_api_key

Windows PowerShell:

$env:NOVITA_API_KEY = "sk_your_api_key"

Шаг 3: Запустите ваш экземпляр

novitaclaw launch

При успешном выполнении CLI вернет:

  • URL веб-интерфейса — Для общения с вашим агентом
  • URL и токен WebSocket-шлюза — Для программного доступа
  • URL веб-терминала — Доступ к терминалу через браузер
  • URL файлового менеджера — Для управления файлами рабочей области
  • Учетные данные для входа — Для веб-терминала и файлового менеджера

Откройте URL веб-интерфейса, перейдите на вкладку Чат и начните использовать вашего агента.

Настройка моделей

Ваш экземпляр по умолчанию предварительно настроен с моделью, размещенной на Novita. Для настройки: Перейдите по пути:
Настройки → Конфигурация → Исходный вид (JSON5)

Нажмите «секреты скрыты», чтобы отобразить полную конфигурацию.

Шаг 1: Зарегистрируйте модель

Добавьте новую запись в раздел models.providers.novita.models:

{
  "models": {
    "providers": {
      "novita": {
        "models": [
          {
            "id": "model-id",
            "name": "display name",
            "reasoning": true,
            "input": ["text"],
            "contextWindow": 200000,
            "maxTokens": 50000
          }
        ]
      }
    }
  }
}
Шаг 2: Установите как основную или резервную

Обновите agents.defaults:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "novita/model-id",
        "fallbacks": ["novita/fallback-model-id"]
      }
    }
  }
}

Claude Code

Claude Code — это официальный CLI-агент Anthropic, изначально разработанный для моделей Claude, но совместимый с эндпоинтами, поддерживающими API Anthropic, такими как Novita AI. Он отлично справляется с анализом всего репозитория, сложной отладкой и циклами автономного программирования.

Настройка:

1. Установите Claude Code:

#macOS, Linux, WSL:
curl -fsSL https://claude.ai/install.sh | bash

#Windows PowerShell:
irm https://claude.ai/install.ps1 | iex

#Windows CMD:
curl -fsSL https://claude.ai/install.cmd -o install.cmd && install.cmd && del install.cmd
#Windows требует Git for Windows. Установите его сначала, если у вас его нет.

2. Укажите переменные окружения:

# Укажите совместимый с SDK Anthropic эндпоинт API от Novita.
export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Novita API Key>"
# Укажите модель от Novita.
export ANTHROPIC_MODEL="minimax/minimax-m2.5"
export ANTHROPIC_SMALL_FAST_MODEL="minimax/minimax-m2.5"

3. Запустите Claude Code в вашем проекте:

cd /path/to/project
claude .

Лучше всего подходит для: Изучения кодовой базы, многоэтапной отладки, автономной реализации функций, интеграции с VSCode/Cursor через плагины терминала.

4. Локальное развертывание

Разреженная архитектура смеси экспертов MiniMax M2.5 (всего 229B, 10B активных) делает локальное развертывание возможным на высококлассном потребительском оборудовании или многопроцессорных конфигурациях с несколькими GPU. Полная модель требует 457 ГБ при полной точности BF16, но квантование через GGUF-квантования Unsloth сокращает этот объем до 101 ГБ (динамическое 3-битное) или 138 ГБ (Q4_K_M).

Требования к оборудованию

Квантование Требуемый объем VRAM Пример оборудования
BF16 (полная точность) 457GB 6× H100 80GB
Q8_0 243GB 4× H100 80GB
Q6_K 188GB 3× H100 80GB
Q4_K_M (рекомендуется) 138GB 2× H100 80GB
Q3_K_M 109GB 2× H100 80GB
UD-IQ2_XXS (минимум) 74GB Один H100 80GB

Установка (llama.cpp)

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

cmake -B build -DCMAKE_BUILD_TYPE=Release
cmake --build build -j"$(nproc)"

# Установите HF CLI при необходимости
pip install -U "huggingface_hub[cli]"

# Скачайте нужный вариант квантования (пример: Q3_K_M)
hf download unsloth/MiniMax-M2.5-GGUF \
  --include "Q3_K_M/*" \
  --local-dir ./models

# Проверьте файлы
find ./models -name "*.gguf"

# Запустите (используйте ПЕРВЫЙ шард)
./build/bin/llama-cli \
  -m ./models/Q3_K_M/MiniMax-M2.5-Q3_K_M-00001-of-00004.gguf \
  -p "Write a Python function to check if a number is prime"

Установка на облачном GPU (с оптимизацией затрат)

Шаг 1: Зарегистрируйте аккаунт

Создайте аккаунт Novita AI на нашем сайте. После регистрации перейдите в раздел «Обзор» в левом боковом меню, чтобы посмотреть наши предложения по GPU и начать путь в разработке ИИ.

Скриншот сайта Novita AI

Шаг 2: Изучение шаблонов и GPU-серверов

Выбирайте из шаблонов, таких как PyTorch, TensorFlow или CUDA, которые соответствуют потребностям вашего проекта. Затем выберите предпочитаемую конфигурацию GPU — доступны варианты с мощными L40S, RTX 4090 или A100 SXM4, каждый с разными характеристиками по объему VRAM, оперативной памяти и хранилища.

Изучение шаблонов и GPU-серверов

Шаг 3: Настройте развертывание под ваши нужды

Настройте окружение, выбрав предпочитаемую операционную систему и параметры конфигурации, чтобы обеспечить оптимальную производительность для ваших конкретных рабочих нагрузок ИИ и потребностей в разработке.

Настройка развертывания под ваши нужды

Спецификация Модель тарификации GPU Цена
H100 80 GB VRAM По требованию 1x GPU $1,45/час
8x GPU $11,60/час
Spot 1x GPU $0,73/час
8x GPU $5,84/час

Попробуйте экономичные GPU!

Spot-инстансы Novita AI — это оптимизированная по стоимости система аренды GPU, которая использует простаивающие или неиспользуемые мощности GPU платформы. В отличие от инстансов по требованию, которые резервируют выделенное оборудование для стабильной непрерывной работы, Spot-инстансы являются прерываемыми — ваша задача может быть приостановлена или завершена, если GPU будет возвращен в пул платформы. Поскольку режим Spot перераспределяет в противном случае простаивающие ресурсы GPU, он обычно на 40–60% дешевле тарифов по требованию.

MiniMax M2.5 предлагает четыре практических способа доступа, каждый оптимизирован для разных сценариев. Для большинства разработчиков API Novita AI по тарифу $0,30/$1,20 за миллион токенов обеспечивает самый быстрый путь к продакшену — настройка занимает 2 минуты благодаря совместимости с SDK OpenAI. Веб-плейграунд подходит для первичной оценки, а CLI OpenClaw и Claude Code обеспечивают рабочие процессы с агентами, интегрированные в терминал, для опытных пользователей. Самостоятельный хостинг имеет экономический смысл только при объеме выше 10 миллионов токенов в день или при строгих требованиях к конфиденциальности данных, запрещающих использование облачных API — в этом случае квантование Q4_K_M на 2× H100 80GB обеспечивает производительность, готовую к использованию в продакшене.

Часто задаваемые вопросы

Что отличает MiniMax M2.5 от других моделей для программирования?

MiniMax M2.5 использует разреженную архитектуру MoE с 229 миллиардами общих параметров, но только 10 миллиардов активных на каждый токен, достигая 80,2% на SWE-Bench Verified при стоимости всего 8% от стоимости Claude Sonnet 4.5.

Можно ли запустить MiniMax M2.5 на одном потребительском GPU?

Нет — минимальное требование к объему VRAM составляет 74 ГБ даже при агрессивном квантовании.

Поддерживает ли MiniMax M2.5 вызов функций и структурированные выходные данные?

Да — MiniMax M2.5 поддерживает вызов функций через формат API, совместимый с OpenAI.

Novita AI — это облачная платформа для ИИ и агентов, которая помогает разработчикам и стартапам создавать, развертывать и масштабировать модели и агентные приложения с высокой производительностью, надежностью и эффективностью затрат.

Рекомендуемые материалы