VRAM ERNIE: локальный запуск требует много, Novita AI

Содержание

Семейство моделей ERNIE
Итак, сколько VRAM нужно ERNIE?
Недостатки высоких требований к VRAM и практические советы
Novita AI: доступ к ERNIE с 0 требуемой VRAM
Часто задаваемые вопросы

ERNIE 4.5 300B A47B Base официально запущена на платформе Novita AI, предоставляя пользователям доступ к модели, которая превосходит DeepSeek V3 671B по 22 из 28 тестов. Даже по сравнению с ведущими приложениями, такими как DeepSeek R1, ERNIE 4.5 демонстрирует выдающуюся производительность. И что ещё более важно, цены очень конкурентоспособны!

Название модели	Длина контекста	Цена ввода	Цена вывода
ERNIE 4.5 VL 28B A3B	30 тыс.	Бесплатно	Бесплатно
ERNIE 4.5 VL 424B A47B	123 тыс.	$0.42 / 1M токенов	$1.25 / 1M токенов
ERNIE 4.5 0.3B	120 тыс.	Бесплатно	Бесплатно
ERNIE 4.5 21B A3B	120 тыс.	Бесплатно	Бесплатно
ERNIE 4.5 300B A47B Paddle	123 тыс.	$0.30 / 1M токенов	$1.00 / 1M токенов
DeepSeek R1 0528	163 тыс.	$0.70 / 1M токенов	$2.50 / 1M токенов
DeepSeek V3 0324	163 тыс.	$0.28 / 1M токенов	$1.14 / 1M токенов

Но означает ли это снижение цены, что требования к оборудованию — особенно к VRAM — тоже снизились? Или для работы такой мощной модели по-прежнему требуются значительные ресурсы? В следующих разделах мы подробно разберём, сколько VRAM необходимо для локального запуска ERNIE 4.5.

Семейство моделей ERNIE

Название модели	Базовые параметры	Активные параметры	Тип модели	Модальность	Тип обучения
ERNIE 4.5 VL 424B A47B	424B	47B	MoE	Текст и зрение	PT
ERNIE 4.5 VL 424B A47B Base	424B	47B	MoE	Текст и зрение	Base
ERNIE 4.5 VL 28B A3B	28B	3B	MoE	Текст и зрение	PT
ERNIE 4.5 VL 28B A3B Base	28B	3B	MoE	Текст и зрение	Base
ERNIE 4.5 300B A47B	300B	47B	MoE	Текст	PT
ERNIE 4.5 300B A47B Base	300B	47B	MoE	Текст	Base
ERNIE 4.5 21B A3B	21B	3B	MoE	Текст	PT
ERNIE 4.5 21B A3B Base	21B	3B	MoE	Текст	Base
ERNIE 4.5 0.3B	0.3B	-	Dense	Текст	PT
ERNIE 4.5 0.3B Base	0.3B	-	Dense	Текст	Base

Инновации семейства ERNIE

Отличная производительность семейства ERNIE

Производительность предварительно обученных моделей ERNIE 4.5

Общие задачи: ERNIE 4.5 21B A3B Base и 300B A7B Base превосходят других в некоторых тестах C-Eval, CMMU и др. Qwen3 30B A3B Base силён в других.
Рассуждение: Qwen3 30B A3B Base лидирует в серии ARC; ERNIE 4.5 21B A3B Base хорош в BBH, Drop.
Математика: ERNIE 4.5 21B A3B Base и 300B A7B Base превосходны в частях, таких как GSM8K, CMATH; Qwen3 30B A3B Base также имеет сильные стороны.
Знания: ERNIE 4.5 21B A3B Base хорошо справляется с SimpleQA, ChineseSimpleQA.
Кодинг: ERNIE 4.5 21B A3B Base и 300B A7B Base конкурентоспособны в HumanEval+, MultiPLE.

Производительность пост-обученных мультимодальных моделей в режиме без рассуждения

Qwen2.5

Сильные стороны: Превосходит в базовом визуальном вопрос-ответе, некоторых мультимодальных рассуждениях и лёгких видео-задачах. Сильна в MMBench cn/en.
Слабые стороны: Затрудняется со сложными задачами по документам/диаграммам, глубокими мультимодальными рассуждениями и детальным визуальным восприятием. Менее способна в понимании видео на основе субтитров.

ERNIE 4.5

Сильные стороны: Доминирует в сложных задачах с документами/диаграммами, глубоких мультимодальных рассуждениях, точном визуальном восприятии и понимании видео с субтитрами. В целом сильна в мультимодальной сложности.
Слабые стороны: Менее конкурентоспособна в базовых визуальных вопрос-ответах и простых видео-задачах.

Итак, сколько VRAM нужно ERNIE?

🚀 Точность FP16

Модель	Параметры (активные)	Требуется VRAM	Идеальный GPU
ERNIE 4.5 VL 424B	424B (47B активных)	~945 ГБ	NVIDIA H100 (80GB) × 12
ERNIE 4.5 300B	300B (47B активных)	~668 ГБ	NVIDIA H100 (80GB) × 9
ERNIE 4.5 VL 28B	28B (3B активных)	~64 ГБ	NVIDIA A100/H100 (80GB)
ERNIE 4.5 21B	21B (3B активных)	~48 ГБ	NVIDIA RTX 6000 Ada (48GB)
ERNIE 4.5 0.3B	300M	~2.5 ГБ	NVIDIA RTX 4060 (8GB) / RTX 3060 (12GB)
Gemma 3 27B	27B	~65.2 ГБ	NVIDIA A100/H100 (80GB)

⚡ Точность INT4

Модель	Параметры (активные)	Требуется VRAM	Идеальный GPU
ERNIE 4.5 VL 424B	424B (47B активных)	~237 ГБ	NVIDIA H100 (80GB) × 3
ERNIE 4.5 300B	300B (47B активных)	~168 ГБ	NVIDIA H100 (80GB) × 3
ERNIE 4.5 VL 28B	28B (3B активных)	~17 ГБ	NVIDIA RTX 4090 (24GB) / A10G (24GB)
ERNIE 4.5 21B	21B (3B активных)	~13 ГБ	NVIDIA RTX 4080 (16GB) / A10G (24GB)
ERNIE 4.5 0.3B	300M	~1.8 ГБ	Большинство GPU с >4GB VRAM
Gemma 3 27B	27B	~14.1 ГБ	Любой высокопроизводительный GPU с ≥16GB VRAM

Недостатки высоких требований к VRAM и практические советы

Высокие требования к VRAM создают несколько проблем для пользователей. Во-первых, стоимость оборудования может резко возрасти — топовые GPU, такие как NVIDIA H100, дороги и часто требуют кластеров из нескольких GPU для запуска самых больших моделей, что делает их недоступными для частных лиц или небольших организаций. Во-вторых, потребление энергии и тепловыделение увеличиваются с добавлением GPU, что ведёт к росту эксплуатационных расходов и более сложным решениям для охлаждения. В-третьих, такие конфигурации могут быть сложны в обслуживании, требуя технических знаний в области оборудования, распределённых вычислений и настройки программного обеспечения.

Эти трудности также могут ограничивать доступность: многие исследователи, разработчики и энтузиасты просто не имеют доступа к необходимой инфраструктуре, что может замедлить инновации и эксперименты.

Советы по преодолению высоких требований к VRAM:

Используйте квантованные модели: Выбирайте INT4 или другие сжатые/квантованные версии, чтобы значительно снизить потребности в VRAM, часто с минимальным влиянием на производительность для многих задач.
Облачные решения: Рассмотрите возможность использования облачных платформ, позволяющих арендовать высокопроизводительные GPU только при необходимости, вместо покупки дорогого оборудования.
Выгрузка и потоковая передача модели: Используйте инструменты или платформы, поддерживающие выгрузку, разделение или потоковую передачу модели, чтобы все данные не находились в VRAM GPU одновременно.

Novita AI: доступ к ERNIE с 0 требуемой VRAM

Начать работу с ERNIE 4.5 на Novita AI легко и без риска.

Новые пользователи получают $10 в бесплатных кредитах — достаточно, чтобы изучить ERNIE 4.5 без первоначальных затрат.

Попробуйте Novita AI сегодня!

Используйте Playground (без программирования)

Мгновенный доступ: Зарегистрируйтесь, получите бесплатные кредиты и начинайте экспериментировать с ERNIE 4.5 и другими топ-моделями за секунды.
Интерактивный интерфейс: Тестируйте промпты, цепочки рассуждений и визуализируйте результаты в реальном времени.
Сравнение моделей: Легко переключайтесь между ERNIE 4.5, Qwen 3, Llama 4, DeepSeek и другими, чтобы найти идеальное решение для ваших задач.

Интеграция через API (для разработчиков)

Легко подключайте ERNIE 4.5 к приложениям, рабочим процессам или чат-ботам с помощью унифицированного REST API Novita AI. Никакого управления весами модели или инфраструктурными проблемами — Novita AI предоставляет многозычные SDK и расширенные параметры управления.

1.Прямая интеграция API (пример на Python)

curl "https://api.novita.ai/v3/openai/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer " \
  -d @- << 'EOF'
{
    "model": "baidu/ernie-4.5-300b-a47b-paddle",
    "messages": [
        {
            "role": "system",
            "content": Be a helpful assistant
        },
        {
            "role": "user",
            "content": "Hi there!"
        }
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # or False
max_tokens = 6000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
      "response_format": { "type": "text" },
    "max_tokens": 32768,
    "temperature": 1,
    "top_p": 1,
    "min_p": 0,
    "top_k": 50,
    "presence_penalty": 0,
    "frequency_penalty": 0,
    "repetition_penalty": 1
}
EOF

2. Многоагентные рабочие процессы с OpenAI Agents SDK

Создавайте продвинутые многоагентные системы, интегрируя Novita AI с OpenAI Agents SDK:

Подключи и работай: Используйте ERNIE 4.5 от Novita AI в любом рабочем процессе OpenAI Agents
Поддержка передачи, маршрутизации и использования инструментов: Создавайте агентов, которые могут делегировать, сортировать или выполнять функции, используя возможности ERNIE 4.5
Интеграция с Python: Просто укажите SDK конечную точку Novita (https://api.novita.ai/v3/openai) и используйте свой API-ключ

Подключение API ERNIE 4.5 на сторонних платформах

Hugging Face: Используйте ERNIE 4.5 в Spaces, пайплайнах или с библиотекой Transformers через конечные точки Novita AI.
Фреймворки агентов и оркестрации: Легко подключайте Novita AI к партнёрским платформам, таким как Continue, AnythingLLM, LangChain, Dify и Langflow через официальные коннекторы и пошаговые руководства по интеграции.
OpenAI-совместимый API: Наслаждайтесь лёгкой миграцией и интеграцией с такими инструментами, как Cline и Cursor, разработанными для стандарта API OpenAI.

Хотя запуск ERNIE 4.5 на собственном оборудовании потребовал бы очень мощных (и дорогих) GPU, Novita AI позволяет использовать эти большие модели легко, без необходимости в VRAM на вашей стороне. Это делает продвинутый ИИ доступным для всех, от новичков до разработчиков.

Часто задаваемые вопросы

Действительно ли ERNIE 4.5 лучше других больших ИИ-моделей?

Да, ERNIE 4.5 набирает больше баллов, чем DeepSeek V3 671B в большинстве тестов и очень конкурентоспособна с другими топ-моделями.

Можно ли использовать ERNIE 4.5 для задач программирования и математики?

Да, модели ERNIE 4.5 показывают хорошие результаты в бенчмарках по программированию (например, HumanEval+) и математике (например, GSM8K, CMATH).

Сколько VRAM мне нужно для запуска ERNIE 4.5?

Запуск самых больших версий ERNIE 4.5 (например, 424B или 300B) требует очень большого объёма VRAM — сотни гигабайт и несколько высокопроизводительных GPU. Меньшие или квантованные версии требуют значительно меньше VRAM.

Novita AI — это облачная платформа «всё в одном», которая расширяет ваши возможности в области ИИ. Интегрированные API, бессерверные решения, GPU-инстансы — экономически эффективные инструменты, которые вам нужны. Избавьтесь от инфраструктуры, начните бесплатно и воплотите своё ИИ-видение в реальность.

VRAM ERNIE: локальный запуск требует много, Novita AI — ноль