Как получить доступ к ERNIE-4.5-VL-A3B для рабочих процессов с инструментальной аугментацией

Как получить доступ к ERNIE-4.5-VL-A3B для рабочих процессов с инструментальной аугментацией

Novita AI запускает кампанию «Месяц разработки», предлагая разработчикам эксклюзивную скидку до 20% на все основные продукты!

Участвовать в «Месяце разработки»!

Современные разработчики всё чаще сталкиваются с трудностями при интеграции визуальных входных данных, таких как схемы, скриншоты и технические документы, в рабочие процессы разработки кода, при этом сохраняя низкую задержку и контролируемые затраты. Традиционные VLM (модели визуально-языкового моделирования) либо слишком медленные для использования в циклах работы инструментов, либо слишком слабые в структурированном рассуждении, чтобы направлять реальные инженерные решения.

В этой статье объясняется, как ERNIE-4.5-VL-28B-A3B-Thinking решает эту проблему, сочетая высокие результаты в бенчмарках визуально-языкового рассуждения с архитектурой A3B, которая обеспечивает быстрый повторяемый вывод, а также демонстрируется, как эти свойства делают модель подходящей для рабочих процессов разработки кода с инструментальной аугментацией.

Архитектура ERNIE-4.5-VL-28B-A3B

Активируя только 3 миллиарда параметров на токен из пула из 28 миллиардов плотных параметров, модель достигает флагманского уровня интеллекта при затратах на вывод, характерных для периферийных устройств.

Буквы «A3B» в названии модели означают Active 3B (активные 3 миллиарда параметров), что указывает на архитектуру смеси экспертов (MoE), разработанную для экстремальной эффективности.

  • Общее количество параметров: 28–30 миллиардов (разреженная MoE)
  • Активные параметры: 3 миллиарда (на вывод одного токена)
  • Контекстное окно: 128 000 токенов
  • Ключевые улучшения:
    • Рассуждение с изображениями: В отличие от стандартных VLM, которые обрабатывают изображения как статические токены, эта модель может итеративно «увеличивать» и «искать» внутри изображения для разрешения детализированных данных.
    • GSPO и IcePop RL: Использует продвинутое обучение с подкреплением (Group-based Self-Play Optimization, оптимизация на основе группового самоигры) для стабилизации обучения MoE, обеспечивая правильную маршрутизацию экспертов для сложной логики.

Случай 1: Рассуждение ERNIE-4.5-VL-28B-A3B с изображениями

Какой текст на синем знаке на стене рядом с тротуаром?

Способность ERNIE-4.5-VL-28B-A3B к рассуждению с изображениями

Из: Baidu

Случай: Решение мостовой схемы для расчёта эквивалентного сопротивления

В этом примере модели представлена нетривиальная мостовая схема, и её просят рассчитать эквивалентное сопротивление между узлами A и B.

Способность ERNIE-4.5-VL-28B-A3B к рассуждению с изображениями

Из: [Baidu](https://yiyan.baidu.com/blog/posts/ernie 4.5-vl-28b-a3b-thinking/)

Почему ERNIE-4.5-VL-28B-A3B-Thinking может улучшить рабочие процессы разработки кода с инструментальной аугментацией

Результаты бенчмарков показывают стабильно высокие показатели в рассуждении по STEM, понимании документов и визуальной привязке, что напрямую соответствует самым сложным когнитивным шагам в реальных рабочих процессах разработки кода.

В бенчмарках по пониманию документов и структурированному рассуждению ERNIE-4.5-VL-A3B часто достигает или превышает 95-й перцентиль Gemini-2.5-Pro и GPT-5-High, несмотря на активацию значительно меньшего количества параметров на токен.

Бенчмарк ERNIE-4.5-VL-A3B Gemini-2.5-Pro GPT-5-High Что это значит для разработчиков
MathVista 82.5 82.7 81.3 Надёжное многошаговое символическое рассуждение
MathVerse 81.0 82.9 84.1 Сильная абстракция при ограничениях
MMMU 72.2 81.7 84.2 Мультимодальная декомпозиция задач
ChartQA 87.1 78.3 78.2 Извлечение структурированных данных
DocVQA (валидация) 93.6 91.2 94.2 Точная привязка к документам
OCRBench 85.8 86.4 81.0 Надёжное распознавание текста с визуальных носителей
CharXiv-DQ 90.3 91.2 93.5 Долгосрочное техническое рассуждение
CV-Bench 83.8 84.8 85.0 Согласованность визуальной логики
Среднее (все) 73.1 75.4 76.6 Компактная модель с рассуждением на уровне флагманов

Несмотря на то, что у модели 28 миллиардов параметров, активируется только 3 миллиарда на токен, что обеспечивает быстрое рассуждение с низкой задержкой, подходящее для повторяющихся вызовов внутри циклов работы инструментов.

Ключевые характеристики для пользователей:

  • Активные параметры: 3 млрд на токен
  • Эффективная задержка: Сопоставима с моделями малого и среднего размера
  • Длина контекста: До 128 000 токенов, поддерживает рассуждение на уровне системы

Архитектура A3B обеспечивает:

  • Частые проходы рассуждения без запретительных затрат
  • Стабильная задержка в рабочих процессах с агентами
  • Практическое развертывание в качестве постоянно доступного API для рассуждений

Попробуйте ERNIE-4.5-VL-28B-A3B-Thinking прямо сейчас!

Что ERNIE-4.5-VL-28B-A3B-Thinking делает на самом деле внутри рабочего процесса инструментов разработки кода

ERNIE-4.5-VL-28B-A3B-Thinking рассматривает визуальные данные как вход для рассуждений, а не просто как экстрактор признаков, что позволяет разработчикам напрямую интегрировать скриншоты, схемы и документы в рабочие процессы разработки кода. Это не просто OCR плюс генерация текста. Модель рассуждает на основе визуальной структуры и согласовывает её с намерением пользователя.

1. Понимание схем и архитектуры

Модель может интерпретировать системные схемы и преобразовывать визуальную структуру в логические отношения, релевантные для принятия решений при разработке кода.

Что даёт возможность визуально-языкового моделирования

  • Определяет компоненты, границы и потоки данных на схемах
  • Согласовывает визуальные элементы с текстовыми описаниями
  • Сохраняет структурные отношения в процессе рассуждения

Пример

  • Входные данные: Схема микросервисной архитектуры + краткое примечание к проекту
  • Выходные данные: Объяснение зависимостей сервисов и путей передачи данных
  • Эффект: Инструменты разработки кода направляются к правильным модулям вместо сканирования всей кодовой базы

2. Понимание контекста кода на основе скриншотов

Модель может рассуждать на основе скриншотов пользовательского интерфейса или IDE, чтобы выводить основную логику и намерения.

Что даёт возможность визуально-языкового моделирования

  • Считывает макеты интерфейса, логи и состояния ошибок со скриншотов
  • Связывает визуальные состояния с возможными путями выполнения кода
  • Обрабатывает неполную или частичную текстовую информацию

Пример

  • Входные данные: Скриншот неработающей панели управления с частичными сообщениями об ошибках
  • Выходные данные: Гипотеза о несоответствии фронтенда и бэкенда и соответствующем API-слое
  • Эффект: Более быстрая отладка без необходимости полного воспроизведения логов

3. Рассуждение о коде на основе документов

Модель отлично справляется с извлечением применимой логики из технических документов, сочетающих текст, таблицы и визуальные элементы.

Что даёт возможность визуально-языкового моделирования

  • Разбирает спецификации, PDF-документы и документы в научном стиле
  • Связывает иллюстрации и таблицы с логикой реализации
  • Поддерживает согласованность информации в длинных документах

Пример

  • Входные данные: PDF-документ с спецификацией API, содержащий таблицы и блок-схемы
  • Выходные данные: Структурированное резюме конечных точек, ограничений и крайних случаев
  • Эффект: Инструменты генерации кода начинают работу с правильного, обоснованного понимания

4. Визуальное рассуждение для декомпозиции задач

Визуальные входные данные используются для управления многошаговым рассуждением, а не только для распознавания.

Что даёт возможность визуально-языкового моделирования

  • Преобразует визуальные задачи в символьные представления
  • Поддерживает согласованность на всех шагах рассуждения
  • Поддерживает абстрагирование перед реализацией

Пример

  • Входные данные: Блок-схема конвейера данных
  • Выходные данные: Пошаговый разбор этапов обработки и точек сбоя
  • Эффект: Позволяет выполнять точечные вызовы инструментов вместо широкомасштабной отладки

Попробуйте ERNIE-4.5-VL-28B-A3B-Thinking прямо сейчас!

Как получить доступ к ERNIE-4.5-VL-28B-A3B-Thinking по выгодной цене?

Novita AI предлагает API ERNIE-4.5-VL-28B-A3B-Thinking с контекстным окном 30K токенов по цене $0.112 за вход и $0.448 за выход, с поддержкой структурированных выводов и вызова функций.

Шаг 1: Войдите в аккаунт и перейдите в библиотеку моделей

Войдите в свой аккаунт и нажмите кнопку Библиотека моделей.

Вход в аккаунт и переход в библиотеку моделей

Шаг 2: Выберите нужную модель

Просмотрите доступные варианты и выберите модель, подходящую для ваших задач.

Просмотр доступных вариантов и выбор подходящей модели

Попробуйте ERNIE-4.5-VL-28B-A3B-Thinking прямо сейчас!

Шаг 3: Начните бесплатный пробный период

Начните бесплатный пробный период, чтобы изучить возможности выбранной модели.

Начало бесплатного пробного периода для изучения возможностей выбранной модели

Шаг 4: Получите API-ключ

Для аутентификации через API мы предоставим вам новый API-ключ. Перейдя на страницу «Настройки», вы можете скопировать API-ключ, как показано на изображении.

Получение API-ключа

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="baidu/ernie-4.5-vl-28b-a3b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=8000,
    temperature=0.7
)

print(response.choices[0].message.content)

ERNIE-4.5-VL-28B-A3B-Thinking достигает производительности визуально-языкового рассуждения на уровне флагманов, активируя при этом только 3 миллиарда параметров на токен, что обеспечивает низкую задержку и высокочастотное рассуждение внутри рабочих процессов с инструментами. Его подтверждённые бенчмарками преимущества в понимании документов, визуальной привязке и рассуждении по STEM позволяют ему выступать в роли координатора рассуждений, а не синтаксического движка. В результате он хорошо подходит для разработчиков, которым нужно интегрировать схемы, скриншоты и технические документы в инструменты разработки кода без потери скорости или экономической эффективности.

Часто задаваемые вопросы

Для каких типов задач рассуждения ERNIE-4.5-VL-28B-A3B-Thinking подходит лучше всего?

ERNIE-4.5-VL-28B-A3B-Thinking лучше всего подходит для задач визуально-языкового рассуждения, таких как интерпретация схем, понимание документов и структурированная декомпозиция задач, а не для генерации кода на уровне чистого синтаксиса.

Может ли ERNIE-4.5-VL-28B-A3B-Thinking заменить LLM, специализированную на коде?

Нет. ERNIE-4.5-VL-28B-A3B-Thinking разработан для дополнения моделей, специализированных на коде, за счёт обработки визуального понимания, планирования и валидации, а не выполнения кода на низком уровне.

Что отличает возможность визуально-языкового рассуждения ERNIE-4.5-VL-28B-A3B-Thinking от моделей на основе OCR?

ERNIE-4.5-VL-28B-A3B-Thinking рассуждает на основе визуальной структуры и намерения, что позволяет выполнять такие задачи, как понимание системы на основе схем и отладка на основе скриншотов, вместо простого извлечения текста.

Novita AI — это универсальная облачная платформа, которая помогает реализовать ваши амбиции в области ИИ. Интегрированные API, бессерверные вычисления, GPU-инстансы — доступные инструменты, которые вам нужны. Избавьтесь от инфраструктуры, начните бесплатно и воплотите ваше видение ИИ в реальность.

Рекомендуемые материалы