- Архитектура ERNIE-4.5-VL-28B-A3B
- Почему ERNIE-4.5-VL-28B-A3B-Thinking может улучшить рабочие процессы разработки кода с инструментальной аугментацией
- Что ERNIE-4.5-VL-28B-A3B-Thinking делает на самом деле внутри рабочего процесса инструментов разработки кода
- Как получить доступ к ERNIE-4.5-VL-28B-A3B-Thinking по выгодной цене?
Novita AI запускает кампанию «Месяц разработки», предлагая разработчикам эксклюзивную скидку до 20% на все основные продукты!
Современные разработчики всё чаще сталкиваются с трудностями при интеграции визуальных входных данных, таких как схемы, скриншоты и технические документы, в рабочие процессы разработки кода, при этом сохраняя низкую задержку и контролируемые затраты. Традиционные VLM (модели визуально-языкового моделирования) либо слишком медленные для использования в циклах работы инструментов, либо слишком слабые в структурированном рассуждении, чтобы направлять реальные инженерные решения.
В этой статье объясняется, как ERNIE-4.5-VL-28B-A3B-Thinking решает эту проблему, сочетая высокие результаты в бенчмарках визуально-языкового рассуждения с архитектурой A3B, которая обеспечивает быстрый повторяемый вывод, а также демонстрируется, как эти свойства делают модель подходящей для рабочих процессов разработки кода с инструментальной аугментацией.
Архитектура ERNIE-4.5-VL-28B-A3B
Активируя только 3 миллиарда параметров на токен из пула из 28 миллиардов плотных параметров, модель достигает флагманского уровня интеллекта при затратах на вывод, характерных для периферийных устройств.
Буквы «A3B» в названии модели означают Active 3B (активные 3 миллиарда параметров), что указывает на архитектуру смеси экспертов (MoE), разработанную для экстремальной эффективности.
- Общее количество параметров: 28–30 миллиардов (разреженная MoE)
- Активные параметры: 3 миллиарда (на вывод одного токена)
- Контекстное окно: 128 000 токенов
- Ключевые улучшения:
- Рассуждение с изображениями: В отличие от стандартных VLM, которые обрабатывают изображения как статические токены, эта модель может итеративно «увеличивать» и «искать» внутри изображения для разрешения детализированных данных.
- GSPO и IcePop RL: Использует продвинутое обучение с подкреплением (Group-based Self-Play Optimization, оптимизация на основе группового самоигры) для стабилизации обучения MoE, обеспечивая правильную маршрутизацию экспертов для сложной логики.
Случай 1: Рассуждение ERNIE-4.5-VL-28B-A3B с изображениями
Какой текст на синем знаке на стене рядом с тротуаром?

Из: Baidu
Случай: Решение мостовой схемы для расчёта эквивалентного сопротивления
В этом примере модели представлена нетривиальная мостовая схема, и её просят рассчитать эквивалентное сопротивление между узлами A и B.

Из: [Baidu](https://yiyan.baidu.com/blog/posts/ernie 4.5-vl-28b-a3b-thinking/)
Почему ERNIE-4.5-VL-28B-A3B-Thinking может улучшить рабочие процессы разработки кода с инструментальной аугментацией
Результаты бенчмарков показывают стабильно высокие показатели в рассуждении по STEM, понимании документов и визуальной привязке, что напрямую соответствует самым сложным когнитивным шагам в реальных рабочих процессах разработки кода.
В бенчмарках по пониманию документов и структурированному рассуждению ERNIE-4.5-VL-A3B часто достигает или превышает 95-й перцентиль Gemini-2.5-Pro и GPT-5-High, несмотря на активацию значительно меньшего количества параметров на токен.
| Бенчмарк | ERNIE-4.5-VL-A3B | Gemini-2.5-Pro | GPT-5-High | Что это значит для разработчиков |
|---|---|---|---|---|
| MathVista | 82.5 | 82.7 | 81.3 | Надёжное многошаговое символическое рассуждение |
| MathVerse | 81.0 | 82.9 | 84.1 | Сильная абстракция при ограничениях |
| MMMU | 72.2 | 81.7 | 84.2 | Мультимодальная декомпозиция задач |
| ChartQA | 87.1 | 78.3 | 78.2 | Извлечение структурированных данных |
| DocVQA (валидация) | 93.6 | 91.2 | 94.2 | Точная привязка к документам |
| OCRBench | 85.8 | 86.4 | 81.0 | Надёжное распознавание текста с визуальных носителей |
| CharXiv-DQ | 90.3 | 91.2 | 93.5 | Долгосрочное техническое рассуждение |
| CV-Bench | 83.8 | 84.8 | 85.0 | Согласованность визуальной логики |
| Среднее (все) | 73.1 | 75.4 | 76.6 | Компактная модель с рассуждением на уровне флагманов |
Несмотря на то, что у модели 28 миллиардов параметров, активируется только 3 миллиарда на токен, что обеспечивает быстрое рассуждение с низкой задержкой, подходящее для повторяющихся вызовов внутри циклов работы инструментов.
Ключевые характеристики для пользователей:
- Активные параметры: 3 млрд на токен
- Эффективная задержка: Сопоставима с моделями малого и среднего размера
- Длина контекста: До 128 000 токенов, поддерживает рассуждение на уровне системы
Архитектура A3B обеспечивает:
- Частые проходы рассуждения без запретительных затрат
- Стабильная задержка в рабочих процессах с агентами
- Практическое развертывание в качестве постоянно доступного API для рассуждений
Попробуйте ERNIE-4.5-VL-28B-A3B-Thinking прямо сейчас!
Что ERNIE-4.5-VL-28B-A3B-Thinking делает на самом деле внутри рабочего процесса инструментов разработки кода
ERNIE-4.5-VL-28B-A3B-Thinking рассматривает визуальные данные как вход для рассуждений, а не просто как экстрактор признаков, что позволяет разработчикам напрямую интегрировать скриншоты, схемы и документы в рабочие процессы разработки кода. Это не просто OCR плюс генерация текста. Модель рассуждает на основе визуальной структуры и согласовывает её с намерением пользователя.
1. Понимание схем и архитектуры
Модель может интерпретировать системные схемы и преобразовывать визуальную структуру в логические отношения, релевантные для принятия решений при разработке кода.
Что даёт возможность визуально-языкового моделирования
- Определяет компоненты, границы и потоки данных на схемах
- Согласовывает визуальные элементы с текстовыми описаниями
- Сохраняет структурные отношения в процессе рассуждения
Пример
- Входные данные: Схема микросервисной архитектуры + краткое примечание к проекту
- Выходные данные: Объяснение зависимостей сервисов и путей передачи данных
- Эффект: Инструменты разработки кода направляются к правильным модулям вместо сканирования всей кодовой базы
2. Понимание контекста кода на основе скриншотов
Модель может рассуждать на основе скриншотов пользовательского интерфейса или IDE, чтобы выводить основную логику и намерения.
Что даёт возможность визуально-языкового моделирования
- Считывает макеты интерфейса, логи и состояния ошибок со скриншотов
- Связывает визуальные состояния с возможными путями выполнения кода
- Обрабатывает неполную или частичную текстовую информацию
Пример
- Входные данные: Скриншот неработающей панели управления с частичными сообщениями об ошибках
- Выходные данные: Гипотеза о несоответствии фронтенда и бэкенда и соответствующем API-слое
- Эффект: Более быстрая отладка без необходимости полного воспроизведения логов
3. Рассуждение о коде на основе документов
Модель отлично справляется с извлечением применимой логики из технических документов, сочетающих текст, таблицы и визуальные элементы.
Что даёт возможность визуально-языкового моделирования
- Разбирает спецификации, PDF-документы и документы в научном стиле
- Связывает иллюстрации и таблицы с логикой реализации
- Поддерживает согласованность информации в длинных документах
Пример
- Входные данные: PDF-документ с спецификацией API, содержащий таблицы и блок-схемы
- Выходные данные: Структурированное резюме конечных точек, ограничений и крайних случаев
- Эффект: Инструменты генерации кода начинают работу с правильного, обоснованного понимания
4. Визуальное рассуждение для декомпозиции задач
Визуальные входные данные используются для управления многошаговым рассуждением, а не только для распознавания.
Что даёт возможность визуально-языкового моделирования
- Преобразует визуальные задачи в символьные представления
- Поддерживает согласованность на всех шагах рассуждения
- Поддерживает абстрагирование перед реализацией
Пример
- Входные данные: Блок-схема конвейера данных
- Выходные данные: Пошаговый разбор этапов обработки и точек сбоя
- Эффект: Позволяет выполнять точечные вызовы инструментов вместо широкомасштабной отладки
Попробуйте ERNIE-4.5-VL-28B-A3B-Thinking прямо сейчас!
Как получить доступ к ERNIE-4.5-VL-28B-A3B-Thinking по выгодной цене?
Novita AI предлагает API ERNIE-4.5-VL-28B-A3B-Thinking с контекстным окном 30K токенов по цене $0.112 за вход и $0.448 за выход, с поддержкой структурированных выводов и вызова функций.
Шаг 1: Войдите в аккаунт и перейдите в библиотеку моделей
Войдите в свой аккаунт и нажмите кнопку Библиотека моделей.

Шаг 2: Выберите нужную модель
Просмотрите доступные варианты и выберите модель, подходящую для ваших задач.

Попробуйте ERNIE-4.5-VL-28B-A3B-Thinking прямо сейчас!
Шаг 3: Начните бесплатный пробный период
Начните бесплатный пробный период, чтобы изучить возможности выбранной модели.

Шаг 4: Получите API-ключ
Для аутентификации через API мы предоставим вам новый API-ключ. Перейдя на страницу «Настройки», вы можете скопировать API-ключ, как показано на изображении.

from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="baidu/ernie-4.5-vl-28b-a3b",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=8000,
temperature=0.7
)
print(response.choices[0].message.content)
ERNIE-4.5-VL-28B-A3B-Thinking достигает производительности визуально-языкового рассуждения на уровне флагманов, активируя при этом только 3 миллиарда параметров на токен, что обеспечивает низкую задержку и высокочастотное рассуждение внутри рабочих процессов с инструментами. Его подтверждённые бенчмарками преимущества в понимании документов, визуальной привязке и рассуждении по STEM позволяют ему выступать в роли координатора рассуждений, а не синтаксического движка. В результате он хорошо подходит для разработчиков, которым нужно интегрировать схемы, скриншоты и технические документы в инструменты разработки кода без потери скорости или экономической эффективности.
Часто задаваемые вопросы
Для каких типов задач рассуждения ERNIE-4.5-VL-28B-A3B-Thinking подходит лучше всего?
ERNIE-4.5-VL-28B-A3B-Thinking лучше всего подходит для задач визуально-языкового рассуждения, таких как интерпретация схем, понимание документов и структурированная декомпозиция задач, а не для генерации кода на уровне чистого синтаксиса.
Может ли ERNIE-4.5-VL-28B-A3B-Thinking заменить LLM, специализированную на коде?
Нет. ERNIE-4.5-VL-28B-A3B-Thinking разработан для дополнения моделей, специализированных на коде, за счёт обработки визуального понимания, планирования и валидации, а не выполнения кода на низком уровне.
Что отличает возможность визуально-языкового рассуждения ERNIE-4.5-VL-28B-A3B-Thinking от моделей на основе OCR?
ERNIE-4.5-VL-28B-A3B-Thinking рассуждает на основе визуальной структуры и намерения, что позволяет выполнять такие задачи, как понимание системы на основе схем и отладка на основе скриншотов, вместо простого извлечения текста.
Novita AI — это универсальная облачная платформа, которая помогает реализовать ваши амбиции в области ИИ. Интегрированные API, бессерверные вычисления, GPU-инстансы — доступные инструменты, которые вам нужны. Избавьтесь от инфраструктуры, начните бесплатно и воплотите ваше видение ИИ в реальность.
