Novita AI запускает кампанию «Месяц разработки», предлагая разработчикам эксклюзивную скидку до 20% на все основные продукты!
Разработчики, создающие мультимодальные агенты и сложные рабочие процессы, часто сталкиваются с проблемой того, как одна модель может надежно интерпретировать изображения, документы и состояния интерфейса, рассуждать на основе визуальных ограничений, координировать инструменты и сохранять стабильность при работе с длинными контекстами. GLM-4.6V напрямую решает эти задачи, предоставляя единую архитектуру зрительно-языкового моделирования, нативную поддержку мультимодальных инструментов и мощные возможности агентного рассуждения. В этой статье объясняется, как устроена архитектура GLM-4.6V, как ее эффективность подтверждается результатами бенчмарков, как она работает в реальных рабочих процессах и как разработчики могут эффективно получить доступ к GLM-4.6V через API.
Какова архитектура GLM-4.6V?
Нативная поддержка мультимодальных инструментов
GLM-4.6V оснащен нативной возможностью вызова мультимодальных инструментов:
- Мультимодальный ввод: Изображения, скриншоты и страницы документов можно передавать напрямую как параметры инструментов без предварительного преобразования в текстовые описания, что минимизирует потерю сигнала.
- Мультимодальный вывод: Модель может визуально воспринимать результаты, возвращаемые инструментами (например, результаты поиска, статистические диаграммы, отрендеренные скриншоты веб-страниц или полученные изображения товаров) и включать их в последующие цепочки рассуждений.
Основные свойства архитектуры
- Единое зрительно-языковое представление
- Визуальные признаки и текстовые семантики выравниваются в общее пространство для совместного рассуждения.
- Взаимодействие с длинными контекстами
- Поддерживает рабочие процессы, в которых сочетается история диалогов, фрагменты документации и выводы инструментов.
- Поддержка структурированного вывода
- Более подходит для вызова функций, соответствия схемам JSON и следования ограничениям, чем использование VLM только для описаний.
Насколько эффективен GLM-4.6V в реальных рабочих процессах согласно результатам бенчмарков?
1. Понимание задач, управляемых визуальными данными Сопоставление абстрактных задач с диаграммами, скриншотами и визуальными спецификациями
GLM-4.6V демонстрирует высокую способность преобразовывать исходные визуальные входные данные в структурированное семантическое понимание, что необходимо для инициализации рабочих процессов агентов.
| Бенчмарк | Измеряемая возможность | GLM-4.6V |
|---|---|---|
| MMBench v1.1 | Общее визуальное ответов на вопросы | 88.8 |
| MMBench v1.1 (CN) | Кросс-языковое визуальное понимание | 88.2 |
| MMStar | Мультимодальное восприятие с высокой детализацией | 75.9 |
| BLINK (val) | Визуальное привязывание и выравнивание | 65.5 |
2. Мультимодальное рассуждение на основе визуальных ограничений Использование изображений в качестве переменных в логическом и математическом рассуждении
Помимо восприятия, GLM-4.6V демонстрирует конкурентоспособные результаты мультимодального рассуждения, что критически важно для рабочих процессов, где решения зависят от визуальных данных.
| Бенчмарк | Направление рассуждений | GLM-4.6V |
|---|---|---|
| MMMU (val) | Общее мультимодальное рассуждение | 76.0 |
| MMMU-Pro | Сложное мультимодальное рассуждение | 66.0 |
| MathVista | Визуально-математическое рассуждение | 85.2 |
| AI2D | Рассуждение на основе диаграмм | 88.8 |
3. Диагностика состояния на основе скриншотов Интерпретация состояний интерфейса и условий выполнения на основе визуальных данных
GLM-4.6V может делать выводы о состоянии системы по скриншотам и визуальным артефактам, что особенно полезно для отладки и мониторинга агентов.
| Бенчмарк | Измеряемая возможность | GLM-4.6V |
|---|---|---|
| VideoMMMU | Временное и состоятельное рассуждение | 74.7 |
| DynaMath | Динамическое визуальное рассуждение | 54.5 |
| WeMath | Прикладное визуальное рассуждение | 69.8 |
4. Агентное планирование и координация инструментов Планирование, распределение и валидация использования инструментов на всех этапах
Бенчмарки агентного поведения GLM-4.6V указывают на его пригодность в качестве центрального контроллера, а не пассивногоResponder.
| Бенчмарк | Агентное поведение | GLM-4.6V |
|---|---|---|
| Design2Code | Планирование действий на основе визуальных данных | 88.6 |
| Flame-React-Eval | Многошаговое реактивное рассуждение | 86.3 |
| OSWorld | Взаимодействие с окружением на основе инструментов | 37.2 |
| AndroidWorld | Рассуждение мобильного агента | 57.0 |
| WebVoyager | Навигация по вебу и планирование | 81.0 |
5. Выравнивание мультимодальных данных в длинных контекстах Сохранение согласованности между документами, изображениями и выводами инструментов
Бенчмарки длинных контекстов показывают, насколько хорошо модель сохраняет ограничения приExtended взаимодействиях.
| Бенчмарк | Возможность работы с контекстом | GLM-4.6V |
|---|---|---|
| MMLongBench-Doc | Рассуждение на уровне документа | 54.9 |
| MMLongBench-128K | Ультрадлинный контекст | 64.1 |
| LVBench | Длительное визуальное рассуждение | 59.5 |
6. OCR, диаграммы и пространственное привязывание Извлечение структуры из документов и пространственных макетов
Эти возможности важны для рабочих процессов, которые зависят от скриншотов отчетов, дашбордов или отсканированных документов.
| Бенчмарк | Возможность | GLM-4.6V |
|---|---|---|
| OCRBench | Извлечение текста | 86.5 |
| OCR-Bench v2 (EN) | Распознавание английского текста | 65.1 |
| ChartQAPro | Понимание диаграмм | 65.5 |
| OmniSpatial | Пространственное рассуждение | 52.0 |
| RefCOCO-avg (val) | Привязывание референциальных выражений | 88.6 |
https://www.youtube.com/watch?v=5gqJKZWYOB4
Как получить доступ к GLM-4.6V через API?
Novita AI предлагает API модели ERNIE-4.5-VL-28B-A3B-Thinking с окном контекста 131K токенов по цене $0.3 за входной токен и $0.9 за выходной. Поддерживаются структурированные выводы и вызов функций.
Cache Read: $0.055 за миллион токенов — это стоимость чтения кэшированных токенов при попадании в кэш. Эти токены были предварительно вычислены и сохранены, поэтому дополнительный вывод модели не требуется. В системах, где множество запросов используют один и тот же префикс промпта, повторно используют историю диалогов, инструкции для инструментов или фиксированные тексты правил, или где результаты поиска RAG сильно повторяются, можно достичь высокого процента попаданий в кэш, что значительно снижает общую стоимость вывода.
Шаг 1: Войдите в аккаунт и перейдите в библиотеку моделей
Войдите в свой аккаунт и нажмите кнопку Библиотека моделей.

Шаг 2: Выберите модель
Просмотрите доступные варианты и выберите модель, подходящую для ваших задач.

Шаг 3: Начните бесплатный пробный период
Начните бесплатный пробный период, чтобы изучить возможности выбранной модели.

Шаг 4: Получите ваш API-ключ
Для аутентификации через API мы предоставим вам новый API-ключ. Перейдя на страницу «Настройки», вы можете скопировать API-ключ, как показано на изображении.

from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="zai-org/glm-4.6v",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=32768,
temperature=0.7
)
print(response.choices[0].message.content)
Как получить доступ к GLM 4.6V с помощью OpenAIAgentsSDK
Создавайте продвинутые системы с несколькими агентами, интегрировав Novita AI с OpenAI Agents SDK:
- Подключи и работай: Используйте LLM от Novita AI в любом рабочем процессе OpenAI Agents.
- Поддерживает передачу задач, маршрутизацию и использование инструментов: Проектируйте агентов, которые могут делегировать задачи, сортировать их или запускать функции, все на основе моделей Novita AI.
- Интеграция с Python: Просто укажите SDK эндпоинт Novita (
https://api.novita.ai/v3/openai) и используйте ваш API-ключ.
Как получить доступ к GLM 4.6V на сторонних платформах
- Hugging Face: Используйте GLM 4.6V в Spaces, конвейерах или с библиотекой Transformers через эндпоинты Novita AI.
- Фреймворки для агентов и оркестрации: Легко подключайте Novita AI к партнерским платформам таким как Continue, AnythingLLM, LangChain, Dify и Langflow через официальные коннекторы и пошаговые руководства по интеграции.
- Совместимый с OpenAI API: Наслаждайтесь простой миграцией и интеграцией с такими инструментами как Cline и Cursor, разработанными по стандарту API OpenAI.
GLM-4.6V наиболее эффективно используется в качестве слоя рассуждений и координации для мультимодальных рабочих процессов, а не как простая модель для ответов на визуальные вопросы. Благодаря единым зрительно-языковым представлениям, выравниванию в длинных контекстах и мощным возможностям планирования использования инструментов, GLM-4.6V позволяет создавать более надежные, масштабируемые и экономически эффективные мультимодальные агентные системы.
Часто задаваемые вопросы
Что делает архитектуру GLM-4.6V подходящей для мультимодальных рабочих процессов?
GLM-4.6V использует единое зрительно-языковое представление и нативную поддержку вызова мультимодальных инструментов, что позволяет модели совместно обрабатывать изображения, документы и выводы инструментов в процессе рассуждений.
Какую роль играет GLM-4.6V в сквозном рабочем процессе агента?
GLM-4.6V выступает в качестве слоя рассуждений и координации, интерпретируя мультимодальные входные данные, планируя использование инструментов и валидируя промежуточные результаты.
Как разработчики могут снизить затраты при использовании GLM-4.6V через API?
Используя тарификацию Cache Read для GLM-4.6V, можно повторно использовать повторяющиеся промпты, общие префиксы и повторяющиеся выводы RAG, что значительно снижает затраты на вывод.
Novita AI — это универсальная облачная платформа, которая помогает реализовать ваши амбиции в области ИИ. Интегрированные API, бессерверные решения, GPU-инстансы — экономически эффективные инструменты, которые вам нужны. Избавьтесь от необходимости управления инфраструктурой, начните бесплатно и воплотите ваше видение ИИ в реальность.
Рекомендуемые материалы
