Как получить доступ к GLM-4.6V и создавать надежные мультимодальные агенты?

Как получить доступ к GLM-4.6V и создавать надежные мультимодальные агенты?

Novita AI запускает кампанию «Месяц разработки», предлагая разработчикам эксклюзивную скидку до 20% на все основные продукты!

Участвуйте в Месяце разработки!

Разработчики, создающие мультимодальные агенты и сложные рабочие процессы, часто сталкиваются с проблемой того, как одна модель может надежно интерпретировать изображения, документы и состояния интерфейса, рассуждать на основе визуальных ограничений, координировать инструменты и сохранять стабильность при работе с длинными контекстами. GLM-4.6V напрямую решает эти задачи, предоставляя единую архитектуру зрительно-языкового моделирования, нативную поддержку мультимодальных инструментов и мощные возможности агентного рассуждения. В этой статье объясняется, как устроена архитектура GLM-4.6V, как ее эффективность подтверждается результатами бенчмарков, как она работает в реальных рабочих процессах и как разработчики могут эффективно получить доступ к GLM-4.6V через API.

Какова архитектура GLM-4.6V?

Нативная поддержка мультимодальных инструментов

GLM-4.6V оснащен нативной возможностью вызова мультимодальных инструментов:

  • Мультимодальный ввод: Изображения, скриншоты и страницы документов можно передавать напрямую как параметры инструментов без предварительного преобразования в текстовые описания, что минимизирует потерю сигнала.
  • Мультимодальный вывод: Модель может визуально воспринимать результаты, возвращаемые инструментами (например, результаты поиска, статистические диаграммы, отрендеренные скриншоты веб-страниц или полученные изображения товаров) и включать их в последующие цепочки рассуждений.

Основные свойства архитектуры

  • Единое зрительно-языковое представление
    • Визуальные признаки и текстовые семантики выравниваются в общее пространство для совместного рассуждения.
  • Взаимодействие с длинными контекстами
    • Поддерживает рабочие процессы, в которых сочетается история диалогов, фрагменты документации и выводы инструментов.
  • Поддержка структурированного вывода
    • Более подходит для вызова функций, соответствия схемам JSON и следования ограничениям, чем использование VLM только для описаний.

Попробуйте GLM 4.6V сейчас!

Насколько эффективен GLM-4.6V в реальных рабочих процессах согласно результатам бенчмарков?

1. Понимание задач, управляемых визуальными данными Сопоставление абстрактных задач с диаграммами, скриншотами и визуальными спецификациями

GLM-4.6V демонстрирует высокую способность преобразовывать исходные визуальные входные данные в структурированное семантическое понимание, что необходимо для инициализации рабочих процессов агентов.

Бенчмарк Измеряемая возможность GLM-4.6V
MMBench v1.1 Общее визуальное ответов на вопросы 88.8
MMBench v1.1 (CN) Кросс-языковое визуальное понимание 88.2
MMStar Мультимодальное восприятие с высокой детализацией 75.9
BLINK (val) Визуальное привязывание и выравнивание 65.5

2. Мультимодальное рассуждение на основе визуальных ограничений Использование изображений в качестве переменных в логическом и математическом рассуждении

Помимо восприятия, GLM-4.6V демонстрирует конкурентоспособные результаты мультимодального рассуждения, что критически важно для рабочих процессов, где решения зависят от визуальных данных.

Бенчмарк Направление рассуждений GLM-4.6V
MMMU (val) Общее мультимодальное рассуждение 76.0
MMMU-Pro Сложное мультимодальное рассуждение 66.0
MathVista Визуально-математическое рассуждение 85.2
AI2D Рассуждение на основе диаграмм 88.8

3. Диагностика состояния на основе скриншотов Интерпретация состояний интерфейса и условий выполнения на основе визуальных данных

GLM-4.6V может делать выводы о состоянии системы по скриншотам и визуальным артефактам, что особенно полезно для отладки и мониторинга агентов.

Бенчмарк Измеряемая возможность GLM-4.6V
VideoMMMU Временное и состоятельное рассуждение 74.7
DynaMath Динамическое визуальное рассуждение 54.5
WeMath Прикладное визуальное рассуждение 69.8

4. Агентное планирование и координация инструментов Планирование, распределение и валидация использования инструментов на всех этапах

Бенчмарки агентного поведения GLM-4.6V указывают на его пригодность в качестве центрального контроллера, а не пассивногоResponder.

Бенчмарк Агентное поведение GLM-4.6V
Design2Code Планирование действий на основе визуальных данных 88.6
Flame-React-Eval Многошаговое реактивное рассуждение 86.3
OSWorld Взаимодействие с окружением на основе инструментов 37.2
AndroidWorld Рассуждение мобильного агента 57.0
WebVoyager Навигация по вебу и планирование 81.0

5. Выравнивание мультимодальных данных в длинных контекстах Сохранение согласованности между документами, изображениями и выводами инструментов

Бенчмарки длинных контекстов показывают, насколько хорошо модель сохраняет ограничения приExtended взаимодействиях.

Бенчмарк Возможность работы с контекстом GLM-4.6V
MMLongBench-Doc Рассуждение на уровне документа 54.9
MMLongBench-128K Ультрадлинный контекст 64.1
LVBench Длительное визуальное рассуждение 59.5

6. OCR, диаграммы и пространственное привязывание Извлечение структуры из документов и пространственных макетов

Эти возможности важны для рабочих процессов, которые зависят от скриншотов отчетов, дашбордов или отсканированных документов.

Бенчмарк Возможность GLM-4.6V
OCRBench Извлечение текста 86.5
OCR-Bench v2 (EN) Распознавание английского текста 65.1
ChartQAPro Понимание диаграмм 65.5
OmniSpatial Пространственное рассуждение 52.0
RefCOCO-avg (val) Привязывание референциальных выражений 88.6

Попробуйте GLM 4.6V сейчас!

https://www.youtube.com/watch?v=5gqJKZWYOB4

Как получить доступ к GLM-4.6V через API?

Novita AI предлагает API модели ERNIE-4.5-VL-28B-A3B-Thinking с окном контекста 131K токенов по цене $0.3 за входной токен и $0.9 за выходной. Поддерживаются структурированные выводы и вызов функций.

Cache Read: $0.055 за миллион токенов — это стоимость чтения кэшированных токенов при попадании в кэш. Эти токены были предварительно вычислены и сохранены, поэтому дополнительный вывод модели не требуется. В системах, где множество запросов используют один и тот же префикс промпта, повторно используют историю диалогов, инструкции для инструментов или фиксированные тексты правил, или где результаты поиска RAG сильно повторяются, можно достичь высокого процента попаданий в кэш, что значительно снижает общую стоимость вывода.

Шаг 1: Войдите в аккаунт и перейдите в библиотеку моделей

Войдите в свой аккаунт и нажмите кнопку Библиотека моделей.

Вход в аккаунт и переход в библиотеку моделей.

Шаг 2: Выберите модель

Просмотрите доступные варианты и выберите модель, подходящую для ваших задач.

Выбор модели

Попробуйте GLM 4.6V сейчас!

Шаг 3: Начните бесплатный пробный период

Начните бесплатный пробный период, чтобы изучить возможности выбранной модели.

Начало бесплатного пробного периода для изучения возможностей выбранной модели.

Шаг 4: Получите ваш API-ключ

Для аутентификации через API мы предоставим вам новый API-ключ. Перейдя на страницу «Настройки», вы можете скопировать API-ключ, как показано на изображении.

Получение API-ключа

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="zai-org/glm-4.6v",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=32768,
    temperature=0.7
)

print(response.choices[0].message.content)

Как получить доступ к GLM 4.6V с помощью OpenAIAgentsSDK

Создавайте продвинутые системы с несколькими агентами, интегрировав Novita AI с OpenAI Agents SDK:

  • Подключи и работай: Используйте LLM от Novita AI в любом рабочем процессе OpenAI Agents.
  • Поддерживает передачу задач, маршрутизацию и использование инструментов: Проектируйте агентов, которые могут делегировать задачи, сортировать их или запускать функции, все на основе моделей Novita AI.
  • Интеграция с Python: Просто укажите SDK эндпоинт Novita (https://api.novita.ai/v3/openai) и используйте ваш API-ключ.

Как получить доступ к GLM 4.6V на сторонних платформах

  • Hugging Face: Используйте GLM 4.6V в Spaces, конвейерах или с библиотекой Transformers через эндпоинты Novita AI.
  • Фреймворки для агентов и оркестрации: Легко подключайте Novita AI к партнерским платформам таким как Continue, AnythingLLM, LangChain, Dify и Langflow через официальные коннекторы и пошаговые руководства по интеграции.
  • Совместимый с OpenAI API: Наслаждайтесь простой миграцией и интеграцией с такими инструментами как Cline и Cursor, разработанными по стандарту API OpenAI.

GLM-4.6V наиболее эффективно используется в качестве слоя рассуждений и координации для мультимодальных рабочих процессов, а не как простая модель для ответов на визуальные вопросы. Благодаря единым зрительно-языковым представлениям, выравниванию в длинных контекстах и мощным возможностям планирования использования инструментов, GLM-4.6V позволяет создавать более надежные, масштабируемые и экономически эффективные мультимодальные агентные системы.

Часто задаваемые вопросы

Что делает архитектуру GLM-4.6V подходящей для мультимодальных рабочих процессов?

GLM-4.6V использует единое зрительно-языковое представление и нативную поддержку вызова мультимодальных инструментов, что позволяет модели совместно обрабатывать изображения, документы и выводы инструментов в процессе рассуждений.

Какую роль играет GLM-4.6V в сквозном рабочем процессе агента?

GLM-4.6V выступает в качестве слоя рассуждений и координации, интерпретируя мультимодальные входные данные, планируя использование инструментов и валидируя промежуточные результаты.

Как разработчики могут снизить затраты при использовании GLM-4.6V через API?

Используя тарификацию Cache Read для GLM-4.6V, можно повторно использовать повторяющиеся промпты, общие префиксы и повторяющиеся выводы RAG, что значительно снижает затраты на вывод.

Novita AI — это универсальная облачная платформа, которая помогает реализовать ваши амбиции в области ИИ. Интегрированные API, бессерверные решения, GPU-инстансы — экономически эффективные инструменты, которые вам нужны. Избавьтесь от необходимости управления инфраструктурой, начните бесплатно и воплотите ваше видение ИИ в реальность.

Рекомендуемые материалы