GLM-4.1V-9B-Thinking: революционный мультимодальный ИИ теперь на Novita AI

GLM-4.1V-9B-Thinking: революционный мультимодальный ИИ теперь на Novita AI

GLM-4.1V-9B-Thinking — это новаторская модель «зрение-язык» с 9 миллиардами параметров, которая впервые применяет подход, ориентированный на рассуждение, в мультимодальном ИИ. Разработанная THUDM, эта модель достигает передовой производительности благодаря уникальной «парадигме мышления», обеспечивающей прозрачный, пошаговый процесс рассуждения.

Несмотря на компактный размер, GLM-4.1V-9B-Thinking сравнивается или превосходит гораздо более крупные модели с 72 миллиардами параметров в 18 бенчмарках, демонстрируя исключительную эффективность и способность к мультимодальному рассуждению.

В течение ограниченного времени новые пользователи могут получить $10 бесплатных кредитов, чтобы исследовать и создавать решения на базе GLM-4.1V-9B-Thinking.

Вот текущие цены на API GLM-4.1V-9B-Thinking на Novita AI: $0.035 / млн входных токенов, $0.138 / млн выходных токенов.

Что такое GLM-4.1V-9B-Thinking?

Модели «зрение-язык» (Vision-Language Models, VLM) стали фундаментальными компонентами интеллектуальных систем. По мере того как реальные задачи ИИ становятся всё более сложными, VLM должны выходить за рамки базового мультимодального восприятия, демонстрируя продвинутые способности к рассуждению. Эта эволюция направлена на повышение точности, полноты и общего интеллекта, открывая путь для таких приложений, как решение сложных задач, понимание длинного контекста и мультимодальные агенты.

GLM-4.1V-9B-Thinking — это модель следующего поколения (VLM), разработанная для удовлетворения этих требований за счёт совершенствования мультимодального понимания и рассуждения общего назначения. Построенная на базовой модели GLM-4-9B-0414, она внедряет революционную «парадигму мышления», которая отличает её от других.

Эта новая парадигма позволяет модели выполнять явное, пошаговое рассуждение перед выдачей конечных результатов. В отличие от традиционных моделей, которые дают прямые ответы, GLM-4.1V-9B-Thinking внешне проявляет свой процесс рассуждения, делая его прозрачным, интерпретируемым и проверяемым, что открывает путь к более надёжным и capable системам ИИ.

Ключевые особенности и инновации

Гибкая обработка входных данных: модель поддерживает произвольные разрешения изображений и соотношения сторон. Она интегрирует 2D-RoPE, что позволяет эффективно обрабатывать изображения с экстремальными соотношениями сторон (более 200:1) или высокими разрешениями (свыше 4K).

Адаптация позиционного кодирования: чтобы сохранить базовые способности предварительно обученного ViT, модель сохраняет исходные обучаемые абсолютные позиционные вложения. Во время обучения эти вложения динамически адаптируются к входам переменного разрешения с помощью бикубической интерполяции.

Понимание времени: для видеоконтента модель вставляет токены временных индексов после каждого токена кадра, где временной индекс реализован путём кодирования временной метки каждого кадра в виде строки. Такая конструкция явно сообщает модели реальные временные метки и временные расстояния между кадрами.

Поддержка расширенного контекста: модель поддерживает длину контекста до 64K и обладает двуязычными возможностями (китайский и английский), что делает её мощным инструментом для понимания длинных документов и кросс-культурных приложений.

Ключевые улучшения по сравнению с предыдущими моделями:

  • Первая модель в серии, ориентированная на рассуждение, достигающая ведущей в мире производительности в различных подобластях
  • Поддержка контекста длиной 64K
  • Обработка произвольных соотношений сторон и разрешения изображений до 4K
  • Открытая версия с поддержкой двуязычного использования (китайский и английский)

Революционная структура обучения

GLM-4.1V-9B-Thinking использует инновационный подход к обучению, включающий обучение с подкреплением с куррикулярной выборкой (Reinforcement Learning with Curriculum Sampling, RLCS), который систематически улучшает способности к рассуждению в нескольких областях.

Этап 1: Фундаментальная предварительная подготовка
Модель проходит масштабную предварительную подготовку для получения прочных фундаментальных знаний, включая массивные пары «изображение-текст» с точными фактическими знаниями, собственный академический корпус с чередующимися изображениями и текстом, а также аннотированные документы и диаграммы.

Этап 2: Контролируемая тонкая настройка
Этот этап служит мостом к обучению с подкреплением, превращая базовую VLM в модель, способную к длинному цепочечному рассуждению (CoT). Каждый ответ следует стандартной структуре с разделами thinking и <answer>.

Этап 3: Инновационное обучение с подкреплением
Команда представляет обучение с подкреплением с куррикулярной выборкой (RLCS) для развития крупномасштабных, кросс-доменных способностей к рассуждению. RLCS сочетает куррикулярное обучение с семплированием, учитывающим сложность, для повышения эффективности обучения.

Обучение с подкреплением с куррикулярной выборкой

Источник: THUDM

Сравнение с другими продвинутыми VLM

Сравнение с другими продвинутыми VLM

Источник: THUDM

Исключительная эффективность: несмотря на свой относительно компактный размер, GLM-4.1V-9B-Thinking превосходит гораздо более крупную модель Qwen2.5-VL-72B в 18 из 28 бенчмарков. Это включает особенно сложные задачи, такие как MMStar (72.9 против 70.8), MUIRBENCH (74.7 против 62.9), MMMU-Pro (57.1 против 51.1) и ChartMuseum (48.8 против 39.6), что иллюстрирует превосходную эффективность и способности модели.

Конкурентоспособность с проприетарными моделями: по сравнению с проприетарной GPT-4o, GLM-4.1V-9B-Thinking достигает превосходных результатов в большинстве задач, включая MMStar (72.9 против 66.2), MUIRBENCH (74.7 против 69.7), AI2D (87.9 против 84.8), MMMU-Pro (57.1 против 54.6), MathVista (80.7 против 64.0) и MotionBench (59.0 против 58.0). Это достигается, несмотря на значительно больший масштаб и преимущество закрытого кода GPT-4o.

Доминирование в специализированных задачах: модель демонстрирует исключительную производительность в задачах GUI-агентов, достигая 72.1 на WebQuest-SingleQA (против 60.5 у Qwen2.5-VL-72B и 57.0 у GPT-4o) и 69.0 на WebVoyageSom (против 40.4 у Qwen2.5-VL-72B и 59.4 у GPT-4o). В задачах кодирования она достигает 72.5 на Flame-VLM-Code, значительно превосходя 72B модель (46.3), оставаясь конкурентоспособной с GPT-4o (75.0).

Оптимальная ресурсная эффективность: эти результаты подчеркивают, что GLM-4.1V-9B-Thinking предлагает отличный баланс между производительностью и эффективностью. Это делает её привлекательным выбором для реального развёртывания, где вычислительные ресурсы ограничены, обеспечивая практичное и мощное решение при ограничениях ресурсов, сохраняя конкурентоспособную производительность по сравнению с гораздо более крупными системами.

Исследуйте демо GLM-4.1V-9B-Thinking сейчас

Требования к среде выполнения

Эффективная архитектура модели позволяет гибко развёртывать её на различных аппаратных конфигурациях в соответствии с официальными спецификациями.

Инференс


Устройство (один GPU)
Фреймворк Мин. память Скорость Точность
NVIDIA A100 transformers 22GB 14–22 токенов / с BF16
NVIDIA A100 vLLM 22GB 60–70 токенов / с BF16

Тонкая настройка

Следующие результаты получены при тонкой настройке изображений с использованием инструментария LLaMA-Factory.

Устройство (кластер) Стратегия Мин. память / кол-во GPU Размер пакета (на GPU) Заморозка
NVIDIA A100 LORA 21GB / 1 GPU 1 Заморозить VIT
NVIDIA A100 FULL ZERO2 280GB / 4 GPU 1 Заморозить VIT
NVIDIA A100 FULL ZERO3 192GB / 4 GPU 1 Заморозить VIT
NVIDIA A100 FULL ZERO2 304GB / 4 GPU 1 Без заморозки
NVIDIA A100 FULL ZERO3 210GB / 4 GPU 1 Без заморозки

Примечание: тонкая настройка с Zero2 может привести к нулевым потерям; для стабильного обучения рекомендуется Zero3.

Как получить доступ к GLM-4.1V-9B-Thinking на Novita AI

Начать работу с GLM-4.1V-9B-Thinking на Novita AI быстро, просто и без риска. Благодаря реферальной программе вы получите $10 бесплатных кредитов — этого достаточно, чтобы полностью изучить возможности мультимодального рассуждения GLM-4.1V-9B-Thinking, создать прототипы и даже запустить первый сценарий использования без каких-либо предварительных затрат.

Используйте Playground (без написания кода)

Мгновенный доступ: зарегистрируйтесь, получите бесплатные кредиты и начните экспериментировать с GLM-4.1V-9B-Thinking и другими лучшими мультимодальными моделями за секунды.

Интерактивный интерфейс: тестируйте понимание изображений, анализ диаграмм и прозрачные рабочие процессы рассуждения в реальном времени. Оцените уникальную парадигму мышления модели через интуитивно понятный интерфейс.

Сравнение моделей: легко переключайтесь между GLM-4.1V-9B-Thinking, другими моделями «зрение-язык» и текстовыми моделями, чтобы найти идеальное решение для ваших мультимодальных задач.

Интеграция через API (для разработчиков)

Бесшовно подключайте GLM-4.1V-9B-Thinking к вашим приложениям, рабочим процессам или чат-ботам с помощью единого REST API Novita AI — без необходимости управлять весами модели или инфраструктурой.

Вариант 1: Прямая интеграция API (пример на Python)

Чтобы начать работу с мультимодальными входами, просто используйте следующий фрагмент кода:

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "thudm/glm-4.1v-9b-thinking"
stream = True # or False
max_tokens = 4000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

Ключевые особенности:

  • Единая конечная точка:/v3/openai поддерживает формат Chat Completions от OpenAI.
  • Гибкие настройки: регулируйте температуру, top-p, штрафы и другие параметры для получения точных результатов.
  • Потоковый режим и пакетная обработка: выбирайте предпочтительный режим ответа.

Вариант 2: Многоагентные рабочие процессы с OpenAI Agents SDK

Создавайте продвинутые мультимодальные агентные системы, интегрируя Novita AI с OpenAI Agents SDK:

Подключи и работай: используйте GLM-4.1V-9B-Thinking в любом рабочем процессе OpenAI Agents для задач «зрение-язык».

Поддержка передачи, маршрутизации и использования инструментов: разрабатывайте агентов, которые могут анализировать визуальный контент, делегировать задачи или выполнять функции — всё на основе возможностей рассуждения GLM-4.1V-9B-Thinking.

Интеграция с Python: просто укажите SDK конечную точку Novita (https://api.novita.ai/v3/openai) и используйте свой ключ API для бесшовных мультимодальных агентных рабочих процессов.

Подключение API GLM-4.1V-9B-Thinking на сторонних платформах

Hugging Face: Используйте GLM-4.1V-9B-Thinking в Spaces, pipelines или с библиотекой Transformers через конечные точки Novita AI для мультимодальных приложений.

Фреймворки для агентов и оркестрации: Легко подключайте Novita AI к партнёрским платформам, таким как Continue, AnythingLLM, LangChain, Dify и Langflow, через официальные коннекторы и пошаговые руководства по интеграции.

API, совместимое с OpenAI: Наслаждайтесь простой миграцией и интеграцией с такими инструментами, как Cline и Cursor, разработанными для стандарта OpenAI API.

Заключение

GLM-4.1V-9B-Thinking представляет собой преобразующий этап в мультимодальном ИИ, демонстрируя, что продвинутые способности к рассуждению могут быть эффективно реализованы в модели с 9 миллиардами параметров. Благодаря инновационной структуре обучения RLCS и уникальной парадигме мышления она сравнивается или превосходит гораздо более крупные системы с 72 миллиардами параметров в различных бенчмарках.

Попробуйте демо GLM-4.1V-9B-Thinking на Novita AI прямо сейчас и получите свои бесплатные кредиты!

Novita AI — это облачная платформа ИИ, которая предоставляет разработчикам простой способ развёртывания моделей ИИ с помощью нашего простого API, а также предлагает доступные и надёжные GPU-облачные ресурсы для создания и масштабирования решений.