Qwen2.5-VL-72B: Мощная, но требовательная к памяти модель зрения-языка

Qwen2.5-VL-72B: Мощная, но требовательная к памяти модель зрения-языка

Ключевые особенности

Анализ текста в изображениях: Qwen2.5-VL отлично справляется с извлечением и анализом текста, диаграмм, иконок и макетов из изображений.

Агентские возможности: Работает как визуальный агент, поддерживая такие задачи, как управление смартфонами и компьютерами.

Понимание видео: Обрабатывает длинные видео (более 1 часа) с точным определением событий.

Эффективный доступ: Novita AI предоставляет доступный вариант API, позволяющий избежать высоких затрат на оборудование.

Qwen2.5-VL — это новейшая флагманская модель зрения-языка в серии Qwen, представляющая собой значительный шаг вперед по сравнению с предшественником Qwen2-VL. Модель Qwen2.5-VL-72B-Instruct — это версия, настроенная на выполнение инструкций, с 72 миллиардами параметров, разработанная как более эффективная и практичная модель зрения-языка на основе ценных отзывов разработчиков.

Что такое Qwen2.5-VL-72B-Instruct?

Qwen2.5-VL-72B-Instruct — это большая модель зрения-языка (LVLM) с 72 миллиардами параметров, доработанная для задач, основанных на инструкциях. Она способна понимать и анализировать как визуальные (изображения/видео), так и текстовые входные данные для выполнения широкого круга задач. Ключевые улучшения по сравнению с Qwen2-VL:

  • Улучшенное визуальное понимание: Умеет распознавать обычные объекты, анализировать текст, диаграммы, иконки, графику и макеты внутри изображений.

РАСПОЗНАВАНИЕ ПРОДУКТОВ с помощью Qwen2.5-VL

Источник: Qwen

  • Агентские возможности: Действует как визуальный агент, способный рассуждать и динамически управлять инструментами для работы с компьютером и телефоном.

использование мобильного телефона с Qwen2.5-VL

Источник: Qwen

  • Улучшенное понимание видео: Может понимать видео длительностью более часа, определять релевантные видеосегменты, поддерживает динамическое обучение FPS и кодирование абсолютного времени для лучшего временного понимания.

улучшенное понимание видео с Qwen2.5-VL

Источник: Qwen

  • Точная локализация объектов: Точно обнаруживает объекты на изображении с помощью ограничивающих рамок/точек и обеспечивает стабильный вывод JSON для координат и атрибутов.
  • Генерация структурированного вывода: Поддерживает структурированный вывод для отсканированных счетов и таблиц, что полезно в финансах и коммерции.

привязка объектов с Qwen2.5-VL

Источник: Qwen

Бенчмарк Qwen2-VL-72B-Instruct

Бенчмарк Qwen2.5-VL

Источник: Qwen

Qwen2.5-VL-72B-Instruct демонстрирует конкурентоспособные или превосходные результаты по множеству бенчмарков, преуспевая в задачах с изображениями (например, MMMUval, MathVista_MINI, DocVQA_VAL), задачах с видео (например, VideoMME, MVBench, EgoSchema) и агентских задачах (например, ScreenSpot, Android Control, MobileMiniWob++_SR). Он часто превосходит Qwen2-VL-72B и конкурирует с ведущими моделями, такими как GPT4o, Claude3.5 Sonnet и Gemini 2.0. Кроме того, Qwen2.5-VL-7B превосходит GPT-4o-mini в нескольких задачах, а Qwen2.5-VL-3B превосходит версию Qwen2-VL на 7B.

Аппаратные требования Qwen2-VL-72B-Instruct

Модель GPU VRAM на GPU Количество GPU Общий объём VRAM Примерная стоимость
Nvidia A100 (80 ГБ) 80 ГБ 8 GPU 640 ГБ Примерно $205 496
Nvidia H100 (80 ГБ) 80 ГБ 8 GPU 640 ГБ Примерно $200 000 - $320 000
Nvidia RTX 4090 24 ГБ 24 GPU 576 ГБ Примерно $57 600 - $66 120
Nvidia L40S 48 ГБ 8 GPU 384 ГБ Примерно $46 799,60 - $83 712,80

Для запуска Qwen2-VL-72B-Instruct лучшим универсальным вариантом является Nvidia A100 (80 ГБ), обеспечивающий баланс между стоимостью, объёмом VRAM и производительностью. H100 (80 ГБ) подходит для организаций, ориентированных на производительность, в то время как RTX 4090 и L40S являются жизнеспособными вариантами для ограниченного бюджета, хотя и имеют компромиссы в сложности и объёме VRAM.

Тестирование Qwen2-VL-72B-Instruct

Входные данные: Дайте запрос: «пользователь использует функцию генерации изображений», когда в видео происходит описанное содержимое? Используйте секунды для формата времени.

https://videopress.com/v/jVcvFOlu?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Выходные данные: Описанное содержимое происходит с 28-й по 50-ю секунду видео. В этом сегменте пользователь взаимодействует с функцией генерации изображений, запрашивая и получая художественную двойную сцену с изображением горы днём и ночью. Затем пользователь добавляет птицу на сгенерированное изображение, демонстрируя функциональность инструмента генерации изображений.

Как получить доступ к Qwen2-VL-72B-Instruct?

Novita AI — это облачная AI-платформа, которая предоставляет разработчикам простой способ развертывания AI-моделей с помощью нашего простого API, а также предлагает доступное и надежное GPU-облако для создания и масштабирования.

Шаг 1: Войдите и откройте библиотеку моделей

Войдите в свою учетную запись и нажмите кнопку Библиотека моделей.

Войдите и откройте библиотеку моделей

Попробуйте демо Qwen2-VL-72B-Instruct сейчас!

Шаг 2: Начните бесплатный пробный период

Начните бесплатный пробный период, чтобы изучить возможности выбранной модели.

Шаг 3: Получите ваш API-ключ

Для аутентификации в API мы предоставим вам новый API-ключ. Перейдите на страницу «Настройки», где вы можете скопировать API-ключ, как показано на изображении.

получить api ключ

Шаг 4: Установите API

Установите API с помощью менеджера пакетов, соответствующего вашему языку программирования.

После установки импортируйте необходимые библиотеки в вашу среду разработки. Инициализируйте API с вашим API-ключом, чтобы начать взаимодействие с Novita AI LLM. Это пример использования API чат-завершений для пользователей Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<ВАШ API-КЛЮЧ Novita AI>",
)

model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # или False
max_tokens = 2048
system_content = """Будьте полезным помощником"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Привет!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  

Qwen2.5-VL-72B-Instruct представляет собой значительный прогресс в моделях зрения-языка, улучшая визуальное понимание, понимание видео, агентские возможности, локализацию и генерацию структурированного вывода. Благодаря динамическому обучению разрешению и эффективному визуальному кодировщику он достигает превосходных показателей в бенчмарках по задачам с изображениями, видео и агентами.

Часто задаваемые вопросы

Как Qwen2.5-VL-instruct улучшает визуальное понимание?

Он анализирует текст (многоязычный, вертикальный), диаграммы, иконки и макеты, извлекая ключевую информацию и преобразуя документы в структурированные форматы, такие как HTML.

Каковы новые возможности Qwen2.5-VL-instruct в работе с видео?

Обрабатывает видео длительностью более 1 часа, определяет события с точностью до секунды, выполняет временную привязку, генерирует структурированные подписи и обобщает содержимое.

Какое рекомендуемое оборудование для запуска Qwen2.5-VL-instruct?

Для локального использования рекомендуется GPU с объёмом VRAM не менее 384 ГБ. Или вы можете выбрать эффективный API, например Novita AI, чтобы использовать его!

Novita AI — это облачная AI-платформа, которая предоставляет разработчикам простой способ развертывания AI-моделей с помощью нашего простого API, а также предлагает доступное и надежное GPU-облако для создания и масштабирования.

Рекомендуемое чтение