Qwen2.5-VL-72B:强大但消耗内存的视觉语言模型

Qwen2.5-VL-72B:强大但消耗内存的视觉语言模型

关键亮点

文本到图像分析:Qwen2.5-VL 擅长从图像中提取和分析文本、图表、图标和布局。

智能体能力:充当视觉智能体,支持管理智能手机和电脑等任务。

视频理解:处理长视频(1 小时以上),精确定位事件发生点。

高效访问Novita AI 提供了经济实惠的 API 选项,无需承担高昂的硬件成本。

Qwen2.5-VL 是 Qwen 系列最新的旗舰视觉语言模型,相比前代 Qwen2-VL 有显著飞跃。Qwen2.5-VL-72B-Instruct 是一个经过指令微调的版本,拥有 720 亿参数,基于开发者的宝贵反馈而设计,成为一个更高效、更实用的视觉语言模型。

什么是 Qwen2.5-VL-72B-Instruct?

Qwen2.5-VL-72B-Instruct 是一个 大型视觉语言模型(LVLM),拥有 720 亿参数,专为基于指令的任务进行了微调。它能够理解并分析视觉(图像/视频)和文本输入,执行多种任务。相比 Qwen2-VL 的主要增强包括:

  • 增强的视觉理解:擅长识别常见物体,分析图像中的文本、图表、图标、图形和布局。

PRODUCTS IDENNNTIFICATION  via Qwen2.5-VL

来自 Qwen

  • 智能体能力:充当视觉智能体,能够推理并动态引导工具操作电脑和手机。

mobile use  via Qwen2.5-VL

来自 Qwen

  • 改进的视频理解 :能够理解超过一小时的视频,定位相关片段,并支持 动态 FPS 训练 绝对时间编码以实现更好的时间理解。

improved video understanding via Qwen2.5-VL

来自 Qwen

  • 精确物体定位:使用边界框/点准确检测图像中的物体,并提供稳定的坐标和属性 JSON 输出。
  • 结构化输出生成:支持扫描发票和表格的结构化输出,适用于金融和商业领域。

object grounding via Qwen2.5-VL

来自 Qwen

Qwen2-VL-72B-Instruct 基准测试

Qwen2.5-VL benchmark

来自 Qwen

Qwen2.5-VL-72B-Instruct 在众多基准测试中表现出色,甚至在许多任务中达到领先水平。它在图像任务(如 MMMUval、MathVista_MINI、DocVQA_VAL)、视频任务(如 VideoMME、MVBench、EgoSchema)以及智能体任务(如 ScreenSpot、Android Control、MobileMiniWob++_SR)上均展现出竞争力或优异的性能,通常超越 Qwen2-VL-72B,并与 GPT4o、Claude3.5 Sonnet 和 Gemini 2.0 等领先模型不相上下。此外,Qwen2.5-VL-7B 在多项任务中优于 GPT-4o-mini,而 Qwen2.5-VL-3B 则超越了 Qwen2-VL 的 7B 版本。

Qwen2-VL-72B-Instruct 硬件需求

**GPU 型号 ** ** 单卡显存 ** ** 使用 GPU 数量 ** ** 总显存 ** ** 估计成本**
Nvidia A100 (80 GB) 80 GB 8 张 640 GB 约 $205,496
Nvidia H100 (80 GB) 80 GB 8 张 640 GB 约 $200,000 - $320,000
Nvidia RTX 4090 24 GB 24 张 576 GB 约 $57,600 - $66,120
Nvidia L40S 48 GB 8 张 384 GB 约 $46,799.60 - $83,712.80

对于运行 Qwen2-VL-72B-InstructNvidia A100 (80 GB) 是综合性价比的最佳选择,兼顾成本、显存和性能。H100 (80 GB) 适用于追求性能的组织,而 RTX 4090L40S 则适合预算有限的配置,但会在复杂性和显存方面带来一些权衡。

Qwen2-VL-72B-Instruct 测试

输入: 给定查询:“用户正在体验图像生成功能”,该描述内容在视频中何时出现?请以秒为单位返回时间。

https://videopress.com/v/jVcvFOlu?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

输出: 描述的内容出现在视频的第 28 秒到第 50 秒。在此期间,用户与图像生成功能交互,请求并接收了一幅昼夜山景的艺术双场景绘画。随后用户在生成的图像中添加了一只鸟,展示了图像生成工具的功能。

如何访问 Qwen2-VL-72B-Instruct?

Novita AI 是一个 AI 云平台,为开发者提供使用简单 API 部署 AI 模型的简便途径,同时还提供经济实惠、可靠的 GPU 云用于构建和扩展。

步骤 1:登录并访问模型库

登录您的账户,点击 模型库 按钮。

Log In and Access the Model Library

立即试用 Qwen2-VL-72B-Instruct Demo!

步骤 2:开始免费试用

开始免费试用,探索所选模型的能力。

步骤 3:获取 API 密钥

为了通过 API 进行身份验证,我们将为您提供一个新的 API 密钥。进入“设置”页面,您可以按照图片提示复制 API 密钥。

get api key

步骤 4:安装 API

使用适用于您编程语言的包管理器安装 API。

安装完成后,将必要的库导入到您的开发环境中。使用 API 密钥初始化 API,开始与 Novita AI LLM 交互。以下是为 Python 用户使用聊天补全 API 的示例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

Qwen2.5-VL-72B-Instruct 代表了视觉语言模型的一次重大进步,增强了视觉理解、视频理解、智能体能力、物体定位和结构化输出生成。通过动态分辨率训练和高效的视觉编码器,它在图像、视频和智能体任务上均取得了卓越的基准性能。

常见问题

Qwen2.5-VL-instruct 如何提升视觉理解?

它能够分析文本(多语言、竖排)、图表、图标和布局,同时提取关键信息,并将文档转换为 HTML 等结构化格式。

Qwen2.5-VL-instruct 有哪些新的视频能力?

能处理超过 1 小时的视频,精确到秒定位事件,执行时间定位,生成结构化字幕并总结内容。

运行 Qwen2.5-VL-instruct 推荐采用什么硬件?

对于本地使用,推荐 至少 384GB 显存的 GPU。或者您可以选择诸如 Novita AI 这类高效的 API 来使用它!

Novita AI 是一个 AI 云平台,为开发者提供使用简单 API 部署 AI 模型的简便途径,同时还提供经济实惠、可靠的 GPU 云用于构建和扩展。

推荐阅读