Qwen2.5-VL-72B：强大但消耗内存的视觉语言模型

什么是 Qwen2.5-VL-72B-Instruct？
Qwen2-VL-72B-Instruct 基准测试
Qwen2-VL-72B-Instruct 硬件需求
Qwen2-VL-72B-Instruct 测试
如何访问 Qwen2-VL-72B-Instruct？
常见问题

关键亮点

文本到图像分析：Qwen2.5-VL 擅长从图像中提取和分析文本、图表、图标和布局。

智能体能力：充当视觉智能体，支持管理智能手机和电脑等任务。

视频理解：处理长视频（1 小时以上），精确定位事件发生点。

高效访问：Novita AI 提供了经济实惠的 API 选项，无需承担高昂的硬件成本。

Qwen2.5-VL 是 Qwen 系列最新的旗舰视觉语言模型，相比前代 Qwen2-VL 有显著飞跃。Qwen2.5-VL-72B-Instruct 是一个经过指令微调的版本，拥有 720 亿参数，基于开发者的宝贵反馈而设计，成为一个更高效、更实用的视觉语言模型。

什么是 Qwen2.5-VL-72B-Instruct？

Qwen2.5-VL-72B-Instruct 是一个 大型视觉语言模型（LVLM），拥有 720 亿参数，专为基于指令的任务进行了微调。它能够理解并分析视觉（图像/视频）和文本输入，执行多种任务。相比 Qwen2-VL 的主要增强包括：

增强的视觉理解：擅长识别常见物体，分析图像中的文本、图表、图标、图形和布局。

来自 Qwen

智能体能力：充当视觉智能体，能够推理并动态引导工具操作电脑和手机。

来自 Qwen

改进的视频理解 ：能够理解超过一小时的视频，定位相关片段，并支持 动态 FPS 训练和绝对时间编码以实现更好的时间理解。

来自 Qwen

精确物体定位：使用边界框/点准确检测图像中的物体，并提供稳定的坐标和属性 JSON 输出。
结构化输出生成：支持扫描发票和表格的结构化输出，适用于金融和商业领域。

来自 Qwen

Qwen2-VL-72B-Instruct 基准测试

来自 Qwen

Qwen2.5-VL-72B-Instruct 在众多基准测试中表现出色，甚至在许多任务中达到领先水平。它在图像任务（如 MMMUval、MathVista_MINI、DocVQA_VAL）、视频任务（如 VideoMME、MVBench、EgoSchema）以及智能体任务（如 ScreenSpot、Android Control、MobileMiniWob++_SR）上均展现出竞争力或优异的性能，通常超越 Qwen2-VL-72B，并与 GPT4o、Claude3.5 Sonnet 和 Gemini 2.0 等领先模型不相上下。此外，Qwen2.5-VL-7B 在多项任务中优于 GPT-4o-mini，而 Qwen2.5-VL-3B 则超越了 Qwen2-VL 的 7B 版本。

Qwen2-VL-72B-Instruct 硬件需求

GPU 型号	单卡显存	使用 GPU 数量	总显存	估计成本
Nvidia A100 (80 GB)	80 GB	8 张	640 GB	约 $205,496
Nvidia H100 (80 GB)	80 GB	8 张	640 GB	约 $200,000 - $320,000
Nvidia RTX 4090	24 GB	24 张	576 GB	约 $57,600 - $66,120
Nvidia L40S	48 GB	8 张	384 GB	约 $46,799.60 - $83,712.80

对于运行 Qwen2-VL-72B-Instruct，Nvidia A100 (80 GB) 是综合性价比的最佳选择，兼顾成本、显存和性能。H100 (80 GB) 适用于追求性能的组织，而 RTX 4090 和 L40S 则适合预算有限的配置，但会在复杂性和显存方面带来一些权衡。

Qwen2-VL-72B-Instruct 测试

输入： 给定查询：“用户正在体验图像生成功能”，该描述内容在视频中何时出现？请以秒为单位返回时间。

https://videopress.com/v/jVcvFOlu?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

输出： 描述的内容出现在视频的第 28 秒到第 50 秒。在此期间，用户与图像生成功能交互，请求并接收了一幅昼夜山景的艺术双场景绘画。随后用户在生成的图像中添加了一只鸟，展示了图像生成工具的功能。

如何访问 Qwen2-VL-72B-Instruct？

Novita AI 是一个 AI 云平台，为开发者提供使用简单 API 部署 AI 模型的简便途径，同时还提供经济实惠、可靠的 GPU 云用于构建和扩展。

步骤 1：登录并访问模型库

登录您的账户，点击 模型库 按钮。

立即试用 Qwen2-VL-72B-Instruct Demo！

步骤 2：开始免费试用

开始免费试用，探索所选模型的能力。

步骤 3：获取 API 密钥

为了通过 API 进行身份验证，我们将为您提供一个新的 API 密钥。进入“设置”页面，您可以按照图片提示复制 API 密钥。

步骤 4：安装 API

使用适用于您编程语言的包管理器安装 API。

安装完成后，将必要的库导入到您的开发环境中。使用 API 密钥初始化 API，开始与 Novita AI LLM 交互。以下是为 Python 用户使用聊天补全 API 的示例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Qwen2.5-VL-72B-Instruct 代表了视觉语言模型的一次重大进步，增强了视觉理解、视频理解、智能体能力、物体定位和结构化输出生成。通过动态分辨率训练和高效的视觉编码器，它在图像、视频和智能体任务上均取得了卓越的基准性能。

常见问题

Qwen2.5-VL-instruct 如何提升视觉理解？

它能够分析文本（多语言、竖排）、图表、图标和布局，同时提取关键信息，并将文档转换为 HTML 等结构化格式。

Qwen2.5-VL-instruct 有哪些新的视频能力？

能处理超过 1 小时的视频，精确到秒定位事件，执行时间定位，生成结构化字幕并总结内容。

运行 Qwen2.5-VL-instruct 推荐采用什么硬件？

对于本地使用，推荐 至少 384GB 显存的 GPU。或者您可以选择诸如 Novita AI 这类高效的 API 来使用它！

Novita AI 是一个 AI 云平台，为开发者提供使用简单 API 部署 AI 模型的简便途径，同时还提供经济实惠、可靠的 GPU 云用于构建和扩展。

Qwen2.5-VL-72B：强大但消耗内存的视觉语言模型

关键亮点

什么是 Qwen2.5-VL-72B-Instruct？

Qwen2-VL-72B-Instruct 基准测试

Qwen2-VL-72B-Instruct 硬件需求

Qwen2-VL-72B-Instruct 测试