教學:如何本地、透過 API 或在雲端 GPU 存取 Qwen2.5-VL-72B

教學:如何本地、透過 API 或在雲端 GPU 存取 Qwen2.5-VL-72B

重點摘要

多模態 + 長影片理解
支援圖片、文件與長影片
適用於教育、媒體、監控

精確定位 + 結構化輸出
精準偵測物件
從發票、表單、圖表中提取結構化資料
適用於金融、法律、物流

您可以在 Novita AI API 上以非常方便的方式開始免費試用!

Qwen2.5-VL-72B-Instruct 是一個強大的 72B 參數大型視覺語言模型,專為指令遵循任務微調。它同時支援文字與視覺輸入(圖片與影片),非常適合多模態推理、文件理解、影片分析及代理互動。

什麼是 Qwen2.5-VL-72B?

展示 Qwen2.5-VL-72B 能力的範例

輸入: 查詢:「使用者正在體驗圖片生成功能」,描述內容在影片中的什麼時間出現?使用秒數格式。

https://videopress.com/v/jVcvFOlu?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

輸出: 描述內容出現在影片的 28 秒至 50 秒。這段期間使用者與圖片生成功能互動,要求並接收一幅白天與夜晚的山景藝術雙場景畫作。使用者隨後在生成的圖片中加入一隻鳥,展示了圖片生成工具的功能。

Qwen2.5-VL-72B 總覽

**類別 ** ** 項目 ** ** 詳細資訊**
基本資訊 發布日期 2025 年 1 月 28 日
模型大小 73.4B 參數
開源 是(由 Qwen 發布)
架構 核心組件 動態解析度與幀率訓練\SwiGLU + RMSNorm + 視窗注意力\動態 FPS 取樣
語言支援 支援語言 擅長多語言文件與場景文字辨識
多模態 能力 視覺(圖片與影片)及文字輸入
**上下文 ** 上下文視窗 可設定最高 64K tokens 用於長影片
精度 張量類型 BF16
基準測試 MMMU(圖片) 70.2(Qwen2.5-VL-72B) vs 70.3(GPT-4o)
MVBench(影片) 70.4(Qwen2.5-VL-72B) vs 64.6(GPT-4o)
AITZ_EM(代理) 83.2(Qwen2.5-VL-72B) vs 35.3(GPT-4o)

如何本地存取 Qwen2.5-VL-72B?

Qwen2.5-VL-72B 硬體需求

**類別 ** ** 項目 ** ** 詳細資訊**
硬體 Nvidia A100(80 GB) 8 張 GPU × 80 GB = 640 GB 總 VRAM
Nvidia H100(80 GB) 8 張 GPU × 80 GB = 640 GB 總 VRAM
RTX 4090(24 GB) 24 張 GPU × 24 GB = 576 GB 總 VRAM
Nvidia L40S(48 GB) 8 張 GPU × 48 GB = 384 GB 總 VRAM

本地安裝 Qwen2.5-VL-72B

1. 安裝相依套件

bashCopyEdit<code># 從源碼安裝最新 Hugging Face Transformers(Qwen2.5-VL 需要)<br>pip install git+https://github.com/huggingface/transformers accelerate<br><br># 安裝視覺工具套件(建議搭配 decord 以快速載入影片)<br>pip install 'qwen-vl-utils[decord]==0.0.8'</code>

2. 使用 Qwen2.5-VL 進行視覺問答

import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq
from qwen_vl_utils import load_image, load_video, build_multimodal_inputs

# 🔧 模型名稱(也可使用本地路徑)
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"

# 載入 tokenizer 與模型
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_name, trust_remote_code=True).eval()

# 載入圖片(可以是本地路徑、URL 或 base64)
image = load_image("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg")

# 定義查詢
query = "圖片中正在發生什麼事?"

# 建立模型輸入
inputs = build_multimodal_inputs(tokenizer, query=query, images=[image])

# 推論
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

# 解碼並輸出回應
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("答案:", response)

3. 影片輸入範例

video = load_video("path_or_url_to_video.mp4")
query = "總結影片內容。"

inputs = build_multimodal_inputs(tokenizer, query=query, videos=[video])

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("答案:", response)

如何透過 Novita API 存取 Qwen2.5-VL-72B?

步驟 1:登入並進入模型庫

登入您的帳戶,然後點擊 模型庫 按鈕。

登入並進入模型庫

立即試用 Qwen2-VL-72B-Instruct Demo!

步驟 2:開始免費試用

開始免費試用,探索所選模型的功能。

步驟 3:取得 API 金鑰

為了驗證 API,我們將提供您一組新的 API 金鑰。進入「設定」頁面,您可以複製如圖所示的 API 金鑰。

取得 API 金鑰

步驟 4:安裝 API

使用您程式語言專用的套件管理器安裝 API。

安裝完成後,將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API,開始與 Novita AI LLM 互動。以下是使用 Python 用戶的聊天補全 API 範例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<您的 Novita AI API 金鑰>",
)

model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # 或 False
max_tokens = 2048
system_content = """請當一個有用的助手"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "你好!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

透過雲端 GPU 使用 Qwen2.5-VL-72B

步驟 1:註冊帳戶

如果您是 Novita AI 的新用戶,請先在我們的網站上建立帳戶。註冊完成後,前往「GPUs」分頁,探索可用資源並開始您的旅程。

Novita AI 網站截圖

步驟 2:探索範本與 GPU 伺服器

首先選擇符合您專案需求的範本,例如 PyTorch、TensorFlow 或 CUDA。選擇適合的版本,例如 PyTorch 2.2.1 或 CUDA 11.8.0。然後選擇 A100 GPU 伺服器配置,該配置提供強大的效能,可應付高負載工作量,並擁有充足的 VRAM、RAM 與磁碟容量。

novita ai cloud gpu 使用截圖

立即體驗 Novita AI 高效能 GPU

步驟 3:自訂部署設定

選擇範本與 GPU 後,透過調整作業系統版本(例如 CUDA 11.8)等參數來自訂部署設定。您也可以調整其他配置,讓環境更符合專案的特定需求。

novita ai cloud gpu 使用截圖

步驟 4:啟動執行個體

完成範本與部署設定後,按一下「啟動執行個體」來設定您的 GPU 執行個體。這會啟動環境設定,讓您開始使用 GPU 資源進行 AI 任務。

novita ai cloud gpu 使用截圖

Qwen2.5-VL-72B-Instruct 在各種視覺語言任務中提供尖端效能。無論您是自動化金融工作流程還是即時分析影片,它都結合了深度、規模與靈活性。憑藉開源存取及多種部署路徑 – 本地 GPU、雲端實例或 API – Qwen2.5-VL 賦能開發者與企業建構更智慧、更強大的 AI 系統。

常見問題

我可以在本地部署 Qwen2.5-VL-72B-Instruct 嗎?

可以。您可以在配備足夠 VRAM 的機器上執行(例如 8×A100 或 24×4090 GPU)。

如何透過 API 使用 Qwen2.5-VL-72B-Instruct?

您可以透過 Novita AI 的模型庫 存取 Qwen2.5-VL-72B-Instruct,開始免費試用,並取得 API 金鑰以快速整合。

Qwen2.5-VL-72B 與 Qwen2.5-VL-72B-Instruct 有何不同?

基礎模型負責一般視覺語言任務;「Instruct」版本經過微調,能更準確地遵循使用者指令。

Novita AI 是一個 AI 雲端平台,讓開發者可以透過簡單的 API 輕鬆部署 AI 模型,同時提供經濟實惠且可靠的 GPU 雲端服務,用於建置與擴充應用。

推薦閱讀

簡單的 API 與可擴充的 GPU

Novita AI 是一個 AI 雲端平台,讓開發者可以透過簡單的 API 輕鬆部署 AI 模型,同時提供經濟實惠且可靠的 GPU 雲端服務,用於建置與擴充應用。

註冊 / 登入