教學：如何本地、透過 API 或在雲端 GPU 存取 Qwen2.5-VL-72B

什麼是 Qwen2.5-VL-72B？
如何本地存取 Qwen2.5-VL-72B？
如何透過 Novita API 存取 Qwen2.5-VL-72B？
透過雲端 GPU 使用 Qwen2.5-VL-72B
常見問題
簡單的 API 與可擴充的 GPU

重點摘要

多模態 + 長影片理解
支援圖片、文件與長影片
適用於教育、媒體、監控

精確定位 + 結構化輸出
精準偵測物件
從發票、表單、圖表中提取結構化資料
適用於金融、法律、物流

您可以在 Novita AI API 上以非常方便的方式開始免費試用！

Qwen2.5-VL-72B-Instruct 是一個強大的 72B 參數大型視覺語言模型，專為指令遵循任務微調。它同時支援文字與視覺輸入（圖片與影片），非常適合多模態推理、文件理解、影片分析及代理互動。

什麼是 Qwen2.5-VL-72B？

展示 Qwen2.5-VL-72B 能力的範例

輸入： 查詢：「使用者正在體驗圖片生成功能」，描述內容在影片中的什麼時間出現？使用秒數格式。

https://videopress.com/v/jVcvFOlu?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

輸出： 描述內容出現在影片的 28 秒至 50 秒。這段期間使用者與圖片生成功能互動，要求並接收一幅白天與夜晚的山景藝術雙場景畫作。使用者隨後在生成的圖片中加入一隻鳥，展示了圖片生成工具的功能。

Qwen2.5-VL-72B 總覽

類別	項目	詳細資訊
基本資訊	發布日期	2025 年 1 月 28 日
	模型大小	73.4B 參數
	開源	是（由 Qwen 發布）
架構	核心組件	動態解析度與幀率訓練\SwiGLU + RMSNorm + 視窗注意力\動態 FPS 取樣
語言支援	支援語言	擅長多語言文件與場景文字辨識
多模態	能力	視覺（圖片與影片）及文字輸入
上下文	上下文視窗	可設定最高 64K tokens 用於長影片
精度	張量類型	BF16
基準測試	MMMU（圖片）	70.2（Qwen2.5-VL-72B） vs 70.3（GPT-4o）
	MVBench（影片）	70.4（Qwen2.5-VL-72B） vs 64.6（GPT-4o）
	AITZ_EM（代理）	83.2（Qwen2.5-VL-72B） vs 35.3（GPT-4o）

如何本地存取 Qwen2.5-VL-72B？

Qwen2.5-VL-72B 硬體需求

類別	項目	詳細資訊
硬體	Nvidia A100（80 GB）	8 張 GPU × 80 GB = 640 GB 總 VRAM
	Nvidia H100（80 GB）	8 張 GPU × 80 GB = 640 GB 總 VRAM
	RTX 4090（24 GB）	24 張 GPU × 24 GB = 576 GB 總 VRAM
	Nvidia L40S（48 GB）	8 張 GPU × 48 GB = 384 GB 總 VRAM

本地安裝 Qwen2.5-VL-72B

1. 安裝相依套件

bashCopyEdit<code># 從源碼安裝最新 Hugging Face Transformers（Qwen2.5-VL 需要）<br>pip install git+https://github.com/huggingface/transformers accelerate<br><br># 安裝視覺工具套件（建議搭配 decord 以快速載入影片）<br>pip install 'qwen-vl-utils[decord]==0.0.8'</code>

2. 使用 Qwen2.5-VL 進行視覺問答

import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq
from qwen_vl_utils import load_image, load_video, build_multimodal_inputs

# 🔧 模型名稱（也可使用本地路徑）
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"

# 載入 tokenizer 與模型
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_name, trust_remote_code=True).eval()

# 載入圖片（可以是本地路徑、URL 或 base64）
image = load_image("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg")

# 定義查詢
query = "圖片中正在發生什麼事？"

# 建立模型輸入
inputs = build_multimodal_inputs(tokenizer, query=query, images=[image])

# 推論
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

# 解碼並輸出回應
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("答案：", response)

3. 影片輸入範例

video = load_video("path_or_url_to_video.mp4")
query = "總結影片內容。"

inputs = build_multimodal_inputs(tokenizer, query=query, videos=[video])

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("答案：", response)

如何透過 Novita API 存取 Qwen2.5-VL-72B？

步驟 1：登入並進入模型庫

登入您的帳戶，然後點擊 模型庫 按鈕。

立即試用 Qwen2-VL-72B-Instruct Demo！

步驟 2：開始免費試用

開始免費試用，探索所選模型的功能。

步驟 3：取得 API 金鑰

為了驗證 API，我們將提供您一組新的 API 金鑰。進入「設定」頁面，您可以複製如圖所示的 API 金鑰。

步驟 4：安裝 API

使用您程式語言專用的套件管理器安裝 API。

安裝完成後，將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API，開始與 Novita AI LLM 互動。以下是使用 Python 用戶的聊天補全 API 範例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<您的 Novita AI API 金鑰>",
)

model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # 或 False
max_tokens = 2048
system_content = """請當一個有用的助手"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "你好！",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

透過雲端 GPU 使用 Qwen2.5-VL-72B

步驟 1：註冊帳戶

如果您是 Novita AI 的新用戶，請先在我們的網站上建立帳戶。註冊完成後，前往「GPUs」分頁，探索可用資源並開始您的旅程。

步驟 2：探索範本與 GPU 伺服器

首先選擇符合您專案需求的範本，例如 PyTorch、TensorFlow 或 CUDA。選擇適合的版本，例如 PyTorch 2.2.1 或 CUDA 11.8.0。然後選擇 A100 GPU 伺服器配置，該配置提供強大的效能，可應付高負載工作量，並擁有充足的 VRAM、RAM 與磁碟容量。

立即體驗 Novita AI 高效能 GPU

步驟 3：自訂部署設定

選擇範本與 GPU 後，透過調整作業系統版本（例如 CUDA 11.8）等參數來自訂部署設定。您也可以調整其他配置，讓環境更符合專案的特定需求。

步驟 4：啟動執行個體

完成範本與部署設定後，按一下「啟動執行個體」來設定您的 GPU 執行個體。這會啟動環境設定，讓您開始使用 GPU 資源進行 AI 任務。

Qwen2.5-VL-72B-Instruct 在各種視覺語言任務中提供尖端效能。無論您是自動化金融工作流程還是即時分析影片，它都結合了深度、規模與靈活性。憑藉開源存取及多種部署路徑 – 本地 GPU、雲端實例或 API – Qwen2.5-VL 賦能開發者與企業建構更智慧、更強大的 AI 系統。

常見問題

我可以在本地部署 Qwen2.5-VL-72B-Instruct 嗎？

可以。您可以在配備足夠 VRAM 的機器上執行（例如 8×A100 或 24×4090 GPU）。

如何透過 API 使用 Qwen2.5-VL-72B-Instruct？

您可以透過 Novita AI 的模型庫存取 Qwen2.5-VL-72B-Instruct，開始免費試用，並取得 API 金鑰以快速整合。

Qwen2.5-VL-72B 與 Qwen2.5-VL-72B-Instruct 有何不同？

基礎模型負責一般視覺語言任務；「Instruct」版本經過微調，能更準確地遵循使用者指令。

Novita AI 是一個 AI 雲端平台，讓開發者可以透過簡單的 API 輕鬆部署 AI 模型，同時提供經濟實惠且可靠的 GPU 雲端服務，用於建置與擴充應用。

簡單的 API 與可擴充的 GPU

Novita AI 是一個 AI 雲端平台，讓開發者可以透過簡單的 API 輕鬆部署 AI 模型，同時提供經濟實惠且可靠的 GPU 雲端服務，用於建置與擴充應用。

註冊 / 登入

教學：如何本地、透過 API 或在雲端 GPU 存取 Qwen2.5-VL-72B

重點摘要

什麼是 Qwen2.5-VL-72B？

展示 Qwen2.5-VL-72B 能力的範例

Qwen2.5-VL-72B 總覽

如何本地存取 Qwen2.5-VL-72B？

Qwen2.5-VL-72B 硬體需求

本地安裝 Qwen2.5-VL-72B

1. 安裝相依套件

2. 使用 Qwen2.5-VL 進行視覺問答

3. 影片輸入範例

如何透過 Novita API 存取 Qwen2.5-VL-72B？

步驟 1：登入並進入模型庫

步驟 2：開始免費試用

步驟 3：取得 API 金鑰

步驟 4：安裝 API

透過雲端 GPU 使用 Qwen2.5-VL-72B

步驟 1：註冊帳戶

步驟 2：探索範本與 GPU 伺服器

步驟 3：自訂部署設定

步驟 4：啟動執行個體

常見問題

推薦閱讀

簡單的 API 與可擴充的 GPU

Product

RESOURCES

Partners

Company

重點摘要

什麼是 Qwen2.5-VL-72B？

展示 Qwen2.5-VL-72B 能力的範例

Qwen2.5-VL-72B 總覽

如何本地存取 Qwen2.5-VL-72B？

Qwen2.5-VL-72B 硬體需求

本地安裝 Qwen2.5-VL-72B

1. 安裝相依套件

2. 使用 Qwen2.5-VL 進行視覺問答

3. 影片輸入範例

如何透過 Novita API 存取 Qwen2.5-VL-72B？

步驟 1：登入並進入模型庫

步驟 2：開始免費試用

步驟 3：取得 API 金鑰

步驟 4：安裝 API

透過雲端 GPU 使用 Qwen2.5-VL-72B

步驟 1：註冊帳戶

步驟 2：探索範本與 GPU 伺服器

步驟 3：自訂部署設定

步驟 4：啟動執行個體

常見問題

推薦閱讀

簡單的 API 與可擴充的 GPU

相關文章

Product

RESOURCES

Partners

Company