重點摘要
多模態 + 長影片理解
支援圖片、文件與長影片
適用於教育、媒體、監控
精確定位 + 結構化輸出
精準偵測物件
從發票、表單、圖表中提取結構化資料
適用於金融、法律、物流
您可以在 Novita AI API 上以非常方便的方式開始免費試用!
Qwen2.5-VL-72B-Instruct 是一個強大的 72B 參數大型視覺語言模型,專為指令遵循任務微調。它同時支援文字與視覺輸入(圖片與影片),非常適合多模態推理、文件理解、影片分析及代理互動。
什麼是 Qwen2.5-VL-72B?
展示 Qwen2.5-VL-72B 能力的範例
輸入: 查詢:「使用者正在體驗圖片生成功能」,描述內容在影片中的什麼時間出現?使用秒數格式。
輸出: 描述內容出現在影片的 28 秒至 50 秒。這段期間使用者與圖片生成功能互動,要求並接收一幅白天與夜晚的山景藝術雙場景畫作。使用者隨後在生成的圖片中加入一隻鳥,展示了圖片生成工具的功能。
Qwen2.5-VL-72B 總覽
| **類別 ** | ** 項目 ** | ** 詳細資訊** |
|---|---|---|
| 基本資訊 | 發布日期 | 2025 年 1 月 28 日 |
| 模型大小 | 73.4B 參數 | |
| 開源 | 是(由 Qwen 發布) | |
| 架構 | 核心組件 | 動態解析度與幀率訓練\SwiGLU + RMSNorm + 視窗注意力\動態 FPS 取樣 |
| 語言支援 | 支援語言 | 擅長多語言文件與場景文字辨識 |
| 多模態 | 能力 | 視覺(圖片與影片)及文字輸入 |
| **上下文 ** | 上下文視窗 | 可設定最高 64K tokens 用於長影片 |
| 精度 | 張量類型 | BF16 |
| 基準測試 | MMMU(圖片) | 70.2(Qwen2.5-VL-72B) vs 70.3(GPT-4o) |
| MVBench(影片) | 70.4(Qwen2.5-VL-72B) vs 64.6(GPT-4o) | |
| AITZ_EM(代理) | 83.2(Qwen2.5-VL-72B) vs 35.3(GPT-4o) |
如何本地存取 Qwen2.5-VL-72B?
Qwen2.5-VL-72B 硬體需求
| **類別 ** | ** 項目 ** | ** 詳細資訊** |
|---|---|---|
| 硬體 | Nvidia A100(80 GB) | 8 張 GPU × 80 GB = 640 GB 總 VRAM |
| Nvidia H100(80 GB) | 8 張 GPU × 80 GB = 640 GB 總 VRAM | |
| RTX 4090(24 GB) | 24 張 GPU × 24 GB = 576 GB 總 VRAM | |
| Nvidia L40S(48 GB) | 8 張 GPU × 48 GB = 384 GB 總 VRAM |
本地安裝 Qwen2.5-VL-72B
1. 安裝相依套件
bashCopyEdit<code># 從源碼安裝最新 Hugging Face Transformers(Qwen2.5-VL 需要)<br>pip install git+https://github.com/huggingface/transformers accelerate<br><br># 安裝視覺工具套件(建議搭配 decord 以快速載入影片)<br>pip install 'qwen-vl-utils[decord]==0.0.8'</code>
2. 使用 Qwen2.5-VL 進行視覺問答
import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq
from qwen_vl_utils import load_image, load_video, build_multimodal_inputs
# 🔧 模型名稱(也可使用本地路徑)
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"
# 載入 tokenizer 與模型
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_name, trust_remote_code=True).eval()
# 載入圖片(可以是本地路徑、URL 或 base64)
image = load_image("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg")
# 定義查詢
query = "圖片中正在發生什麼事?"
# 建立模型輸入
inputs = build_multimodal_inputs(tokenizer, query=query, images=[image])
# 推論
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=128)
# 解碼並輸出回應
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("答案:", response)
3. 影片輸入範例
video = load_video("path_or_url_to_video.mp4")
query = "總結影片內容。"
inputs = build_multimodal_inputs(tokenizer, query=query, videos=[video])
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=128)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("答案:", response)
如何透過 Novita API 存取 Qwen2.5-VL-72B?
步驟 1:登入並進入模型庫
登入您的帳戶,然後點擊 模型庫 按鈕。

立即試用 Qwen2-VL-72B-Instruct Demo!
步驟 2:開始免費試用
開始免費試用,探索所選模型的功能。

步驟 3:取得 API 金鑰
為了驗證 API,我們將提供您一組新的 API 金鑰。進入「設定」頁面,您可以複製如圖所示的 API 金鑰。

步驟 4:安裝 API
使用您程式語言專用的套件管理器安裝 API。

安裝完成後,將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API,開始與 Novita AI LLM 互動。以下是使用 Python 用戶的聊天補全 API 範例。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<您的 Novita AI API 金鑰>",
)
model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # 或 False
max_tokens = 2048
system_content = """請當一個有用的助手"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "你好!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
透過雲端 GPU 使用 Qwen2.5-VL-72B
步驟 1:註冊帳戶
如果您是 Novita AI 的新用戶,請先在我們的網站上建立帳戶。註冊完成後,前往「GPUs」分頁,探索可用資源並開始您的旅程。

步驟 2:探索範本與 GPU 伺服器
首先選擇符合您專案需求的範本,例如 PyTorch、TensorFlow 或 CUDA。選擇適合的版本,例如 PyTorch 2.2.1 或 CUDA 11.8.0。然後選擇 A100 GPU 伺服器配置,該配置提供強大的效能,可應付高負載工作量,並擁有充足的 VRAM、RAM 與磁碟容量。

步驟 3:自訂部署設定
選擇範本與 GPU 後,透過調整作業系統版本(例如 CUDA 11.8)等參數來自訂部署設定。您也可以調整其他配置,讓環境更符合專案的特定需求。

步驟 4:啟動執行個體
完成範本與部署設定後,按一下「啟動執行個體」來設定您的 GPU 執行個體。這會啟動環境設定,讓您開始使用 GPU 資源進行 AI 任務。

Qwen2.5-VL-72B-Instruct 在各種視覺語言任務中提供尖端效能。無論您是自動化金融工作流程還是即時分析影片,它都結合了深度、規模與靈活性。憑藉開源存取及多種部署路徑 – 本地 GPU、雲端實例或 API – Qwen2.5-VL 賦能開發者與企業建構更智慧、更強大的 AI 系統。
常見問題
我可以在本地部署 Qwen2.5-VL-72B-Instruct 嗎?
可以。您可以在配備足夠 VRAM 的機器上執行(例如 8×A100 或 24×4090 GPU)。
如何透過 API 使用 Qwen2.5-VL-72B-Instruct?
您可以透過 Novita AI 的模型庫 存取 Qwen2.5-VL-72B-Instruct,開始免費試用,並取得 API 金鑰以快速整合。
Qwen2.5-VL-72B 與 Qwen2.5-VL-72B-Instruct 有何不同?
基礎模型負責一般視覺語言任務;「Instruct」版本經過微調,能更準確地遵循使用者指令。
Novita AI 是一個 AI 雲端平台,讓開發者可以透過簡單的 API 輕鬆部署 AI 模型,同時提供經濟實惠且可靠的 GPU 雲端服務,用於建置與擴充應用。
推薦閱讀
- Qwen2.5-VL:功能強大但耗 RAM 的視覺語言模型
- Qwen 2.5 72b vs Llama 3.3 70b:哪個模型適合您的需求?
- Qwen 2.5 vs Llama 3.2 90B:編碼與圖像推理能力比較分析
簡單的 API 與可擴充的 GPU
Novita AI 是一個 AI 雲端平台,讓開發者可以透過簡單的 API 輕鬆部署 AI 模型,同時提供經濟實惠且可靠的 GPU 雲端服務,用於建置與擴充應用。
