主な特長
マルチモーダル + 長時間動画理解
画像、ドキュメント、長時間動画をサポート
教育、メディア、監視に最適
高精度な位置特定 + 構造化出力
オブジェクトを正確に検出
請求書、フォーム、チャートから構造化データを抽出
金融、法律、物流で有用
Novita AI API で無料トライアルを非常に簡単に開始できます!
Qwen2.5-VL-72B-Instruct は、命令追従タスク用に微調整された強力な 72B パラメータの大規模視覚言語モデル (LVLM) です。テキストと視覚入力 (画像・動画) の両方をサポートし、マルチモーダル推論、ドキュメント理解、動画分析、エージェント的対話に最適です。
Qwen2.5-VL-72B とは?
Qwen2.5-VL-72B の能力を示す例
入力: クエリを指定: ‘ユーザーが画像生成機能を体験している’ とします。説明された内容は動画のどの時間に発生しますか?時間形式は秒を使用してください。
出力: 説明された内容は動画の 28 秒から 50 秒まで発生します。このセグメントで、ユーザーは画像生成機能と対話し、昼と夜の山のアーティスティックな二重シーン画をリクエストして受け取ります。その後、ユーザーは生成された画像に鳥を追加し、画像生成ツールの機能を示しています。
Qwen2.5-VL-72B の概要
| **カテゴリ ** | ** 項目 ** | ** 詳細** |
|---|---|---|
| 基本情報 | リリース日 | 2025 年 1 月 28 日 |
| モデルサイズ | 73.4B パラメータ | |
| オープンソース | はい (Qwen が公開) | |
| アーキテクチャ | コアコンポーネント | 動的解像度 & フレームレート学習\SwiGLU + RMSNorm + Window Attention\動的 FPS サンプリング |
| 言語サポート | 対応言語 | 多言語ドキュメントやシーンテキスト認識に優れる |
| マルチモーダル | 機能 | 視覚 (画像 & 動画) およびテキスト入力 |
| **コンテキスト ** | コンテキストウィンドウ | 長時間動画向けに最大 64K トークン まで設定可能 |
| 精度 | テンソル型 | BF16 |
| ベンチマーク | MMMU (画像) | 70.2 (Qwen2.5-VL-72B) vs 70.3 (GPT-4o) |
| MVBench (動画) | 70.4 (Qwen2.5-VL-72B) vs 64.6 (GPT-4o) | |
| AITZ_EM (エージェント) | 83.2 (Qwen2.5-VL-72B) vs 35.3 (GPT-4o) |
ローカルで Qwen2.5-VL-72B にアクセスする方法
Qwen2.5-VL-72B のハードウェア要件
| **カテゴリ ** | ** 項目 ** | ** 詳細** |
|---|---|---|
| ハードウェア | Nvidia A100 (80 GB) | 8 GPU × 80 GB = 640 GB 合計 VRAM |
| Nvidia H100 (80 GB) | 8 GPU × 80 GB = 640 GB 合計 VRAM | |
| RTX 4090 (24 GB) | 24 GPU × 24 GB = 576 GB 合計 VRAM | |
| Nvidia L40S (48 GB) | 8 GPU × 48 GB = 384 GB 合計 VRAM |
Qwen2.5-VL-72B をローカルにインストール
1. 依存関係のインストール
bashCopyEdit<code># 最新の Hugging Face Transformers をソースからインストール (Qwen2.5-VL に必要)<br>pip install git+https://github.com/huggingface/transformers accelerate<br><br># 視覚ユーティリティツールキットをインストール (高速動画読み込みには decord を推奨)<br>pip install 'qwen-vl-utils[decord]==0.0.8'</code>
2. Qwen2.5-VL を使った視覚質問応答
import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq
from qwen_vl_utils import load_image, load_video, build_multimodal_inputs
# 🔧 モデル名 (ローカルパスも使用可)
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"
# トークナイザーとモデルの読み込み
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_name, trust_remote_code=True).eval()
# 画像の読み込み (ローカルパス、URL、base64 のいずれか)
image = load_image("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg")
# クエリの定義
query = "画像では何が起きていますか?"
# モデルへの入力の構築
inputs = build_multimodal_inputs(tokenizer, query=query, images=[image])
# 推論
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=128)
# 応答のデコードと出力
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("回答:", response)
3. 動画入力の例
video = load_video("path_or_url_to_video.mp4")
query = "動画の内容を要約してください。"
inputs = build_multimodal_inputs(tokenizer, query=query, videos=[video])
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=128)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("回答:", response)
Novita API 経由で Qwen2.5-VL-72B にアクセスする方法
ステップ 1: ログインしてモデルライブラリにアクセス
アカウントにログインし、モデルライブラリ ボタンをクリックします。

今すぐ Qwen2-VL-72B-Instruct デモを試す!
ステップ 2: 無料トライアルを開始
無料トライアルを開始して、選択したモデルの機能を試します。

ステップ 3: API キーを取得
API で認証するために、新しい API キーを発行します。「設定」ページに入り、画像の指示に従って API キーをコピーします。

ステップ 4: API のインストール
プログラミング言語に応じたパッケージマネージャーを使用して API をインストールします。

インストール後、必要なライブラリを開発環境にインポートします。API キーを使用して API を初期化し、Novita AI LLM との対話を開始します。以下は Python ユーザー向けのチャット補完 API の使用例です。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # または False
max_tokens = 2048
system_content = """役立つアシスタントになってください"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "こんにちは!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
クラウド GPU を使用した Qwen2.5-VL-72B の利用
ステップ 1:アカウント登録
Novita AI が初めての場合は、Web サイトでアカウントを作成してください。登録後、「GPUs」タブに移動して利用可能なリソースを確認し、旅を始めましょう。

ステップ 2:テンプレートと GPU サーバーの探索
プロジェクトのニーズに合ったテンプレート (PyTorch、TensorFlow、CUDA など) を選択します。要件に応じてバージョン (例: PyTorch 2.2.1、CUDA 11.8.0) を選択します。次に、A100 GPU サーバー構成を選択します。これは、十分な VRAM、RAM、ディスク容量を備え、要求の厳しいワークロードを処理する強力なパフォーマンスを提供します。

ステップ 3:デプロイメントのカスタマイズ
テンプレートと GPU を選択した後、オペレーティングシステムのバージョン (例: CUDA 11.8) などのパラメータを調整してデプロイメント設定をカスタマイズします。その他の構成も調整して、プロジェクトの特定の要件に合わせて環境を最適化できます。

ステップ 4:インスタンスの起動
テンプレートとデプロイメント設定を確定したら、「インスタンスを起動」をクリックして GPU インスタンスをセットアップします。これにより環境設定が開始され、AI タスクに GPU リソースを使用できるようになります。

Qwen2.5-VL-72B-Instruct は、幅広い視覚言語タスクで最先端のパフォーマンスを提供します。金融でのワークフロー自動化からリアルタイム動画分析まで、深さ、規模、柔軟性を兼ね備えています。オープンソースアクセスと、ローカル GPU、クラウドインスタンス、API という複数のデプロイメントパスにより、Qwen2.5-VL は開発者や企業がよりスマートで強力な AI システムを構築できるようにします。
よくある質問
Qwen2.5-VL-72B-Instruct をローカルにデプロイできますか?
はい。十分な VRAM (例: 8×A100 または 24×4090 GPU) を備えたマシンで実行できます。
API 経由で Qwen2.5-VL-72B-Instruct を使用するにはどうすればよいですか?
Novita AI のモデルライブラリ から Qwen2.5-VL-72B-Instruct にアクセスし、無料トライアルを開始して、高速統合用の API キーを取得できます。
Qwen2.5-VL-72B と Qwen2.5-VL-72B-Instruct の違いは何ですか?
ベースモデルは一般的な視覚言語タスクを処理します。「Instruct」版はユーザーの指示をより正確に追従するように微調整されています。
Novita AI は、シンプルな API を使用して AI モデルを簡単にデプロイできる AI クラウドプラットフォームであり、手頃で信頼性の高い GPU クラウドを構築とスケーリングに提供します。
おすすめの読み物
- Qwen2.5-VL: 強力だが RAM を大量に消費する視覚言語モデル
- Qwen 2.5 72b vs Llama 3.3 70b: あなたのニーズに合うモデルはどちら?
- Qwen 2.5 vs Llama 3.2 90B: コーディングと画像推論能力の比較分析
シンプルな API とスケーラブルな GPU
Novita AI は、シンプルな API を使用して AI モデルを簡単にデプロイできる AI クラウドプラットフォームであり、手頃で信頼性の高い GPU クラウドを構築とスケーリングに提供します。
