チュートリアル: Qwen2.5-VL-72B にローカル、API、クラウド GPU でアクセスする方法

チュートリアル: Qwen2.5-VL-72B にローカル、API、クラウド GPU でアクセスする方法

主な特長

マルチモーダル + 長時間動画理解
画像、ドキュメント、長時間動画をサポート
教育、メディア、監視に最適

高精度な位置特定 + 構造化出力
オブジェクトを正確に検出
請求書、フォーム、チャートから構造化データを抽出
金融、法律、物流で有用

Novita AI API で無料トライアルを非常に簡単に開始できます!

Qwen2.5-VL-72B-Instruct は、命令追従タスク用に微調整された強力な 72B パラメータの大規模視覚言語モデル (LVLM) です。テキストと視覚入力 (画像・動画) の両方をサポートし、マルチモーダル推論、ドキュメント理解、動画分析、エージェント的対話に最適です。

Qwen2.5-VL-72B とは?

Qwen2.5-VL-72B の能力を示す例

入力: クエリを指定: ‘ユーザーが画像生成機能を体験している’ とします。説明された内容は動画のどの時間に発生しますか?時間形式は秒を使用してください。

https://videopress.com/v/jVcvFOlu?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

出力: 説明された内容は動画の 28 秒から 50 秒まで発生します。このセグメントで、ユーザーは画像生成機能と対話し、昼と夜の山のアーティスティックな二重シーン画をリクエストして受け取ります。その後、ユーザーは生成された画像に鳥を追加し、画像生成ツールの機能を示しています。

Qwen2.5-VL-72B の概要

**カテゴリ ** ** 項目 ** ** 詳細**
基本情報 リリース日 2025 年 1 月 28 日
モデルサイズ 73.4B パラメータ
オープンソース はい (Qwen が公開)
アーキテクチャ コアコンポーネント 動的解像度 & フレームレート学習\SwiGLU + RMSNorm + Window Attention\動的 FPS サンプリング
言語サポート 対応言語 多言語ドキュメントやシーンテキスト認識に優れる
マルチモーダル 機能 視覚 (画像 & 動画) およびテキスト入力
**コンテキスト ** コンテキストウィンドウ 長時間動画向けに最大 64K トークン まで設定可能
精度 テンソル型 BF16
ベンチマーク MMMU (画像) 70.2 (Qwen2.5-VL-72B) vs 70.3 (GPT-4o)
MVBench (動画) 70.4 (Qwen2.5-VL-72B) vs 64.6 (GPT-4o)
AITZ_EM (エージェント) 83.2 (Qwen2.5-VL-72B) vs 35.3 (GPT-4o)

ローカルで Qwen2.5-VL-72B にアクセスする方法

Qwen2.5-VL-72B のハードウェア要件

**カテゴリ ** ** 項目 ** ** 詳細**
ハードウェア Nvidia A100 (80 GB) 8 GPU × 80 GB = 640 GB 合計 VRAM
Nvidia H100 (80 GB) 8 GPU × 80 GB = 640 GB 合計 VRAM
RTX 4090 (24 GB) 24 GPU × 24 GB = 576 GB 合計 VRAM
Nvidia L40S (48 GB) 8 GPU × 48 GB = 384 GB 合計 VRAM

Qwen2.5-VL-72B をローカルにインストール

1. 依存関係のインストール

bashCopyEdit<code># 最新の Hugging Face Transformers をソースからインストール (Qwen2.5-VL に必要)<br>pip install git+https://github.com/huggingface/transformers accelerate<br><br># 視覚ユーティリティツールキットをインストール (高速動画読み込みには decord を推奨)<br>pip install 'qwen-vl-utils[decord]==0.0.8'</code>

2. Qwen2.5-VL を使った視覚質問応答

import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq
from qwen_vl_utils import load_image, load_video, build_multimodal_inputs

# 🔧 モデル名 (ローカルパスも使用可)
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"

# トークナイザーとモデルの読み込み
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_name, trust_remote_code=True).eval()

# 画像の読み込み (ローカルパス、URL、base64 のいずれか)
image = load_image("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg")

# クエリの定義
query = "画像では何が起きていますか?"

# モデルへの入力の構築
inputs = build_multimodal_inputs(tokenizer, query=query, images=[image])

# 推論
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

# 応答のデコードと出力
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("回答:", response)

3. 動画入力の例

video = load_video("path_or_url_to_video.mp4")
query = "動画の内容を要約してください。"

inputs = build_multimodal_inputs(tokenizer, query=query, videos=[video])

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("回答:", response)

Novita API 経由で Qwen2.5-VL-72B にアクセスする方法

ステップ 1: ログインしてモデルライブラリにアクセス

アカウントにログインし、モデルライブラリ ボタンをクリックします。

ログインしてモデルライブラリにアクセス

今すぐ Qwen2-VL-72B-Instruct デモを試す!

ステップ 2: 無料トライアルを開始

無料トライアルを開始して、選択したモデルの機能を試します。

ステップ 3: API キーを取得

API で認証するために、新しい API キーを発行します。「設定」ページに入り、画像の指示に従って API キーをコピーします。

API キーの取得

ステップ 4: API のインストール

プログラミング言語に応じたパッケージマネージャーを使用して API をインストールします。

インストール後、必要なライブラリを開発環境にインポートします。API キーを使用して API を初期化し、Novita AI LLM との対話を開始します。以下は Python ユーザー向けのチャット補完 API の使用例です。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # または False
max_tokens = 2048
system_content = """役立つアシスタントになってください"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "こんにちは!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

クラウド GPU を使用した Qwen2.5-VL-72B の利用

ステップ 1:アカウント登録

Novita AI が初めての場合は、Web サイトでアカウントを作成してください。登録後、「GPUs」タブに移動して利用可能なリソースを確認し、旅を始めましょう。

Novita AI ウェブサイトのスクリーンショット

ステップ 2:テンプレートと GPU サーバーの探索

プロジェクトのニーズに合ったテンプレート (PyTorch、TensorFlow、CUDA など) を選択します。要件に応じてバージョン (例: PyTorch 2.2.1、CUDA 11.8.0) を選択します。次に、A100 GPU サーバー構成を選択します。これは、十分な VRAM、RAM、ディスク容量を備え、要求の厳しいワークロードを処理する強力なパフォーマンスを提供します。

novita ai ウェブサイトのクラウド GPU スクリーンショット

Novita AI の高性能 GPU を試す

ステップ 3:デプロイメントのカスタマイズ

テンプレートと GPU を選択した後、オペレーティングシステムのバージョン (例: CUDA 11.8) などのパラメータを調整してデプロイメント設定をカスタマイズします。その他の構成も調整して、プロジェクトの特定の要件に合わせて環境を最適化できます。

novita ai ウェブサイトのクラウド GPU スクリーンショット

ステップ 4:インスタンスの起動

テンプレートとデプロイメント設定を確定したら、「インスタンスを起動」をクリックして GPU インスタンスをセットアップします。これにより環境設定が開始され、AI タスクに GPU リソースを使用できるようになります。

novita ai ウェブサイトのクラウド GPU スクリーンショット

Qwen2.5-VL-72B-Instruct は、幅広い視覚言語タスクで最先端のパフォーマンスを提供します。金融でのワークフロー自動化からリアルタイム動画分析まで、深さ、規模、柔軟性を兼ね備えています。オープンソースアクセスと、ローカル GPU、クラウドインスタンス、API という複数のデプロイメントパスにより、Qwen2.5-VL は開発者や企業がよりスマートで強力な AI システムを構築できるようにします。

よくある質問

Qwen2.5-VL-72B-Instruct をローカルにデプロイできますか?

はい。十分な VRAM (例: 8×A100 または 24×4090 GPU) を備えたマシンで実行できます。

API 経由で Qwen2.5-VL-72B-Instruct を使用するにはどうすればよいですか?

Novita AI のモデルライブラリ から Qwen2.5-VL-72B-Instruct にアクセスし、無料トライアルを開始して、高速統合用の API キーを取得できます。

Qwen2.5-VL-72B と Qwen2.5-VL-72B-Instruct の違いは何ですか?

ベースモデルは一般的な視覚言語タスクを処理します。「Instruct」版はユーザーの指示をより正確に追従するように微調整されています。

Novita AI は、シンプルな API を使用して AI モデルを簡単にデプロイできる AI クラウドプラットフォームであり、手頃で信頼性の高い GPU クラウドを構築とスケーリングに提供します。

おすすめの読み物

シンプルな API とスケーラブルな GPU

Novita AI は、シンプルな API を使用して AI モデルを簡単にデプロイできる AI クラウドプラットフォームであり、手頃で信頼性の高い GPU クラウドを構築とスケーリングに提供します。

サインアップ / ログイン