Llama 4 Maverickの使い方 — ローカル、API、クラウドGPUでのアクセス方法

Llama 4 Maverickの使い方 — ローカル、API、クラウドGPUでのアクセス方法

主なハイライト

**巨大なコンテキストウィンドウ **: 最大 100万トークン に対応。長文書、コードベース、書籍に最適。

**マルチモーダル対応 : ** テキストと画像の入力を同時に 処理可能。

**多言語の強み **: 200言語 で事前学習され、多言語MMLUスコア(84.6)が高いため、グローバル対応のモデル。

**コスト効率 : GPT-4oの数分の1の価格(Novita AI では100万トークンあたり$0.2、GPT-4oは$4.38)で ** 最先端のパフォーマンス を実現。

Llama 4 Maverick は、Metaが2025年4月5日にリリースした最新のオープンソース大規模言語モデルです。128のMixture-of-Experts(MoE)アーキテクチャを採用し、22兆トークンのマルチモーダルデータで学習されています。** パフォーマンス、柔軟性、グローバルスケール ** を念頭に設計され、** 最大1000万トークンのコンテキスト長 テキストと画像の入力 ** に対応し、** 多言語および推論ベンチマーク** で優れた性能を発揮します。

Llama 4 Maverickとは?

https://www.youtube.com/watch?v=8G-GI4bvWZU

Llama 4 Maverickの概要

**カテゴリ ** ** 詳細**
リリース日 2025年4月5日
モデルサイズ 400Bパラメータ(トークンあたり17Bアクティブ)
オープンソース はい
アーキテクチャ 128 Mixture-of-Experts (MoE)
コンテキスト長 最大100万トークン(1,000,000トークン)
言語サポート アラビア語、英語、フランス語、ドイツ語、ヒンディー語、インドネシア語、イタリア語、ポルトガル語、スペイン語、タガログ語、タイ語、ベトナム語を含む200言語で事前学習。
マルチモーダル機能 テキストと画像の入力を組み合わせ、テキストと視覚コンテンツの両方を処理可能。
学習データ 約22兆トークンのマルチモーダルデータ(一部はInstagramおよびFacebookから取得)。
事前学習 MetaP(中間学習最適化による適応エキスパート構成)
事後学習ステップ 1. SFT(簡単なデータでの教師ありファインチューニング)
2. RL(難しいデータでの強化学習)
3. DPO(直接選好最適化)

Llama 4 Maverickベンチマーク

Llama 4 Maverick は、** 画像推論 画像理解 多言語タスク ** において、Gemini 2.0 FlashDeepSeek v3.1GPT-4o を主要なベンチマークで上回ります。

llama-4-maverick benchmark

ローカルでLlama 4 Maverickにアクセスする方法

Llama 4 Maverickのハードウェア要件

**コンテキスト長 ** INT4 VRAM ** 必要GPU (INT4)** FP16 VRAM ** 必要GPU (FP16)**
4Kトークン ~318 GB 4×H100/A100 ~1.22 TB 16×H100
128Kトークン ~552 GB 8×H100 ~1.45 TB ~16×H100

ローカルにLlama 4 Maverickをインストール

ステップ1: 環境を準備する

  • Pythonをインストールします(できればバージョン3.9以上)。
  • 依存関係管理のために仮想環境を使用します:
python -m venv llama_env
source llama_env/bin/activate

ステップ2: 必要なPythonライブラリをインストールする

以下のコマンドを実行して依存関係をインストールします:

pip install -U transformers==4.51.0
pip install torch
pip install huggingface-hub
pip install hf_xet

これらのライブラリはモデルの読み込みと実行に不可欠です。

ステップ3: モデルをダウンロードする

  1. Hugging Face HubのLlama 4 Maverickページにアクセスします。
  2. 以下のPythonコードを使用してモデルをダウンロードします:
from transformers import AutoProcessor, Llama4ForConditionalGeneration

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16)

これでモデルがダウンロードされ、推論の準備が整います。

Novita APIを介してLlama 4 Maverickにアクセスする方法

ステップ1: ログインしてモデルライブラリにアクセスする

アカウントにログインし、モデルライブラリ ボタンをクリックします。

ログインしてモデルライブラリにアクセス

今すぐLlama 4 Maverickを試す!

ステップ2: モデルを選択する

利用可能なオプションから、ニーズに合ったモデルを選択します。

モデルを選択

ステップ3: 無料トライアルを開始する

無料トライアルを開始して、選択したモデルの機能を試します。

無料トライアルを開始

ステップ4: APIキーを取得する

APIで認証するために、新しいAPIキーを提供します。「設定」ページに移動し、画像に示されているAPIキーをコピーします。

APIキーを取得

ステップ5: APIをインストールする

使用するプログラミング言語に応じたパッケージマネージャーを使用してAPIをインストールします。

インストール後、開発環境に必要なライブラリをインポートします。APIキーを使用してAPIを初期化し、Novita AI LLMとの対話を開始します。以下は、Pythonユーザー向けのチャット補完APIの使用例です。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-4-maverick-17b-128e-instruct-fp8"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

クラウドGPUでLlama 4 Scoutを使用する

ステップ1:アカウント登録

Novita AIを初めてご利用の場合は、Webサイトでアカウントを作成してください。登録後、「GPUs」タブに移動して、利用可能なリソースを確認し、さっそく始めましょう。

Novita AIウェブサイトのスクリーンショット

ステップ2:テンプレートとGPUサーバーの確認

プロジェクトのニーズに合ったテンプレート(PyTorch、TensorFlow、CUDAなど)を選択します。必要なバージョン(PyTorch 2.2.1やCUDA 11.8.0など)を選びます。その後、高性能なパフォーマンスを提供するA100 GPUサーバー構成を選択します。これにより、十分なVRAM、RAM、ディスク容量で負荷の高いワークロードを処理できます。

novita aiウェブサイトのスクリーンショット(クラウドGPU使用)

Novita AIの高性能GPUを試す

ステップ3:デプロイメントをカスタマイズする

テンプレートとGPUを選択したら、オペレーティングシステムのバージョン(CUDA 11.8など)などのパラメーターを調整して、デプロイメント設定をカスタマイズします。その他の構成も調整して、プロジェクトの特定の要件に合わせた環境を構築できます。

novita aiウェブサイトのスクリーンショット(クラウドGPU使用)

ステップ4:インスタンスを起動する

テンプレートとデプロイメント設定を確定したら、「インスタンスを起動」をクリックしてGPUインスタンスをセットアップします。これにより環境のセットアップが開始され、AIタスクにGPUリソースを使用できるようになります。

novita aiウェブサイトのスクリーンショット(クラウドGPU使用)

強力で手頃な価格、かつ開発者にとって使いやすいLLMをお探しなら、Llama 4 Maverick が最適です。** 画像推論、多言語サポート、長文脈理解、推論コスト ** の主要分野で、GPT-4oやGemini 2.0 Flashなどの主要モデルを凌駕しています。ローカルで実行する場合でも、Novita AIの高性能API を介して実行する場合でも、セットアップは迅速かつ簡単です。今すぐ試して、違いを実感してください。

よくある質問

Llama 4 Maverickとは何ですか?

Llama 4 Maverickは、Metaが開発したオープンソースの大規模言語モデルで、**テキストと画像の入力 ** を処理でき、最大 **1,000万トークンのコンテキスト ** に対応し、200言語 で学習されています。

強力なローカルGPUがなくてもLlama 4 Maverickを使用できますか?

はい!Novita AIAPI または ** クラウドGPUプラットフォーム** から簡単にLlama 4 Maverickにアクセスでき、無料トライアルも利用できます。

Llama 4 Maverickは大規模な文書や書籍に適していますか?

もちろんです。最大 100万トークン に対応しているため、長いテキスト、複雑な文書、コンテキストメモリタスクの処理に最適です。

Novita AI は、シンプルなAPIを使用してAIモデルを簡単にデプロイできる機能を開発者に提供し、手頃で信頼性の高いGPUクラウドを構築およびスケーリングに提供するAIクラウドプラットフォームです。

おすすめの記事