Llama 4 Maverickの使い方 — ローカル、API、クラウドGPUでのアクセス方法

Llama 4 Maverickとは？
ローカルでLlama 4 Maverickにアクセスする方法
Novita APIを介してLlama 4 Maverickにアクセスする方法
クラウドGPUでLlama 4 Scoutを使用する
よくある質問

主なハイライト

**巨大なコンテキストウィンドウ **: 最大 100万トークン に対応。長文書、コードベース、書籍に最適。

**マルチモーダル対応 : ** テキストと画像の入力を同時に 処理可能。

**多言語の強み **: 200言語 で事前学習され、多言語MMLUスコア（84.6）が高いため、グローバル対応のモデル。

**コスト効率 : GPT-4oの数分の1の価格（Novita AI では100万トークンあたり$0.2、GPT-4oは$4.38）で ** 最先端のパフォーマンス を実現。

Llama 4 Maverick は、Metaが2025年4月5日にリリースした最新のオープンソース大規模言語モデルです。128のMixture-of-Experts（MoE）アーキテクチャを採用し、22兆トークンのマルチモーダルデータで学習されています。** パフォーマンス、柔軟性、グローバルスケール ** を念頭に設計され、** 最大1000万トークンのコンテキスト長、テキストと画像の入力 ** に対応し、** 多言語および推論ベンチマーク** で優れた性能を発揮します。

Llama 4 Maverickとは？

https://www.youtube.com/watch?v=8G-GI4bvWZU

Llama 4 Maverickの概要

カテゴリ	詳細
リリース日	2025年4月5日
モデルサイズ	400Bパラメータ（トークンあたり17Bアクティブ）
オープンソース	はい
アーキテクチャ	128 Mixture-of-Experts (MoE)
コンテキスト長	最大100万トークン（1,000,000トークン）
言語サポート	アラビア語、英語、フランス語、ドイツ語、ヒンディー語、インドネシア語、イタリア語、ポルトガル語、スペイン語、タガログ語、タイ語、ベトナム語を含む200言語で事前学習。
マルチモーダル機能	テキストと画像の入力を組み合わせ、テキストと視覚コンテンツの両方を処理可能。
学習データ	約22兆トークンのマルチモーダルデータ（一部はInstagramおよびFacebookから取得）。
事前学習	MetaP（中間学習最適化による適応エキスパート構成）
事後学習ステップ	1. SFT（簡単なデータでの教師ありファインチューニング）
	2. RL（難しいデータでの強化学習）
	3. DPO（直接選好最適化）

Llama 4 Maverickベンチマーク

Llama 4 Maverick は、** 画像推論、画像理解、多言語タスク ** において、Gemini 2.0 Flash、DeepSeek v3.1、GPT-4o を主要なベンチマークで上回ります。

ローカルでLlama 4 Maverickにアクセスする方法

Llama 4 Maverickのハードウェア要件

コンテキスト長	INT4 VRAM	必要GPU (INT4)	FP16 VRAM	必要GPU (FP16)
4Kトークン	~318 GB	4×H100/A100	~1.22 TB	16×H100
128Kトークン	~552 GB	8×H100	~1.45 TB	~16×H100

ローカルにLlama 4 Maverickをインストール

ステップ1: 環境を準備する

Pythonをインストールします（できればバージョン3.9以上）。
依存関係管理のために仮想環境を使用します:

python -m venv llama_env
source llama_env/bin/activate

ステップ2: 必要なPythonライブラリをインストールする

以下のコマンドを実行して依存関係をインストールします:

pip install -U transformers==4.51.0
pip install torch
pip install huggingface-hub
pip install hf_xet

これらのライブラリはモデルの読み込みと実行に不可欠です。

ステップ3: モデルをダウンロードする

Hugging Face HubのLlama 4 Maverickページにアクセスします。
以下のPythonコードを使用してモデルをダウンロードします:

from transformers import AutoProcessor, Llama4ForConditionalGeneration

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16)

これでモデルがダウンロードされ、推論の準備が整います。

Novita APIを介してLlama 4 Maverickにアクセスする方法

ステップ1: ログインしてモデルライブラリにアクセスする

アカウントにログインし、モデルライブラリ ボタンをクリックします。

今すぐLlama 4 Maverickを試す！

ステップ2: モデルを選択する

利用可能なオプションから、ニーズに合ったモデルを選択します。

ステップ3: 無料トライアルを開始する

無料トライアルを開始して、選択したモデルの機能を試します。

ステップ4: APIキーを取得する

APIで認証するために、新しいAPIキーを提供します。「設定」ページに移動し、画像に示されているAPIキーをコピーします。

ステップ5: APIをインストールする

使用するプログラミング言語に応じたパッケージマネージャーを使用してAPIをインストールします。

インストール後、開発環境に必要なライブラリをインポートします。APIキーを使用してAPIを初期化し、Novita AI LLMとの対話を開始します。以下は、Pythonユーザー向けのチャット補完APIの使用例です。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-4-maverick-17b-128e-instruct-fp8"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

クラウドGPUでLlama 4 Scoutを使用する

ステップ1：アカウント登録

Novita AIを初めてご利用の場合は、Webサイトでアカウントを作成してください。登録後、「GPUs」タブに移動して、利用可能なリソースを確認し、さっそく始めましょう。

ステップ2：テンプレートとGPUサーバーの確認

プロジェクトのニーズに合ったテンプレート（PyTorch、TensorFlow、CUDAなど）を選択します。必要なバージョン（PyTorch 2.2.1やCUDA 11.8.0など）を選びます。その後、高性能なパフォーマンスを提供するA100 GPUサーバー構成を選択します。これにより、十分なVRAM、RAM、ディスク容量で負荷の高いワークロードを処理できます。

Novita AIの高性能GPUを試す

ステップ3：デプロイメントをカスタマイズする

テンプレートとGPUを選択したら、オペレーティングシステムのバージョン（CUDA 11.8など）などのパラメーターを調整して、デプロイメント設定をカスタマイズします。その他の構成も調整して、プロジェクトの特定の要件に合わせた環境を構築できます。

ステップ4：インスタンスを起動する

テンプレートとデプロイメント設定を確定したら、「インスタンスを起動」をクリックしてGPUインスタンスをセットアップします。これにより環境のセットアップが開始され、AIタスクにGPUリソースを使用できるようになります。

強力で手頃な価格、かつ開発者にとって使いやすいLLMをお探しなら、Llama 4 Maverick が最適です。** 画像推論、多言語サポート、長文脈理解、推論コスト ** の主要分野で、GPT-4oやGemini 2.0 Flashなどの主要モデルを凌駕しています。ローカルで実行する場合でも、Novita AIの高性能API を介して実行する場合でも、セットアップは迅速かつ簡単です。今すぐ試して、違いを実感してください。

よくある質問

Llama 4 Maverickとは何ですか？

Llama 4 Maverickは、Metaが開発したオープンソースの大規模言語モデルで、**テキストと画像の入力 ** を処理でき、最大 **1,000万トークンのコンテキスト ** に対応し、200言語 で学習されています。

強力なローカルGPUがなくてもLlama 4 Maverickを使用できますか？

はい！Novita AI の API または ** クラウドGPUプラットフォーム** から簡単にLlama 4 Maverickにアクセスでき、無料トライアルも利用できます。

Llama 4 Maverickは大規模な文書や書籍に適していますか？

もちろんです。最大 100万トークン に対応しているため、長いテキスト、複雑な文書、コンテキストメモリタスクの処理に最適です。

Novita AI は、シンプルなAPIを使用してAIモデルを簡単にデプロイできる機能を開発者に提供し、手頃で信頼性の高いGPUクラウドを構築およびスケーリングに提供するAIクラウドプラットフォームです。

Llama 4 Maverickの使い方 — ローカル、API、クラウドGPUでのアクセス方法

主なハイライト

Llama 4 Maverickとは？

Llama 4 Maverickの概要

Llama 4 Maverickベンチマーク

ローカルでLlama 4 Maverickにアクセスする方法

Llama 4 Maverickのハードウェア要件

ローカルにLlama 4 Maverickをインストール

Novita APIを介してLlama 4 Maverickにアクセスする方法

ステップ1: ログインしてモデルライブラリにアクセスする

ステップ2: モデルを選択する

ステップ3: 無料トライアルを開始する

ステップ4: APIキーを取得する

ステップ5: APIをインストールする

クラウドGPUでLlama 4 Scoutを使用する

ステップ1：アカウント登録

ステップ2：テンプレートとGPUサーバーの確認

ステップ3：デプロイメントをカスタマイズする

ステップ4：インスタンスを起動する

よくある質問

おすすめの記事

Product

RESOURCES

Partners

Company

主なハイライト

Llama 4 Maverickとは？

Llama 4 Maverickの概要

Llama 4 Maverickベンチマーク

ローカルでLlama 4 Maverickにアクセスする方法

Llama 4 Maverickのハードウェア要件

ローカルにLlama 4 Maverickをインストール

Novita APIを介してLlama 4 Maverickにアクセスする方法

ステップ1: ログインしてモデルライブラリにアクセスする

ステップ2: モデルを選択する

ステップ3: 無料トライアルを開始する

ステップ4: APIキーを取得する

ステップ5: APIをインストールする

クラウドGPUでLlama 4 Scoutを使用する

ステップ1：アカウント登録

ステップ2：テンプレートとGPUサーバーの確認

ステップ3：デプロイメントをカスタマイズする

ステップ4：インスタンスを起動する

よくある質問

おすすめの記事

関連記事

Product

RESOURCES

Partners

Company