主なハイライト
**巨大なコンテキストウィンドウ **: 最大 100万トークン に対応。長文書、コードベース、書籍に最適。
**マルチモーダル対応 : ** テキストと画像の入力を同時に 処理可能。
**多言語の強み **: 200言語 で事前学習され、多言語MMLUスコア(84.6)が高いため、グローバル対応のモデル。
**コスト効率 : GPT-4oの数分の1の価格(Novita AI では100万トークンあたり$0.2、GPT-4oは$4.38)で ** 最先端のパフォーマンス を実現。
Llama 4 Maverick は、Metaが2025年4月5日にリリースした最新のオープンソース大規模言語モデルです。128のMixture-of-Experts(MoE)アーキテクチャを採用し、22兆トークンのマルチモーダルデータで学習されています。** パフォーマンス、柔軟性、グローバルスケール ** を念頭に設計され、** 最大1000万トークンのコンテキスト長 、 テキストと画像の入力 ** に対応し、** 多言語および推論ベンチマーク** で優れた性能を発揮します。
Llama 4 Maverickとは?
https://www.youtube.com/watch?v=8G-GI4bvWZU
Llama 4 Maverickの概要
| **カテゴリ ** | ** 詳細** |
|---|---|
| リリース日 | 2025年4月5日 |
| モデルサイズ | 400Bパラメータ(トークンあたり17Bアクティブ) |
| オープンソース | はい |
| アーキテクチャ | 128 Mixture-of-Experts (MoE) |
| コンテキスト長 | 最大100万トークン(1,000,000トークン) |
| 言語サポート | アラビア語、英語、フランス語、ドイツ語、ヒンディー語、インドネシア語、イタリア語、ポルトガル語、スペイン語、タガログ語、タイ語、ベトナム語を含む200言語で事前学習。 |
| マルチモーダル機能 | テキストと画像の入力を組み合わせ、テキストと視覚コンテンツの両方を処理可能。 |
| 学習データ | 約22兆トークンのマルチモーダルデータ(一部はInstagramおよびFacebookから取得)。 |
| 事前学習 | MetaP(中間学習最適化による適応エキスパート構成) |
| 事後学習ステップ | 1. SFT(簡単なデータでの教師ありファインチューニング) |
| 2. RL(難しいデータでの強化学習) | |
| 3. DPO(直接選好最適化) |
Llama 4 Maverickベンチマーク
Llama 4 Maverick は、** 画像推論 、 画像理解 、 多言語タスク ** において、Gemini 2.0 Flash、DeepSeek v3.1、GPT-4o を主要なベンチマークで上回ります。

ローカルでLlama 4 Maverickにアクセスする方法
Llama 4 Maverickのハードウェア要件
| **コンテキスト長 ** | INT4 VRAM | ** 必要GPU (INT4)** | FP16 VRAM | ** 必要GPU (FP16)** |
|---|---|---|---|---|
| 4Kトークン | ~318 GB | 4×H100/A100 | ~1.22 TB | 16×H100 |
| 128Kトークン | ~552 GB | 8×H100 | ~1.45 TB | ~16×H100 |
ローカルにLlama 4 Maverickをインストール
ステップ1: 環境を準備する
- Pythonをインストールします(できればバージョン3.9以上)。
- 依存関係管理のために仮想環境を使用します:
python -m venv llama_env
source llama_env/bin/activate
ステップ2: 必要なPythonライブラリをインストールする
以下のコマンドを実行して依存関係をインストールします:
pip install -U transformers==4.51.0
pip install torch
pip install huggingface-hub
pip install hf_xet
これらのライブラリはモデルの読み込みと実行に不可欠です。
ステップ3: モデルをダウンロードする
- Hugging Face HubのLlama 4 Maverickページにアクセスします。
- 以下のPythonコードを使用してモデルをダウンロードします:
from transformers import AutoProcessor, Llama4ForConditionalGeneration
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16)
これでモデルがダウンロードされ、推論の準備が整います。
Novita APIを介してLlama 4 Maverickにアクセスする方法
ステップ1: ログインしてモデルライブラリにアクセスする
アカウントにログインし、モデルライブラリ ボタンをクリックします。

ステップ2: モデルを選択する
利用可能なオプションから、ニーズに合ったモデルを選択します。

ステップ3: 無料トライアルを開始する
無料トライアルを開始して、選択したモデルの機能を試します。

ステップ4: APIキーを取得する
APIで認証するために、新しいAPIキーを提供します。「設定」ページに移動し、画像に示されているAPIキーをコピーします。

ステップ5: APIをインストールする
使用するプログラミング言語に応じたパッケージマネージャーを使用してAPIをインストールします。

インストール後、開発環境に必要なライブラリをインポートします。APIキーを使用してAPIを初期化し、Novita AI LLMとの対話を開始します。以下は、Pythonユーザー向けのチャット補完APIの使用例です。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "meta-llama/llama-4-maverick-17b-128e-instruct-fp8"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
クラウドGPUでLlama 4 Scoutを使用する
ステップ1:アカウント登録
Novita AIを初めてご利用の場合は、Webサイトでアカウントを作成してください。登録後、「GPUs」タブに移動して、利用可能なリソースを確認し、さっそく始めましょう。

ステップ2:テンプレートとGPUサーバーの確認
プロジェクトのニーズに合ったテンプレート(PyTorch、TensorFlow、CUDAなど)を選択します。必要なバージョン(PyTorch 2.2.1やCUDA 11.8.0など)を選びます。その後、高性能なパフォーマンスを提供するA100 GPUサーバー構成を選択します。これにより、十分なVRAM、RAM、ディスク容量で負荷の高いワークロードを処理できます。

ステップ3:デプロイメントをカスタマイズする
テンプレートとGPUを選択したら、オペレーティングシステムのバージョン(CUDA 11.8など)などのパラメーターを調整して、デプロイメント設定をカスタマイズします。その他の構成も調整して、プロジェクトの特定の要件に合わせた環境を構築できます。

ステップ4:インスタンスを起動する
テンプレートとデプロイメント設定を確定したら、「インスタンスを起動」をクリックしてGPUインスタンスをセットアップします。これにより環境のセットアップが開始され、AIタスクにGPUリソースを使用できるようになります。

強力で手頃な価格、かつ開発者にとって使いやすいLLMをお探しなら、Llama 4 Maverick が最適です。** 画像推論、多言語サポート、長文脈理解、推論コスト ** の主要分野で、GPT-4oやGemini 2.0 Flashなどの主要モデルを凌駕しています。ローカルで実行する場合でも、Novita AIの高性能API を介して実行する場合でも、セットアップは迅速かつ簡単です。今すぐ試して、違いを実感してください。
よくある質問
Llama 4 Maverickとは何ですか?
Llama 4 Maverickは、Metaが開発したオープンソースの大規模言語モデルで、**テキストと画像の入力 ** を処理でき、最大 **1,000万トークンのコンテキスト ** に対応し、200言語 で学習されています。
強力なローカルGPUがなくてもLlama 4 Maverickを使用できますか?
はい!Novita AI の API または ** クラウドGPUプラットフォーム** から簡単にLlama 4 Maverickにアクセスでき、無料トライアルも利用できます。
Llama 4 Maverickは大規模な文書や書籍に適していますか?
もちろんです。最大 100万トークン に対応しているため、長いテキスト、複雑な文書、コンテキストメモリタスクの処理に最適です。
Novita AI は、シンプルなAPIを使用してAIモデルを簡単にデプロイできる機能を開発者に提供し、手頃で信頼性の高いGPUクラウドを構築およびスケーリングに提供するAIクラウドプラットフォームです。
