ガイド: Llama 4 Scout へのアクセス方法 - ローカル、API、クラウドGPU

ガイド: Llama 4 Scout へのアクセス方法 - ローカル、API、クラウドGPU

主なハイライト

10Mトークンのコンテキスト: ほとんどのモデルを大きく上回ります。

マルチモーダル対応: テキストと画像の両方を入力として処理します。

多言語対応: 12言語に対応し、グローバルなアプリケーションを実現します。

オープンソース: 無料で使用・カスタマイズ可能。

Novita AI のAPIで 無料トライアル を開始して、迅速・簡単・手間いらずの利便性を体験してください。

Llama 4 Scout1000万トークンのコンテキスト を誇り、限られたコンテキストウィンドウを持つほとんどのAIモデルとは一線を画します。この高い容量により、長文書分析、多言語合成、マルチモーダル入力処理などの大規模タスクに最適です。

Llama 4 Scout とは?

https://www.youtube.com/watch?v=MwHol73Cw\_I

Llama 4 Scout の概要

**プロパティ ** ** 値**
リリース日 2025年4月5日
モデルサイズ 109Bパラメータ(アクティブ17B/トークン)
オープンソース オープン
アーキテクチャ 16 Mixture-of-Experts(MoE)
コンテキスト 10M(10000k)
対応言語 アラビア語、英語、フランス語、ドイツ語、ヒンディー語、インドネシア語、イタリア語、ポルトガル語、スペイン語、タガログ語、タイ語、ベトナム語
マルチモーダル 入力: 多言語テキストと画像
出力: 多言語テキストとコード
学習データ 約40兆トークン
事前学習 MetaP(アダプティブエキスパート構成+中間学習)
事後学習 SFT(Easy Data)→ RL(Hard Data)→ DPO
テンソルタイプ BF16

Llama 4 Scout ベンチマーク

llama 4 scout benchmark

Meta より

ローカルで Llama 4 Scout にアクセスする方法

Llama 4 Scout のハードウェア要件

**コンテキスト長 ** Int4 VRAM ** 必要なGPU(Int4)** FP16 VRAM ** 必要なGPU(FP16)**
4Kトークン ~99.5 GB / ~76.2 GB 1×H100 ~345 GB 8×H100
128Kトークン ~334 GB 8×H100 ~579 GB 8×H100
10Mトークン ~18.8 TB(KVキャッシュが大部分) 240×H100 Int4と同じ(KVキャッシュが支配的) 240×H100

プロモーションではLLaMA 4 Scoutが単一のH100で実行可能とされていますが、これは量子化、短いコンテキスト長、小さいバッチサイズ、効率的な推論フレームワークを使用した場合に限ります。

Llama 4 Scout をローカルにインストールする

ステップ1: 環境を準備する

  • Pythonのインストール: システムに適切なバージョンのPythonがインストールされていることを確認してください(Llama 4に必要)。
  • GPUのセットアップ: モデルを実行できる強力なGPUがシステムにあることを確認してください。
  • Python環境の作成: condavenv などのツールを使用して依存関係を管理します。

ステップ2: モデルを入手する

  • ウェブサイトにアクセス: www.llama.com にアクセスします。
  • **モデルを選択 **: Llama 4 Scout をダウンロードします。

ステップ3: 依存関係をインストールする

以下のコマンドを実行して、必要なPythonパッケージをインストールします。

pip install llama-stack

ステップ4: モデルを確認する

利用可能なすべてのモデルを一覧表示し、Llama 4 Scout のモデルIDを見つけます。

llama model list

ステップ5: モデルをダウンロードして実行する

  • モデルIDを指定: 正しいモデルIDとダウンロードURLを入力します。
  • URLの有効期限を確認: ダウンロードリンクは通常48時間のみ有効です。再ダウンロードが必要になる場合があります。

これらの手順が完了すると、Llama 4 Scout を実行する準備が整います!

Novita API 経由で Llama 4 Scout にアクセスする方法

ステップ1: ログインしてモデルライブラリにアクセス

アカウントにログインし、Model Library ボタンをクリックします。

Log In and Access the Model Library

Llama 4 Scout を今すぐ試す!

ステップ2: モデルを選択

利用可能なオプションからニーズに合ったモデルを選択します。

choose your model

ステップ3: 無料トライアルを開始

選択したモデルの機能を試すために無料トライアルを開始します。

start your free tail

ステップ4: APIキーを取得

APIで認証するために、新しいAPIキーを提供します。「Settings」ページに移動し、画像のようにAPIキーをコピーします。

get api key

ステップ5: APIをインストール

プログラミング言語に応じたパッケージマネージャーを使用してAPIをインストールします。

インストール後、必要なライブラリを開発環境にインポートします。APIキーを使用してAPIを初期化し、Novita AI LLMとの対話を開始します。以下は、Pythonユーザー向けのチャット補完APIの使用例です。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-4-scout-17b-16e-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  
  

クラウドGPU経由でLlama 4 Scoutを使用する

ステップ1:アカウント登録

Novita AIが初めての方は、まずウェブサイトでアカウントを作成してください。登録後、「GPUs」タブに移動して利用可能なリソースを確認し、旅を始めましょう。

Novita AI website screenshot

ステップ2:テンプレートとGPUサーバーの確認

まず、プロジェクトのニーズに合ったテンプレート(PyTorch、TensorFlow、CUDAなど)を選択します。必要なバージョン(例:PyTorch 2.2.1、CUDA 11.8.0)を選びます。次に、A100 GPUサーバー構成を選択します。これは、十分なVRAM、RAM、ディスク容量で要求の厳しいワークロードに対応する強力なパフォーマンスを提供します。

novita ai website screenshot using cloud gpu

Novita AIの高性能GPUを試す

ステップ3:デプロイメントをカスタマイズ

テンプレートとGPUを選択した後、オペレーティングシステムのバージョン(例:CUDA 11.8)などのパラメータを調整してデプロイメント設定をカスタマイズします。プロジェクトの特定の要件に合わせて環境を調整するために、他の設定も調整できます。

novita ai website screenshot using cloud gpu

ステップ4:インスタンスを起動

テンプレートとデプロイメント設定を確定したら、「Launch Instance」をクリックしてGPUインスタンスをセットアップします。これにより環境のセットアップが開始され、AIタスクにGPUリソースを使い始めることができます。

novita ai website screenshot using cloud gpu

Llama 4 Scoutの 比類のないコンテキスト長 とマルチモーダル機能は、長文、多言語、大規模タスクにおいて革新的なツールです。そのスケーラビリティとオープンソースの性質により、開発者や研究者に柔軟性を提供します。

よくある質問

Llama 4 Scoutの特長は何ですか?

10Mトークンのコンテキスト: ほとんどのモデルを大きく上回ります。
マルチモーダル対応: テキストと画像の両方を入力として処理します。
多言語対応: 12言語に対応し、グローバルなアプリケーションを実現します。
オープンソース: 無料で使用・カスタマイズ可能。

ハイエンドGPUなしでLlama 4 Scoutを使用できますか?

はい。ただし、モデルを量子化して小さいコンテキスト(例:4Kトークン)でのみ可能です。フル10Mトークンのコンテキストには、特にKVキャッシュのメモリ需要から、少なくとも 240×H100 GPU が必要です。または、API経由でNovita AIを選択することもできます!

Llama 4 Scoutにはどのようなハードウェアが推奨されますか?

小規模コンテキスト(4Kトークン): 1×H100 GPU
大規模コンテキスト(128Kトークン): 8×H100 GPU
フルコンテキスト(10Mトークン): 240×H100 GPU

Novita AIは、開発者がシンプルなAPIを使用してAIモデルを簡単にデプロイできるAIクラウドプラットフォームであり、同時に手頃な価格で信頼性の高いGPUクラウドを提供し、構築とスケーリングを支援します。

おすすめの読み物