指南：在本機、透過 API 或雲端 GPU 存取 Llama 4 Scout

什麼是 Llama 4 Scout？
如何在本機存取 Llama 4 Scout？
如何透過 Novita API 存取 Llama 4 Scout？
透過雲端 GPU 使用 Llama 4 Scout
常見問題

重點摘要

10M Token 上下文：遠超大多數模型。

多模態支援：可同時處理文字和影像輸入。

多語言能力：支援 12 種語言，適用於全球應用。

開放原始碼：可免費使用及自訂。

立即體驗 Novita AI API 的 免費試用 — 快速、簡單、無負擔！

Llama 4 Scout 擁有 1000 萬個 token 的上下文，這讓它與大多數上下文窗口有限的 AI 模型截然不同。如此高的容量使其非常適合處理大規模任務，例如長篇文件分析、多語言彙整或多模態輸入處理。

什麼是 Llama 4 Scout？

https://www.youtube.com/watch?v=MwHol73Cw\_I

Llama 4 Scout 概覽

屬性	數值
發布日期	2025 年 4 月 5 日
模型大小	109B 參數（17B 活躍/ token）
開放原始碼	開源
架構	16 混合專家（Mixture-of-Experts, MoE）
上下文	10M（10000k）
支援語言	阿拉伯語、英語、法語、德語、印地語、印尼語、義大利語、葡萄牙語、西班牙語、他加祿語、泰語、越南語
多模態	輸入：多語言文字與影像輸出：多語言文字與程式碼
訓練資料	約 40 兆 token
預訓練	MetaP（自適應專家配置 + 中期訓練）
後訓練	SFT（簡易資料）→ RL（困難資料）→ DPO
張量類型	BF16

Llama 4 Scout 基準測試

來自 Meta

如何在本機存取 Llama 4 Scout？

Llama 4 Scout 硬體需求

上下文長度	Int4 VRAM	GPU 需求（Int4）	FP16 VRAM	GPU 需求（FP16）
4K Token	~99.5 GB / ~76.2 GB	1 張 H100	~345 GB	8 張 H100
128K Token	~334 GB	8 張 H100	~579 GB	8 張 H100
10M Token	~18.8 TB（KV 快取佔主導）	240 張 H100	與 INT4 相同（KV 主導）	240 張 H100

雖然宣傳聲稱 LLaMA 4 Scout 可在單張 H100 上執行，但這僅在量化、較短上下文長度、較小批次大小以及高效推理框架下才可行。

在本機安裝 Llama 4 Scout

步驟 1：準備環境

安裝 Python：確保你的系統安裝了適當版本的 Python（Llama 4 需要）。
設定 GPU：確認你的系統配備能執行該模型的強大 GPU。
建立 Python 環境：使用 conda 或 venv 等工具管理相依套件。

步驟 2：取得模型

造訪網站：前往 www.llama.com。
**選擇模型 **：下載 Llama 4 Scout。

步驟 3：安裝相依套件

執行以下指令來安裝必要的 Python 套件：

pip install llama-stack

步驟 4：驗證模型

列出所有可用模型，並找到 Llama 4 Scout 的模型 ID：

llama model list

步驟 5：下載並執行模型

指定模型 ID：輸入正確的模型 ID 及下載網址。
檢查網址有效期：下載連結通常僅在 48 小時內有效；你可能需要重新下載。

完成這些步驟後，你就可以準備執行 Llama 4 Scout 了！

如何透過 Novita API 存取 Llama 4 Scout？

步驟 1：登入並存取模型庫

登入你的帳號，然後點擊 Model Library 按鈕。

立即試用 Llama 4 Scout！

步驟 2：選擇你的模型

瀏覽可用的選項，選擇符合你需求的模型。

步驟 3：開始免費試用

開始免費試用，探索所選模型的功能。

步驟 4：取得 API 金鑰

為了驗證 API，我們會為你提供一組新的 API 金鑰。進入「Settings」頁面，你可以依照圖片指示複製 API 金鑰。

步驟 5：安裝 API

使用你程式語言專用的套件管理器來安裝 API。

安裝後，將必要的函式庫匯入你的開發環境。使用你的 API 金鑰初始化 API，開始與 Novita AI LLM 互動。以下是一個使用 Python 使用者呼叫聊天補全 API 的範例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-4-scout-17b-16e-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

透過雲端 GPU 使用 Llama 4 Scout

步驟 1：註冊帳號

如果你是 Novita AI 的新用戶，請先在我們的網站上建立帳號。註冊完成後，前往「GPUs」分頁，瀏覽可用資源並開始你的旅程。

步驟 2：探索範本與 GPU 伺服器

首先選擇符合你專案需求的範本，例如 PyTorch、TensorFlow 或 CUDA。選擇符合需求的版本，例如 PyTorch 2.2.1 或 CUDA 11.8.0。接著選擇 A100 GPU 伺服器配置，它提供強大的效能，足以應付需要大量 VRAM、RAM 和磁碟容量的高負載工作。

立即試用 Novita AI 的高效能 GPU

步驟 3：自訂部署設定

選擇範本與 GPU 後，調整作業系統版本（例如 CUDA 11.8）等參數來自訂部署設定。你也可以調整其他配置，讓環境更符合專案的特定需求。

步驟 4：啟動執行個體

完成範本與部署設定後，點擊「Launch Instance」來設定你的 GPU 執行個體。這將啟動環境建置，讓你能夠開始使用 GPU 資源執行 AI 任務。

Llama 4 Scout 的 無與倫比的上下文長度 與多模態能力，使其成為長篇、多語言及大規模任務的革命性工具。其可擴展性與開源特性確保了開發者與研究人員的靈活性。

常見問題

Llama 4 Scout 有何獨特之處？

10M Token 上下文：遠超大多數模型。
多模態支援：可同時處理文字和影像輸入。
多語言能力：支援 12 種語言，適用於全球應用。
開放原始碼：可免費使用及自訂。

沒有高階 GPU 也能使用 Llama 4 Scout 嗎？

可以，但僅限於較小的上下文（例如 4K Token），方法是對模型進行量化。完整 10M Token 上下文因記憶體需求（尤其是 KV 快取）至少需要 240 張 H100 GPU。或者你也可以選擇透過 API 使用 Novita AI！

Llama 4 Scout 建議使用什麼硬體？

小型上下文（4K Token）：1 張 H100 GPU
大型上下文（128K Token）：8 張 H100 GPU
完整上下文（10M Token）：240 張 H100 GPU

Novita AI 是一個 AI 雲端平台，為開發者提供透過簡單 API 部署 AI 模型的捷徑，同時提供價格合理且可靠的 GPU 雲端用於建置與擴展。

指南：在本機、透過 API 或雲端 GPU 存取 Llama 4 Scout

重點摘要

什麼是 Llama 4 Scout？

Llama 4 Scout 概覽

Llama 4 Scout 基準測試

如何在本機存取 Llama 4 Scout？

Llama 4 Scout 硬體需求

在本機安裝 Llama 4 Scout

如何透過 Novita API 存取 Llama 4 Scout？

步驟 1：登入並存取模型庫

步驟 2：選擇你的模型

步驟 3：開始免費試用

步驟 4：取得 API 金鑰

步驟 5：安裝 API

透過雲端 GPU 使用 Llama 4 Scout

步驟 1：註冊帳號

步驟 2：探索範本與 GPU 伺服器

步驟 3：自訂部署設定

步驟 4：啟動執行個體

常見問題

推薦閱讀

Product

RESOURCES

Partners

Company

重點摘要

什麼是 Llama 4 Scout？

Llama 4 Scout 概覽

Llama 4 Scout 基準測試

如何在本機存取 Llama 4 Scout？

Llama 4 Scout 硬體需求

在本機安裝 Llama 4 Scout

如何透過 Novita API 存取 Llama 4 Scout？

步驟 1：登入並存取模型庫

步驟 2：選擇你的模型

步驟 3：開始免費試用

步驟 4：取得 API 金鑰

步驟 5：安裝 API

透過雲端 GPU 使用 Llama 4 Scout

步驟 1：註冊帳號

步驟 2：探索範本與 GPU 伺服器

步驟 3：自訂部署設定

步驟 4：啟動執行個體

常見問題

推薦閱讀

相關文章

Product

RESOURCES

Partners

Company