重點摘要
10M Token 上下文:遠超大多數模型。
多模態支援:可同時處理文字和影像輸入。
多語言能力:支援 12 種語言,適用於全球應用。
開放原始碼:可免費使用及自訂。
立即體驗 Novita AI API 的 免費試用 — 快速、簡單、無負擔!
Llama 4 Scout 擁有 1000 萬個 token 的上下文,這讓它與大多數上下文窗口有限的 AI 模型截然不同。如此高的容量使其非常適合處理大規模任務,例如長篇文件分析、多語言彙整或多模態輸入處理。
什麼是 Llama 4 Scout?
https://www.youtube.com/watch?v=MwHol73Cw\_I
Llama 4 Scout 概覽
| **屬性 ** | ** 數值** |
|---|---|
| 發布日期 | 2025 年 4 月 5 日 |
| 模型大小 | 109B 參數(17B 活躍/ token) |
| 開放原始碼 | 開源 |
| 架構 | 16 混合專家(Mixture-of-Experts, MoE) |
| 上下文 | 10M(10000k) |
| 支援語言 | 阿拉伯語、英語、法語、德語、印地語、印尼語、義大利語、葡萄牙語、西班牙語、他加祿語、泰語、越南語 |
| 多模態 | 輸入:多語言文字與影像 輸出:多語言文字與程式碼 |
| 訓練資料 | 約 40 兆 token |
| 預訓練 | MetaP(自適應專家配置 + 中期訓練) |
| 後訓練 | SFT(簡易資料)→ RL(困難資料)→ DPO |
| 張量類型 | BF16 |
Llama 4 Scout 基準測試

來自 Meta
如何在本機存取 Llama 4 Scout?
Llama 4 Scout 硬體需求
| **上下文長度 ** | Int4 VRAM | GPU 需求(Int4) | FP16 VRAM | GPU 需求(FP16) |
|---|---|---|---|---|
| 4K Token | ~99.5 GB / ~76.2 GB | 1 張 H100 | ~345 GB | 8 張 H100 |
| 128K Token | ~334 GB | 8 張 H100 | ~579 GB | 8 張 H100 |
| 10M Token | ~18.8 TB(KV 快取佔主導) | 240 張 H100 | 與 INT4 相同(KV 主導) | 240 張 H100 |
雖然宣傳聲稱 LLaMA 4 Scout 可在單張 H100 上執行,但這僅在量化、較短上下文長度、較小批次大小以及高效推理框架下才可行。
在本機安裝 Llama 4 Scout
步驟 1:準備環境
- 安裝 Python:確保你的系統安裝了適當版本的 Python(Llama 4 需要)。
- 設定 GPU:確認你的系統配備能執行該模型的強大 GPU。
- 建立 Python 環境:使用
conda或venv等工具管理相依套件。
步驟 2:取得模型
- 造訪網站:前往 www.llama.com。
- **選擇模型 **:下載 Llama 4 Scout。
步驟 3:安裝相依套件
執行以下指令來安裝必要的 Python 套件:
pip install llama-stack
步驟 4:驗證模型
列出所有可用模型,並找到 Llama 4 Scout 的模型 ID:
llama model list
步驟 5:下載並執行模型
- 指定模型 ID:輸入正確的模型 ID 及下載網址。
- 檢查網址有效期:下載連結通常僅在 48 小時內有效;你可能需要重新下載。
完成這些步驟後,你就可以準備執行 Llama 4 Scout 了!
如何透過 Novita API 存取 Llama 4 Scout?
步驟 1:登入並存取模型庫
登入你的帳號,然後點擊 Model Library 按鈕。

步驟 2:選擇你的模型
瀏覽可用的選項,選擇符合你需求的模型。

步驟 3:開始免費試用
開始免費試用,探索所選模型的功能。

步驟 4:取得 API 金鑰
為了驗證 API,我們會為你提供一組新的 API 金鑰。進入「Settings」頁面,你可以依照圖片指示複製 API 金鑰。

步驟 5:安裝 API
使用你程式語言專用的套件管理器來安裝 API。

安裝後,將必要的函式庫匯入你的開發環境。使用你的 API 金鑰初始化 API,開始與 Novita AI LLM 互動。以下是一個使用 Python 使用者呼叫聊天補全 API 的範例。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "meta-llama/llama-4-scout-17b-16e-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
透過雲端 GPU 使用 Llama 4 Scout
步驟 1:註冊帳號
如果你是 Novita AI 的新用戶,請先在我們的網站上建立帳號。註冊完成後,前往「GPUs」分頁,瀏覽可用資源並開始你的旅程。

步驟 2:探索範本與 GPU 伺服器
首先選擇符合你專案需求的範本,例如 PyTorch、TensorFlow 或 CUDA。選擇符合需求的版本,例如 PyTorch 2.2.1 或 CUDA 11.8.0。接著選擇 A100 GPU 伺服器配置,它提供強大的效能,足以應付需要大量 VRAM、RAM 和磁碟容量的高負載工作。

步驟 3:自訂部署設定
選擇範本與 GPU 後,調整作業系統版本(例如 CUDA 11.8)等參數來自訂部署設定。你也可以調整其他配置,讓環境更符合專案的特定需求。

步驟 4:啟動執行個體
完成範本與部署設定後,點擊「Launch Instance」來設定你的 GPU 執行個體。這將啟動環境建置,讓你能夠開始使用 GPU 資源執行 AI 任務。

Llama 4 Scout 的 無與倫比的上下文長度 與多模態能力,使其成為長篇、多語言及大規模任務的革命性工具。其可擴展性與開源特性確保了開發者與研究人員的靈活性。
常見問題
Llama 4 Scout 有何獨特之處?
10M Token 上下文:遠超大多數模型。
多模態支援:可同時處理文字和影像輸入。
多語言能力:支援 12 種語言,適用於全球應用。
開放原始碼:可免費使用及自訂。
沒有高階 GPU 也能使用 Llama 4 Scout 嗎?
可以,但僅限於較小的上下文(例如 4K Token),方法是對模型進行量化。完整 10M Token 上下文因記憶體需求(尤其是 KV 快取)至少需要 240 張 H100 GPU。或者你也可以選擇透過 API 使用 Novita AI!
Llama 4 Scout 建議使用什麼硬體?
小型上下文(4K Token):1 張 H100 GPU
大型上下文(128K Token):8 張 H100 GPU
完整上下文(10M Token):240 張 H100 GPU
Novita AI 是一個 AI 雲端平台,為開發者提供透過簡單 API 部署 AI 模型的捷徑,同時提供價格合理且可靠的 GPU 雲端用於建置與擴展。
