指南:在本機、透過 API 或雲端 GPU 存取 Llama 4 Scout

指南:在本機、透過 API 或雲端 GPU 存取 Llama 4 Scout

重點摘要

10M Token 上下文:遠超大多數模型。

多模態支援:可同時處理文字和影像輸入。

多語言能力:支援 12 種語言,適用於全球應用。

開放原始碼:可免費使用及自訂。

立即體驗 Novita AI API 的 免費試用 — 快速、簡單、無負擔!

Llama 4 Scout 擁有 1000 萬個 token 的上下文,這讓它與大多數上下文窗口有限的 AI 模型截然不同。如此高的容量使其非常適合處理大規模任務,例如長篇文件分析、多語言彙整或多模態輸入處理。

什麼是 Llama 4 Scout?

https://www.youtube.com/watch?v=MwHol73Cw\_I

Llama 4 Scout 概覽

**屬性 ** ** 數值**
發布日期 2025 年 4 月 5 日
模型大小 109B 參數(17B 活躍/ token)
開放原始碼 開源
架構 16 混合專家(Mixture-of-Experts, MoE)
上下文 10M(10000k)
支援語言 阿拉伯語、英語、法語、德語、印地語、印尼語、義大利語、葡萄牙語、西班牙語、他加祿語、泰語、越南語
多模態 輸入:多語言文字與影像
輸出:多語言文字與程式碼
訓練資料 約 40 兆 token
預訓練 MetaP(自適應專家配置 + 中期訓練)
後訓練 SFT(簡易資料)→ RL(困難資料)→ DPO
張量類型 BF16

Llama 4 Scout 基準測試

llama 4 scout benchmark

來自 Meta

如何在本機存取 Llama 4 Scout?

Llama 4 Scout 硬體需求

**上下文長度 ** Int4 VRAM GPU 需求(Int4) FP16 VRAM GPU 需求(FP16)
4K Token ~99.5 GB / ~76.2 GB 1 張 H100 ~345 GB 8 張 H100
128K Token ~334 GB 8 張 H100 ~579 GB 8 張 H100
10M Token ~18.8 TB(KV 快取佔主導) 240 張 H100 與 INT4 相同(KV 主導) 240 張 H100

雖然宣傳聲稱 LLaMA 4 Scout 可在單張 H100 上執行,但這僅在量化、較短上下文長度、較小批次大小以及高效推理框架下才可行。

在本機安裝 Llama 4 Scout

步驟 1:準備環境

  • 安裝 Python:確保你的系統安裝了適當版本的 Python(Llama 4 需要)。
  • 設定 GPU:確認你的系統配備能執行該模型的強大 GPU。
  • 建立 Python 環境:使用 condavenv 等工具管理相依套件。

步驟 2:取得模型

  • 造訪網站:前往 www.llama.com
  • **選擇模型 **:下載 Llama 4 Scout

步驟 3:安裝相依套件

執行以下指令來安裝必要的 Python 套件:

pip install llama-stack

步驟 4:驗證模型

列出所有可用模型,並找到 Llama 4 Scout 的模型 ID:

llama model list

步驟 5:下載並執行模型

  • 指定模型 ID:輸入正確的模型 ID 及下載網址。
  • 檢查網址有效期:下載連結通常僅在 48 小時內有效;你可能需要重新下載。

完成這些步驟後,你就可以準備執行 Llama 4 Scout 了!

如何透過 Novita API 存取 Llama 4 Scout?

步驟 1:登入並存取模型庫

登入你的帳號,然後點擊 Model Library 按鈕。

Login and Access the Model Library

立即試用 Llama 4 Scout!

步驟 2:選擇你的模型

瀏覽可用的選項,選擇符合你需求的模型。

choose your model

步驟 3:開始免費試用

開始免費試用,探索所選模型的功能。

start your free trial

步驟 4:取得 API 金鑰

為了驗證 API,我們會為你提供一組新的 API 金鑰。進入「Settings」頁面,你可以依照圖片指示複製 API 金鑰。

get api key

步驟 5:安裝 API

使用你程式語言專用的套件管理器來安裝 API。

安裝後,將必要的函式庫匯入你的開發環境。使用你的 API 金鑰初始化 API,開始與 Novita AI LLM 互動。以下是一個使用 Python 使用者呼叫聊天補全 API 的範例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-4-scout-17b-16e-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  
  

透過雲端 GPU 使用 Llama 4 Scout

步驟 1:註冊帳號

如果你是 Novita AI 的新用戶,請先在我們的網站上建立帳號。註冊完成後,前往「GPUs」分頁,瀏覽可用資源並開始你的旅程。

Novita AI website screenshot

步驟 2:探索範本與 GPU 伺服器

首先選擇符合你專案需求的範本,例如 PyTorch、TensorFlow 或 CUDA。選擇符合需求的版本,例如 PyTorch 2.2.1 或 CUDA 11.8.0。接著選擇 A100 GPU 伺服器配置,它提供強大的效能,足以應付需要大量 VRAM、RAM 和磁碟容量的高負載工作。

novita ai website screenshot using cloud gpu

立即試用 Novita AI 的高效能 GPU

步驟 3:自訂部署設定

選擇範本與 GPU 後,調整作業系統版本(例如 CUDA 11.8)等參數來自訂部署設定。你也可以調整其他配置,讓環境更符合專案的特定需求。

novita ai website screenshot using cloud gpu

步驟 4:啟動執行個體

完成範本與部署設定後,點擊「Launch Instance」來設定你的 GPU 執行個體。這將啟動環境建置,讓你能夠開始使用 GPU 資源執行 AI 任務。

novita ai website screenshot using cloud gpu

Llama 4 Scout 的 無與倫比的上下文長度 與多模態能力,使其成為長篇、多語言及大規模任務的革命性工具。其可擴展性與開源特性確保了開發者與研究人員的靈活性。

常見問題

Llama 4 Scout 有何獨特之處?

10M Token 上下文:遠超大多數模型。
多模態支援:可同時處理文字和影像輸入。
多語言能力:支援 12 種語言,適用於全球應用。
開放原始碼:可免費使用及自訂。

沒有高階 GPU 也能使用 Llama 4 Scout 嗎?

可以,但僅限於較小的上下文(例如 4K Token),方法是對模型進行量化。完整 10M Token 上下文因記憶體需求(尤其是 KV 快取)至少需要 240 張 H100 GPU。或者你也可以選擇透過 API 使用 Novita AI

Llama 4 Scout 建議使用什麼硬體?

小型上下文(4K Token):1 張 H100 GPU
大型上下文(128K Token):8 張 H100 GPU
完整上下文(10M Token):240 張 H100 GPU

Novita AI 是一個 AI 雲端平台,為開發者提供透過簡單 API 部署 AI 模型的捷徑,同時提供價格合理且可靠的 GPU 雲端用於建置與擴展。

推薦閱讀