指南：本地、通过 API 或云 GPU 访问 Llama 4 Scout

什么是 Llama 4 Scout？
如何在本地访问 Llama 4 Scout？
如何通过 Novita API 访问 Llama 4 Scout？
通过云 GPU 使用 Llama 4 Scout
常见问题

核心亮点

1000万 Token 上下文：远超大多数模型。

多模态支持：可同时处理文本和图像输入。

多语言能力：支持 12 种语言，适用于全球应用。

开源：免费使用和定制。

立即体验通过 Novita AI API 开启 免费试用 的便捷——快速、简单、无忧！

Llama 4 Scout 凭借 1000万 token 上下文 脱颖而出，这使其与绝大多数上下文窗口有限的 AI 模型不同。这种高容量使其非常适合处理大规模任务，例如长文档分析、多语言合成或多模态输入处理。

什么是 Llama 4 Scout？

https://www.youtube.com/watch?v=MwHol73Cw_I

Llama 4 Scout 概览

属性	值
发布日期	2025 年 4 月 5 日
模型大小	109B 参数（17B 激活/token）
开源	是
架构	16 混合专家（MoE）
上下文	10M（10000k）
支持的语言	阿拉伯语、英语、法语、德语、印地语、印度尼西亚语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语
多模态	输入：多语言文本和图像输出：多语言文本和代码
训练数据	约 40 万亿 tokens
预训练	MetaP（自适应专家配置 + 中期训练）
后训练	SFT（简单数据）→ RL（困难数据）→ DPO
张量类型	BF16

Llama 4 Scout 基准测试

来源：Meta

如何在本地访问 Llama 4 Scout？

Llama 4 Scout 硬件要求

上下文长度	Int4 显存	GPU 需求（Int4）	FP16 显存	GPU 需求（FP16）
4K Tokens	~99.5 GB / ~76.2 GB	1×H100	~345 GB	8×H100
128K Tokens	~334 GB	8×H100	~579 GB	8×H100
10M Tokens	~18.8 TB（以 KV Cache 为主）	240×H100	与 INT4 相同（以 KV 为主）	240×H100

尽管宣传声称 LLaMA 4 Scout 可以在单个 H100 上运行，但这仅在量化、较短的上下文长度、较小的批大小以及高效推理框架的前提下才可行。

在本地安装 Llama 4 Scout

第一步：准备环境

安装 Python：确保系统安装了合适版本的 Python（Llama 4 需要）。
设置 GPU：验证系统是否拥有能够运行该模型的强大 GPU。
创建 Python 环境：使用 conda 或 venv 等工具管理依赖项。

第二步：获取模型

访问网站：前往 www.llama.com。
**选择模型 **：下载 Llama 4 Scout。

第三步：安装依赖项

运行以下命令安装所需的 Python 包：

pip install llama-stack

第四步：验证模型

列出所有可用模型并找到 Llama 4 Scout 的模型 ID：

llama model list

第五步：下载并运行模型

指定模型 ID：输入正确的模型 ID 和下载 URL。
检查 URL 有效期：下载链接通常仅有效 48 小时；可能需要重新下载。

完成这些步骤后，您就可以运行 Llama 4 Scout 了！

如何通过 Novita API 访问 Llama 4 Scout？

第一步：登录并访问模型库

登录您的账户，点击 模型库 按钮。

立即试用 Llama 4 Scout！

第二步：选择模型

浏览可用选项，选择符合您需求的模型。

第三步：开始免费试用

开始免费试用，探索所选模型的能力。

第四步：获取 API 密钥

为了进行 API 身份验证，我们将为您提供一个新的 API 密钥。进入“设置”页面，您可以按照图片所示的指示复制 API 密钥。

第五步：安装 API

使用适合您编程语言的包管理器安装 API。

安装后，将必要的库导入到您的开发环境中。使用您的 API 密钥初始化 API，开始与 Novita AI LLM 交互。以下是 Python 用户使用 Chat Completions API 的示例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-4-scout-17b-16e-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

通过云 GPU 使用 Llama 4 Scout

第一步：注册账号

如果您是 Novita AI 的新用户，请先在官网创建账户。注册完成后，前往“GPUs”选项卡探索可用资源并开启您的旅程。

第二步：浏览模板和 GPU 服务器

首先选择与您项目需求匹配的模板，例如 PyTorch、TensorFlow 或 CUDA。选择符合要求的版本，如 PyTorch 2.2.1 或 CUDA 11.8.0。然后选择 A100 GPU 服务器配置，该配置提供强大的性能，可处理高负载任务，并配备充足的显存、内存和磁盘容量。

尝试 Novita AI 的高性能 GPU

第三步：定制部署

选择模板和 GPU 后，通过调整参数（如操作系统版本，例如 CUDA 11.8）来自定义部署设置。您也可以调整其他配置，使环境符合项目的特定需求。

第四步：启动实例

确认模板和部署设置后，点击“启动实例”来设置您的 GPU 实例。这将开始环境搭建，使您能够开始使用 GPU 资源进行 AI 任务。

Llama 4 Scout 无与伦比的上下文长度 和多模态能力使其成为长文本、多语言和大规模任务的革命性工具。其可扩展性和开源特性确保了开发者和研究人员的灵活性。

常见问题

Llama 4 Scout 的独特之处是什么？

1000万 Token 上下文：远超大多数模型。
多模态支持：可同时处理文本和图像输入。
多语言能力：支持 12 种语言，适用于全球应用。
开源：免费使用和定制。

没有高端 GPU 也能使用 Llama 4 Scout 吗？

可以，但仅限于较小的上下文（例如 4K tokens），并需要对模型进行量化。完整的 1000万 token 上下文由于内存需求（特别是 KV cache）至少需要 240×H100 GPU。或者您也可以通过 API 选择 Novita AI！

Llama 4 Scout 推荐使用什么硬件？

小上下文（4K tokens）：1×H100 GPU
大上下文（128K tokens）：8×H100 GPU
完整上下文（1000万 tokens）：240×H100 GPU

Novita AI 是一个 AI 云平台，为开发者提供通过简单 API 部署 AI 模型的便捷方式，同时提供经济实惠且可靠的 GPU 云用于构建和扩展。

指南：本地、通过 API 或云 GPU 访问 Llama 4 Scout

核心亮点

什么是 Llama 4 Scout？

Llama 4 Scout 概览

Llama 4 Scout 基准测试

如何在本地访问 Llama 4 Scout？

Llama 4 Scout 硬件要求

在本地安装 Llama 4 Scout

如何通过 Novita API 访问 Llama 4 Scout？

第一步：登录并访问模型库

第二步：选择模型

第三步：开始免费试用

第四步：获取 API 密钥

第五步：安装 API

通过云 GPU 使用 Llama 4 Scout

第一步：注册账号

第二步：浏览模板和 GPU 服务器

第三步：定制部署

第四步：启动实例

常见问题

推荐阅读

Product

RESOURCES

Partners

Company

核心亮点

什么是 Llama 4 Scout？

Llama 4 Scout 概览

Llama 4 Scout 基准测试

如何在本地访问 Llama 4 Scout？

Llama 4 Scout 硬件要求

在本地安装 Llama 4 Scout

如何通过 Novita API 访问 Llama 4 Scout？

第一步：登录并访问模型库

第二步：选择模型

第三步：开始免费试用

第四步：获取 API 密钥

第五步：安装 API

通过云 GPU 使用 Llama 4 Scout

第一步：注册账号

第二步：浏览模板和 GPU 服务器

第三步：定制部署

第四步：启动实例

常见问题

推荐阅读

相关文章

Product

RESOURCES

Partners

Company