核心亮点
1000万 Token 上下文:远超大多数模型。
多模态支持:可同时处理文本和图像输入。
多语言能力:支持 12 种语言,适用于全球应用。
开源:免费使用和定制。
立即体验通过 Novita AI API 开启 免费试用 的便捷——快速、简单、无忧!
Llama 4 Scout 凭借 1000万 token 上下文 脱颖而出,这使其与绝大多数上下文窗口有限的 AI 模型不同。这种高容量使其非常适合处理大规模任务,例如长文档分析、多语言合成或多模态输入处理。
什么是 Llama 4 Scout?
https://www.youtube.com/watch?v=MwHol73Cw_I
Llama 4 Scout 概览
| **属性 ** | ** 值** |
|---|---|
| 发布日期 | 2025 年 4 月 5 日 |
| 模型大小 | 109B 参数(17B 激活/token) |
| 开源 | 是 |
| 架构 | 16 混合专家(MoE) |
| 上下文 | 10M(10000k) |
| 支持的语言 | 阿拉伯语、英语、法语、德语、印地语、印度尼西亚语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语 |
| 多模态 | 输入:多语言文本和图像 输出:多语言文本和代码 |
| 训练数据 | 约 40 万亿 tokens |
| 预训练 | MetaP(自适应专家配置 + 中期训练) |
| 后训练 | SFT(简单数据)→ RL(困难数据)→ DPO |
| 张量类型 | BF16 |
Llama 4 Scout 基准测试

来源:Meta
如何在本地访问 Llama 4 Scout?
Llama 4 Scout 硬件要求
| **上下文长度 ** | **Int4 显存 ** | GPU 需求(Int4) | **FP16 显存 ** | GPU 需求(FP16) |
|---|---|---|---|---|
| 4K Tokens | ~99.5 GB / ~76.2 GB | 1×H100 | ~345 GB | 8×H100 |
| 128K Tokens | ~334 GB | 8×H100 | ~579 GB | 8×H100 |
| 10M Tokens | ~18.8 TB(以 KV Cache 为主) | 240×H100 | 与 INT4 相同(以 KV 为主) | 240×H100 |
尽管宣传声称 LLaMA 4 Scout 可以在单个 H100 上运行,但这仅在量化、较短的上下文长度、较小的批大小以及高效推理框架的前提下才可行。
在本地安装 Llama 4 Scout
第一步:准备环境
- 安装 Python:确保系统安装了合适版本的 Python(Llama 4 需要)。
- 设置 GPU:验证系统是否拥有能够运行该模型的强大 GPU。
- 创建 Python 环境:使用
conda或venv等工具管理依赖项。
第二步:获取模型
- 访问网站:前往 www.llama.com。
- **选择模型 **:下载 Llama 4 Scout。
第三步:安装依赖项
运行以下命令安装所需的 Python 包:
pip install llama-stack
第四步:验证模型
列出所有可用模型并找到 Llama 4 Scout 的模型 ID:
llama model list
第五步:下载并运行模型
- 指定模型 ID:输入正确的模型 ID 和下载 URL。
- 检查 URL 有效期:下载链接通常仅有效 48 小时;可能需要重新下载。
完成这些步骤后,您就可以运行 Llama 4 Scout 了!
如何通过 Novita API 访问 Llama 4 Scout?
第一步:登录并访问模型库
登录您的账户,点击 模型库 按钮。

第二步:选择模型
浏览可用选项,选择符合您需求的模型。

第三步:开始免费试用
开始免费试用,探索所选模型的能力。

第四步:获取 API 密钥
为了进行 API 身份验证,我们将为您提供一个新的 API 密钥。进入“设置”页面,您可以按照图片所示的指示复制 API 密钥。

第五步:安装 API
使用适合您编程语言的包管理器安装 API。

安装后,将必要的库导入到您的开发环境中。使用您的 API 密钥初始化 API,开始与 Novita AI LLM 交互。以下是 Python 用户使用 Chat Completions API 的示例。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "meta-llama/llama-4-scout-17b-16e-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
通过云 GPU 使用 Llama 4 Scout
第一步:注册账号
如果您是 Novita AI 的新用户,请先在官网创建账户。注册完成后,前往“GPUs”选项卡探索可用资源并开启您的旅程。

第二步:浏览模板和 GPU 服务器
首先选择与您项目需求匹配的模板,例如 PyTorch、TensorFlow 或 CUDA。选择符合要求的版本,如 PyTorch 2.2.1 或 CUDA 11.8.0。然后选择 A100 GPU 服务器配置,该配置提供强大的性能,可处理高负载任务,并配备充足的显存、内存和磁盘容量。

第三步:定制部署
选择模板和 GPU 后,通过调整参数(如操作系统版本,例如 CUDA 11.8)来自定义部署设置。您也可以调整其他配置,使环境符合项目的特定需求。

第四步:启动实例
确认模板和部署设置后,点击“启动实例”来设置您的 GPU 实例。这将开始环境搭建,使您能够开始使用 GPU 资源进行 AI 任务。

Llama 4 Scout 无与伦比的上下文长度 和多模态能力使其成为长文本、多语言和大规模任务的革命性工具。其可扩展性和开源特性确保了开发者和研究人员的灵活性。
常见问题
Llama 4 Scout 的独特之处是什么?
1000万 Token 上下文:远超大多数模型。
多模态支持:可同时处理文本和图像输入。
多语言能力:支持 12 种语言,适用于全球应用。
开源:免费使用和定制。
没有高端 GPU 也能使用 Llama 4 Scout 吗?
可以,但仅限于较小的上下文(例如 4K tokens),并需要对模型进行量化。完整的 1000万 token 上下文由于内存需求(特别是 KV cache)至少需要 240×H100 GPU。或者您也可以通过 API 选择 Novita AI!
Llama 4 Scout 推荐使用什么硬件?
小上下文(4K tokens):1×H100 GPU
大上下文(128K tokens):8×H100 GPU
完整上下文(1000万 tokens):240×H100 GPU
Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷方式,同时提供经济实惠且可靠的 GPU 云用于构建和扩展。
