指南:本地、通过 API 或云 GPU 访问 Llama 4 Scout

指南:本地、通过 API 或云 GPU 访问 Llama 4 Scout

核心亮点

1000万 Token 上下文:远超大多数模型。

多模态支持:可同时处理文本和图像输入。

多语言能力:支持 12 种语言,适用于全球应用。

开源:免费使用和定制。

立即体验通过 Novita AI API 开启 免费试用 的便捷——快速、简单、无忧!

Llama 4 Scout 凭借 1000万 token 上下文 脱颖而出,这使其与绝大多数上下文窗口有限的 AI 模型不同。这种高容量使其非常适合处理大规模任务,例如长文档分析、多语言合成或多模态输入处理。

什么是 Llama 4 Scout?

https://www.youtube.com/watch?v=MwHol73Cw_I

Llama 4 Scout 概览

**属性 ** ** 值**
发布日期 2025 年 4 月 5 日
模型大小 109B 参数(17B 激活/token)
开源
架构 16 混合专家(MoE)
上下文 10M(10000k)
支持的语言 阿拉伯语、英语、法语、德语、印地语、印度尼西亚语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语
多模态 输入:多语言文本和图像
输出:多语言文本和代码
训练数据 约 40 万亿 tokens
预训练 MetaP(自适应专家配置 + 中期训练)
后训练 SFT(简单数据)→ RL(困难数据)→ DPO
张量类型 BF16

Llama 4 Scout 基准测试

llama 4 scout benchmark

来源:Meta

如何在本地访问 Llama 4 Scout?

Llama 4 Scout 硬件要求

**上下文长度 ** **Int4 显存 ** GPU 需求(Int4) **FP16 显存 ** GPU 需求(FP16)
4K Tokens ~99.5 GB / ~76.2 GB 1×H100 ~345 GB 8×H100
128K Tokens ~334 GB 8×H100 ~579 GB 8×H100
10M Tokens ~18.8 TB(以 KV Cache 为主) 240×H100 与 INT4 相同(以 KV 为主) 240×H100

尽管宣传声称 LLaMA 4 Scout 可以在单个 H100 上运行,但这仅在量化、较短的上下文长度、较小的批大小以及高效推理框架的前提下才可行。

在本地安装 Llama 4 Scout

第一步:准备环境

  • 安装 Python:确保系统安装了合适版本的 Python(Llama 4 需要)。
  • 设置 GPU:验证系统是否拥有能够运行该模型的强大 GPU。
  • 创建 Python 环境:使用 condavenv 等工具管理依赖项。

第二步:获取模型

  • 访问网站:前往 www.llama.com
  • **选择模型 **:下载 Llama 4 Scout

第三步:安装依赖项

运行以下命令安装所需的 Python 包:

pip install llama-stack

第四步:验证模型

列出所有可用模型并找到 Llama 4 Scout 的模型 ID:

llama model list

第五步:下载并运行模型

  • 指定模型 ID:输入正确的模型 ID 和下载 URL。
  • 检查 URL 有效期:下载链接通常仅有效 48 小时;可能需要重新下载。

完成这些步骤后,您就可以运行 Llama 4 Scout 了!

如何通过 Novita API 访问 Llama 4 Scout?

第一步:登录并访问模型库

登录您的账户,点击 模型库 按钮。

Log In and Access the Model Library

立即试用 Llama 4 Scout!

第二步:选择模型

浏览可用选项,选择符合您需求的模型。

choose your model

第三步:开始免费试用

开始免费试用,探索所选模型的能力。

start your free tail

第四步:获取 API 密钥

为了进行 API 身份验证,我们将为您提供一个新的 API 密钥。进入“设置”页面,您可以按照图片所示的指示复制 API 密钥。

get api key

第五步:安装 API

使用适合您编程语言的包管理器安装 API。

安装后,将必要的库导入到您的开发环境中。使用您的 API 密钥初始化 API,开始与 Novita AI LLM 交互。以下是 Python 用户使用 Chat Completions API 的示例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-4-scout-17b-16e-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  
  

通过云 GPU 使用 Llama 4 Scout

第一步:注册账号

如果您是 Novita AI 的新用户,请先在官网创建账户。注册完成后,前往“GPUs”选项卡探索可用资源并开启您的旅程。

Novita AI website screenshot

第二步:浏览模板和 GPU 服务器

首先选择与您项目需求匹配的模板,例如 PyTorch、TensorFlow 或 CUDA。选择符合要求的版本,如 PyTorch 2.2.1 或 CUDA 11.8.0。然后选择 A100 GPU 服务器配置,该配置提供强大的性能,可处理高负载任务,并配备充足的显存、内存和磁盘容量。

novita ai website screenshot using cloud gpu

尝试 Novita AI 的高性能 GPU

第三步:定制部署

选择模板和 GPU 后,通过调整参数(如操作系统版本,例如 CUDA 11.8)来自定义部署设置。您也可以调整其他配置,使环境符合项目的特定需求。

novita ai website screenshot using cloud gpu

第四步:启动实例

确认模板和部署设置后,点击“启动实例”来设置您的 GPU 实例。这将开始环境搭建,使您能够开始使用 GPU 资源进行 AI 任务。

novita ai website screenshot using cloud gpu

Llama 4 Scout 无与伦比的上下文长度 和多模态能力使其成为长文本、多语言和大规模任务的革命性工具。其可扩展性和开源特性确保了开发者和研究人员的灵活性。

常见问题

Llama 4 Scout 的独特之处是什么?

1000万 Token 上下文:远超大多数模型。
多模态支持:可同时处理文本和图像输入。
多语言能力:支持 12 种语言,适用于全球应用。
开源:免费使用和定制。

没有高端 GPU 也能使用 Llama 4 Scout 吗?

可以,但仅限于较小的上下文(例如 4K tokens),并需要对模型进行量化。完整的 1000万 token 上下文由于内存需求(特别是 KV cache)至少需要 240×H100 GPU。或者您也可以通过 API 选择 Novita AI

Llama 4 Scout 推荐使用什么硬件?

小上下文(4K tokens):1×H100 GPU
大上下文(128K tokens):8×H100 GPU
完整上下文(1000万 tokens):240×H100 GPU

Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷方式,同时提供经济实惠且可靠的 GPU 云用于构建和扩展。

推荐阅读