如何使用 Llama 4 Maverick —— 本地、API 或云端 GPU

什么是 Llama 4 Maverick？
如何在本地访问 Llama 4 Maverick？
如何通过 Novita API 访问 Llama 4 Maverick？
通过云端 GPU 使用 Llama 4 Scout
常见问题

核心亮点

**超长上下文窗口 **：支持多达 100 万个 Token——非常适合处理长文档、代码库或书籍。

**多模态支持 ：可同时处理 ** 文本和图像输入。

**多语言优势 **：在 200 种语言 上预训练，多语言 MMLU 得分高达 84.6，是一款面向全球的模型。

**成本效益高 ：以远低于 GPT-4o 的价格（在 Novita AI 上为 $0.2，GPT-4o 为每百万 Token $4.38）提供 ** 顶尖性能。

Llama 4 Maverick 是 Meta 最新发布的开源大语言模型，于 2025 年 4 月 5 日推出。它采用 128 混合专家（MoE）架构，并在 22 万亿 Token 的多模态数据上训练，旨在实现 ** 高性能、灵活性和全球化规模 **。凭借 ** 高达 1000 万 Token 的上下文长度 、对 ** 文本和图像输入 ** 的支持，以及在 ** 多语言和推理基准测试 中的卓越表现，它是一款极具竞争力的模型。

什么是 Llama 4 Maverick？

https://www.youtube.com/watch?v=8G-GI4bvWZU

Llama 4 Maverick 概述

类别	详情
发布日期	2025 年 4 月 5 日
模型大小	400B 参数（每个 Token 活跃 17B）
开源	是
架构	128 混合专家（MoE）
上下文长度	最高 1M Token（1,000,000 Token）
语言支持	在 200 种语言上预训练，包括阿拉伯语、英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语。
多模态能力	结合文本和图像输入，支持处理文本与视觉内容。
训练数据	约 22 万亿 Token 的多模态数据（部分来自 Instagram 和 Facebook）。
预训练	MetaP（自适应专家配置，含中期训练优化）。
后训练步骤	1. SFT（在简单数据上进行有监督微调）
	2. RL（在困难数据上进行强化学习）
	3. DPO（直接偏好优化）

Llama 4 Maverick 基准测试

Llama 4 Maverick 在多项主要基准测试中超越 Gemini 2.0 Flash、DeepSeek v3.1 和 GPT-4o，尤其在 ** 图像推理、图像理解 ** 和 ** 多语言任务** 方面表现突出。

如何在本地访问 Llama 4 Maverick？

Llama 4 Maverick 硬件需求

上下文长度	INT4 VRAM	GPU 需求（INT4）	FP16 VRAM	GPU 需求（FP16）
4K Token	约 318 GB	4×H100/A100	约 1.22 TB	16×H100
128K Token	约 552 GB	8×H100	约 1.45 TB	约 16×H100

在本地安装 Llama 4 Maverick

步骤 1：准备环境

安装 Python（建议 3.9 或更高版本）。
使用虚拟环境管理依赖项：textpython -m venv llama_env source llama_env/bin/activate

步骤 2：安装所需 Python 库

运行以下命令安装依赖：

bash<code>pip install -U transformers==4.51.0
pip install torch
pip install huggingface-hub
pip install hf_xet

这些库对于加载和运行模型至关重要。

步骤 3：下载模型

访问 Hugging Face Hub 上 Llama 4 Maverick 的页面。
使用以下 Python 代码下载模型：

from transformers import AutoProcessor, Llama4ForConditionalGeneration

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16)

这将会下载模型并准备好进行推理。

如何通过 Novita API 访问 Llama 4 Maverick？

步骤 1：登录并访问模型库

登录您的账户，点击 模型库 按钮。

立即试用 Llama 4 Maverick！

步骤 2：选择您的模型

浏览可用的选项，选择适合您需求的模型。

步骤 3：开始免费试用

开始免费试用，探索所选模型的能力。

步骤 4：获取您的 API 密钥

为了通过 API 进行身份验证，我们将为您提供一个新的 API 密钥。进入“设置”页面，您可以按照图片所示复制 API 密钥。

步骤 5：安装 API

使用您编程语言对应的包管理器安装 API。

安装完成后，将必要的库导入您的开发环境。使用您的 API 密钥初始化 API，开始与 Novita AI LLM 交互。以下是 Python 用户使用聊天补全 API 的示例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-4-maverick-17b-128e-instruct-fp8"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

通过云端 GPU 使用 Llama 4 Scout

步骤 1：注册账户

如果您是 Novita AI 的新用户，请先在网站上注册账户。注册完成后，前往“GPUs”标签页，探索可用资源并开始您的旅程。

步骤 2：探索模板和 GPU 服务器

首先选择一个与您项目需求匹配的模板，例如 PyTorch、TensorFlow 或 CUDA。选择适合的版本，比如 PyTorch 2.2.1 或 CUDA 11.8.0。然后选择 A100 GPU 服务器配置，它提供强大的性能来处理繁重的工作负载，并拥有充足的 VRAM、RAM 和磁盘容量。

试用 Novita AI 的高性能 GPU

步骤 3：定制您的部署

选择模板和 GPU 后，通过调整参数（如操作系统版本，例如 CUDA 11.8）来自定义部署设置。您还可以调整其他配置，使环境更符合项目的特定要求。

步骤 4：启动实例

完成模板和部署设置后，点击“启动实例”来设置您的 GPU 实例。这将开始环境配置，使您能够开始使用 GPU 资源处理 AI 任务。

如果您正在寻找一款强大、实惠且对开发者友好的 LLM，Llama 4 Maverick 是您的最佳选择。它在 ** 图像推理、多语言支持、长上下文理解 ** 和 ** 推理成本 ** 等关键领域超越 GPT-4o 和 Gemini 2.0 Flash 等领先模型。无论是本地运行还是通过 Novita AI 的高性能 API 使用，开始使用都非常快速简便。今天就试试吧，看看它的不同之处。

常见问题

什么是 Llama 4 Maverick？

Llama 4 Maverick 是 Meta 开发的开源大语言模型，能够处理 **文本和图像输入 **，支持 ** 最高 10M Token 上下文 **，并在 200 种语言 上训练。

我可以在没有强大本地 GPU 的情况下使用 Llama 4 Maverick 吗？

可以！您可以通过 Novita AI 的 API 或 ** 云端 GPU 平台** 轻松访问 Llama 4 Maverick，并提供免费试用。

Llama 4 Maverick 适合处理大型文档或书籍吗？

当然。凭借对 最多 100 万 Token 的支持，它非常适合处理长文本、复杂文档和上下文记忆任务。

Novita AI 是一个 AI 云平台，为开发者提供通过简单 API 部署 AI 模型的便捷方式，同时提供经济实惠且可靠的 GPU 云用于构建和扩展。

如何使用 Llama 4 Maverick —— 本地、API 或云端 GPU

核心亮点

什么是 Llama 4 Maverick？

Llama 4 Maverick 概述

Llama 4 Maverick 基准测试

如何在本地访问 Llama 4 Maverick？

Llama 4 Maverick 硬件需求

在本地安装 Llama 4 Maverick

如何通过 Novita API 访问 Llama 4 Maverick？

步骤 1：登录并访问模型库

步骤 2：选择您的模型

步骤 3：开始免费试用

步骤 4：获取您的 API 密钥

步骤 5：安装 API

通过云端 GPU 使用 Llama 4 Scout

步骤 1：注册账户

步骤 2：探索模板和 GPU 服务器

步骤 3：定制您的部署

步骤 4：启动实例

常见问题

推荐阅读

Product

RESOURCES

Partners

Company

核心亮点

什么是 Llama 4 Maverick？

Llama 4 Maverick 概述

Llama 4 Maverick 基准测试

如何在本地访问 Llama 4 Maverick？

Llama 4 Maverick 硬件需求

在本地安装 Llama 4 Maverick

如何通过 Novita API 访问 Llama 4 Maverick？

步骤 1：登录并访问模型库

步骤 2：选择您的模型

步骤 3：开始免费试用

步骤 4：获取您的 API 密钥

步骤 5：安装 API

通过云端 GPU 使用 Llama 4 Scout

步骤 1：注册账户

步骤 2：探索模板和 GPU 服务器

步骤 3：定制您的部署

步骤 4：启动实例

常见问题

推荐阅读

相关文章

Product

RESOURCES

Partners

Company