主要亮点
模型概述:Llama 3.2 1B 是 Meta 开发的一款轻量级多语言大语言模型,专为在边缘设备和移动设备上高效使用而设计。
训练方法:采用结构化剪枝和从更大模型中提取知识蒸馏的方法。
硬件要求:推理需要 3.14 GB VRAM,微调需要 14.11 GB VRAM。
Llama 3.2 1B 是 Meta 创建的一款先进多语言大语言模型,专门针对移动和边缘设备的轻量级部署进行了优化。其架构可在各种自然语言处理任务中提供强劲性能,同时保持高效的资源使用。
推荐朋友加入 Novita AI,你和朋友将各获得 $10 的 LLM API 积分,总奖励高达 $500。
为了支持开发者社区,Llama 3.2 1B、Qwen2.5-7B、Qwen 3 0.6B、Qwen 3 1.7B、Qwen 3 4B 目前在 Novita AI 上免费提供。
Llama 3.2 1B 是什么?
Llama 3.2 1B 模型是 Meta 开发的一款轻量级多语言大语言模型,旨在边缘和移动设备上高效运行,同时为各种自然语言处理任务提供强劲性能。

-
模型大小:1B
-
开源:是
-
架构:Dense Transform
-
上下文长度:128,000 个 token
-
支持的多语言:
- 官方支持:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语
- 更广泛集合:除上述 8 种语言外,还额外训练了其他语言。
-
多模态能力:
- 输入:文本
- 输出:文本和代码
-
训练方法:Llama 3.2 1B 采用结构化剪枝技术,从 Llama 3.1 8B 模型中系统性地移除部分网络并调整权重,从而生成更小、更高效的模型。它还使用了知识蒸馏,在预训练期间将 Llama 3.1 8B 和 70B 模型的 logits 作为 token 级目标。这种方法使 Llama 3.2 1B 能够利用更大模型的洞察力,从而在剪枝后提升性能。

Llama 3.2 1B 基准测试



Llama 3.2 1B 硬件要求
推理细节
-
模型:Llama 3.2 1B
-
量化:FP16
-
所需 VRAM(推理):3.14 GB
-
兼容 GPU:
- RTX 3090(12 GB)
- RTX 4060(8 GB)
微调细节
- 模型:Llama 3.2 1B
- 量化:FP16
- 所需 VRAM(微调):14.11 GB
- 兼容 GPU:RTX 4090(24 GB)
Meta 已发布 Llama 3.2 1B 和 3B 模型的量化版本,大幅减小了体积和计算需求。与原始版本相比,这些量化模型可将模型大小减少多达 56%,内存使用量减少 41%。这些优化使其适用于移动设备部署,包括搭载 ARM 处理器的智能手机。
如何访问 Llama 3.2 1B?
步骤 1:登录并访问模型库
登录您的账户,点击 模型库 按钮。

步骤 2:选择您的模型
浏览可用选项,选择适合您需求的模型。

步骤 3:开始免费试用
开始免费试用,探索所选模型的能力。

步骤 4:获取您的 API 密钥
为了进行 API 认证,我们将为您提供一个新 API 密钥。进入“设置”页面,您可以按照图像所示复制 API 密钥。

步骤 5:安装 API
使用您编程语言对应的包管理器安装 API。
安装后,将必要的库导入您的开发环境。使用您的 API 密钥初始化 API,即可开始与 Novita AI LLM 交互。以下是一个针对 Python 用户的聊天补全 API 示例。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "meta-llama/llama-3.2-1b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
总之,Llama 3.2 1B 因其在资源受限设备上提供强大语言处理能力而脱颖而出。凭借其开源特性和优化架构,它成为寻求高效 AI 解决方案的开发者的宝贵工具。
常见问题
Llama 3.2 1B 是什么?
一款专为移动设备高效部署而设计的轻量级多语言语言模型。
Llama 3.2 1B 的硬件要求是什么?
推理需要 3.14 GB VRAM;微调需要 14.11 GB VRAM。
Llama 3.2 1B 模型是否免费使用?
是的!Novita AI 提供 Llama 3.2 1B 模型的免费访问,并支持简单的 API 集成。
Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷方式,同时还提供经济实惠且可靠的 GPU 云用于构建和扩展。

