Llama 3.2 1B 在 Novita AI 上免费使用！

Llama 3.2 1B 是什么？
Llama 3.2 1B 基准测试
Llama 3.2 1B 硬件要求
如何访问 Llama 3.2 1B？

主要亮点

模型概述：Llama 3.2 1B 是 Meta 开发的一款轻量级多语言大语言模型，专为在边缘设备和移动设备上高效使用而设计。

训练方法：采用结构化剪枝和从更大模型中提取知识蒸馏的方法。

硬件要求：推理需要 3.14 GB VRAM，微调需要 14.11 GB VRAM。

Llama 3.2 1B 是 Meta 创建的一款先进多语言大语言模型，专门针对移动和边缘设备的轻量级部署进行了优化。其架构可在各种自然语言处理任务中提供强劲性能，同时保持高效的资源使用。

推荐朋友加入 Novita AI，你和朋友将各获得 $10 的 LLM API 积分，总奖励高达 $500。

为了支持开发者社区，Llama 3.2 1B、Qwen2.5-7B、Qwen 3 0.6B、Qwen 3 1.7B、Qwen 3 4B 目前在 Novita AI 上免费提供。

Llama 3.2 1B 是什么？

Llama 3.2 1B 模型是 Meta 开发的一款轻量级多语言大语言模型，旨在边缘和移动设备上高效运行，同时为各种自然语言处理任务提供强劲性能。

模型大小：1B
开源：是
架构：Dense Transform
上下文长度：128,000 个 token
支持的多语言：
- 官方支持：英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语
- 更广泛集合：除上述 8 种语言外，还额外训练了其他语言。
多模态能力：
- 输入：文本
- 输出：文本和代码
训练方法：Llama 3.2 1B 采用结构化剪枝技术，从 Llama 3.1 8B 模型中系统性地移除部分网络并调整权重，从而生成更小、更高效的模型。它还使用了知识蒸馏，在预训练期间将 Llama 3.1 8B 和 70B 模型的 logits 作为 token 级目标。这种方法使 Llama 3.2 1B 能够利用更大模型的洞察力，从而在剪枝后提升性能。

Llama 3.2 1B 基准测试

Llama 3.2 1B 硬件要求

推理细节

模型：Llama 3.2 1B
量化：FP16
所需 VRAM（推理）：3.14 GB
兼容 GPU：
- RTX 3090（12 GB）
- RTX 4060（8 GB）

微调细节

模型：Llama 3.2 1B
量化：FP16
所需 VRAM（微调）：14.11 GB
兼容 GPU：RTX 4090（24 GB）

Meta 已发布 Llama 3.2 1B 和 3B 模型的量化版本，大幅减小了体积和计算需求。与原始版本相比，这些量化模型可将模型大小减少多达 56%，内存使用量减少 41%。这些优化使其适用于移动设备部署，包括搭载 ARM 处理器的智能手机。

如何访问 Llama 3.2 1B？

步骤 1：登录并访问模型库

登录您的账户，点击 模型库 按钮。

步骤 2：选择您的模型

浏览可用选项，选择适合您需求的模型。

步骤 3：开始免费试用

开始免费试用，探索所选模型的能力。

立即尝试 Llama 3.2 1B ！

步骤 4：获取您的 API 密钥

为了进行 API 认证，我们将为您提供一个新 API 密钥。进入“设置”页面，您可以按照图像所示复制 API 密钥。

步骤 5：安装 API

使用您编程语言对应的包管理器安装 API。

安装后，将必要的库导入您的开发环境。使用您的 API 密钥初始化 API，即可开始与 Novita AI LLM 交互。以下是一个针对 Python 用户的聊天补全 API 示例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-3.2-1b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

总之，Llama 3.2 1B 因其在资源受限设备上提供强大语言处理能力而脱颖而出。凭借其开源特性和优化架构，它成为寻求高效 AI 解决方案的开发者的宝贵工具。

常见问题

Llama 3.2 1B 是什么？

一款专为移动设备高效部署而设计的轻量级多语言语言模型。

Llama 3.2 1B 的硬件要求是什么？

推理需要 3.14 GB VRAM；微调需要 14.11 GB VRAM。

Llama 3.2 1B 模型是否免费使用？

是的！Novita AI 提供 Llama 3.2 1B 模型的免费访问，并支持简单的 API 集成。

Novita AI 是一个 AI 云平台，为开发者提供通过简单 API 部署 AI 模型的便捷方式，同时还提供经济实惠且可靠的 GPU 云用于构建和扩展。