Llama 3.2 1B 在 Novita AI 上免费使用!

Llama 3.2 1B 在 Novita AI 上免费使用!

主要亮点

模型概述:Llama 3.2 1B 是 Meta 开发的一款轻量级多语言大语言模型,专为在边缘设备和移动设备上高效使用而设计。

训练方法:采用结构化剪枝和从更大模型中提取知识蒸馏的方法。

硬件要求:推理需要 3.14 GB VRAM,微调需要 14.11 GB VRAM。

Llama 3.2 1B 是 Meta 创建的一款先进多语言大语言模型,专门针对移动和边缘设备的轻量级部署进行了优化。其架构可在各种自然语言处理任务中提供强劲性能,同时保持高效的资源使用。

推荐朋友加入 Novita AI,你和朋友将各获得 $10 的 LLM API 积分,总奖励高达 $500。

为了支持开发者社区,Llama 3.2 1B、Qwen2.5-7B、Qwen 3 0.6B、Qwen 3 1.7B、Qwen 3 4B 目前在 Novita AI 上免费提供。

qwen 2.5 7b

Llama 3.2 1B 是什么?

Llama 3.2 1B 模型是 Meta 开发的一款轻量级多语言大语言模型,旨在边缘和移动设备上高效运行,同时为各种自然语言处理任务提供强劲性能。

llama 3.2 1b

  • 模型大小:1B

  • 开源:是

  • 架构:Dense Transform

  • 上下文长度:128,000 个 token

  • 支持的多语言

    • 官方支持:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语
    • 更广泛集合:除上述 8 种语言外,还额外训练了其他语言。
  • 多模态能力

    • 输入:文本
    • 输出:文本和代码
  • 训练方法:Llama 3.2 1B 采用结构化剪枝技术,从 Llama 3.1 8B 模型中系统性地移除部分网络并调整权重,从而生成更小、更高效的模型。它还使用了知识蒸馏,在预训练期间将 Llama 3.1 8B 和 70B 模型的 logits 作为 token 级目标。这种方法使 Llama 3.2 1B 能够利用更大模型的洞察力,从而在剪枝后提升性能。

distill from llama 3.2 3b

Llama 3.2 1B 基准测试

llama 3.2 1b benchmark

llama 3.2 1b benchmark 1

llama 3.2 benchmark2

Llama 3.2 1B 硬件要求

推理细节

  • 模型:Llama 3.2 1B

  • 量化:FP16

  • 所需 VRAM(推理):3.14 GB

  • 兼容 GPU

    • RTX 3090(12 GB)
    • RTX 4060(8 GB)

微调细节

  • 模型:Llama 3.2 1B
  • 量化:FP16
  • 所需 VRAM(微调):14.11 GB
  • 兼容 GPU:RTX 4090(24 GB)

Meta 已发布 Llama 3.2 1B 和 3B 模型的量化版本,大幅减小了体积和计算需求。与原始版本相比,这些量化模型可将模型大小减少多达 56%,内存使用量减少 41%。这些优化使其适用于移动设备部署,包括搭载 ARM 处理器的智能手机。

如何访问 Llama 3.2 1B?

步骤 1:登录并访问模型库

登录您的账户,点击 模型库 按钮。

Log In and Access the Model Library

步骤 2:选择您的模型

浏览可用选项,选择适合您需求的模型。

choose your model

步骤 3:开始免费试用

开始免费试用,探索所选模型的能力。

llama 3.2 1b

立即尝试 Llama 3.2 1B !

步骤 4:获取您的 API 密钥

为了进行 API 认证,我们将为您提供一个新 API 密钥。进入“设置”页面,您可以按照图像所示复制 API 密钥。

get api key

步骤 5:安装 API

使用您编程语言对应的包管理器安装 API。

安装后,将必要的库导入您的开发环境。使用您的 API 密钥初始化 API,即可开始与 Novita AI LLM 交互。以下是一个针对 Python 用户的聊天补全 API 示例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-3.2-1b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

总之,Llama 3.2 1B 因其在资源受限设备上提供强大语言处理能力而脱颖而出。凭借其开源特性和优化架构,它成为寻求高效 AI 解决方案的开发者的宝贵工具。

常见问题

Llama 3.2 1B 是什么?

一款专为移动设备高效部署而设计的轻量级多语言语言模型。

Llama 3.2 1B 的硬件要求是什么?

推理需要 3.14 GB VRAM;微调需要 14.11 GB VRAM。

Llama 3.2 1B 模型是否免费使用?

是的!Novita AI 提供 Llama 3.2 1B 模型的免费访问,并支持简单的 API 集成。

Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷方式,同时还提供经济实惠且可靠的 GPU 云用于构建和扩展。

推荐阅读