Llama 3.2 1B 在 Novita AI 上免費使用!

Llama 3.2 1B 在 Novita AI 上免費使用!

重點摘要

模型概述:Llama 3.2 1B 是 Meta 開發的輕量級多語言 LLM,專為邊緣裝置與行動裝置的高效使用而設計。

訓練方法:採用結構化剪枝與從較大模型中進行的知識蒸餾。

硬體需求:推論需要 3.14 GB VRAM,微調則需要 14.11 GB VRAM。

Llama 3.2 1B 是 Meta 建立的一款先進多語言大型語言模型,專為輕量級部署於行動裝置與邊緣裝置而設計。其架構能在維持高效資源使用的同時,於各種自然語言處理任務中提供穩健的效能。

推薦好友使用 Novita AI,雙方均可獲得 $10 的 LLM API 額度,最高可達 $500 總獎勵。

為支援開發者社群,Llama 3.2 1B、Qwen2.5-7B、Qwen 3 0.6B、Qwen 3 1.7B、Qwen 3 4B 目前於 Novita AI 上免費提供。

qwen 2.5 7b

什麼是 Llama 3.2 1B?

Llama 3.2 1B 模型是 Meta 開發的輕量級多語言大型語言模型,專為在邊緣裝置與行動裝置上高效運行而設計,同時為各種自然語言處理任務提供強大的效能。

llama 3.2 1b

  • 模型大小:1B

  • 開源:是

  • 架構:密集 Transformer

  • 上下文長度:128,000 個 token

  • 支援的多語言

    • 官方支援:英文、德文、法文、義大利文、葡萄牙文、印地文、西班牙文、泰文
    • 更廣泛的涵蓋:在列出的 8 種語言之外,還訓練了其他語言。
  • 多模態能力

    • 輸入:文字
    • 輸出:文字與程式碼
  • 訓練方法:Llama 3.2 1B 使用來自 Llama 3.1 8B 模型的結構化剪枝進行訓練,系統性地移除網路部分,同時調整權重以建立更小、更有效率的模型。它還採用了知識蒸餾,將 Llama 3.1 8B 和 70B 模型的 logits 作為預訓練期間的 token 級目標。這種方法使 Llama 3.2 1B 能夠利用較大模型的洞見,在剪枝過程後提升其效能。

distill from llama 3.2 3b

Llama 3.2 1B 基準測試

llama 3.2 1b benchmark

llama 3.2 1b benchmark 1

llama 3.2 benchmark2

Llama 3.2 1B 硬體需求

推論細節

  • 模型:Llama 3.2 1B

  • 量化:FP16

  • 推論所需 VRAM:3.14 GB

  • 相容 GPU

    • RTX 3090 (12 GB)
    • RTX 4060 (8 GB)

微調細節

  • 模型:Llama 3.2 1B
  • 量化:FP16
  • 微調所需 VRAM:14.11 GB
  • 相容 GPU:RTX 4090 (24 GB)

Meta 已推出 Llama 3.2 1B 和 3B 模型的量化版本,大幅減少了模型大小與運算需求。與原始版本相比,這些量化模型可減少高達 56% 的模型大小與 41% 的記憶體使用量。此類最佳化使其適合部署於行動裝置,包括採用 ARM 架構 CPU 的智慧型手機。

如何存取 Llama 3.2 1B?

步驟 1:登入並存取模型庫

登入您的帳戶,然後點擊 Model Library 按鈕。

Log In and Access the Model Library

步驟 2:選擇您的模型

瀏覽可用選項,選擇適合您需求的模型。

choose your model

步驟 3:開始免費試用

開始您的免費試用,探索所選模型的功能。

llama 3.2 1b

立即試用 Llama 3.2 1B

步驟 4:取得您的 API 金鑰

為了驗證 API,我們將提供您一個新的 API 金鑰。進入「Settings」頁面,您可以按照圖片指示複製 API 金鑰。

get api key

步驟 5:安裝 API

使用您程式語言適用的套件管理工具安裝 API。

安裝完成後,將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API,即可開始與 Novita AI LLM 互動。以下是 Python 使用者使用聊天補全 API 的範例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-3.2-1b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

總而言之,Llama 3.2 1B 以其在資源受限裝置上提供強大語言處理能力而脫穎而出。憑藉其開源特性與最佳化架構,它是尋求高效 AI 解決方案的開發者的寶貴工具。

常見問題

什麼是 Llama 3.2 1B?

一款專為行動裝置高效部署而設計的多語言輕量級語言模型。

Llama 3.2 1B 的硬體需求為何?

推論需要 3.14 GB VRAM;微調需要 14.11 GB VRAM。

Llama 3.2 1B 模型是否免費使用?

是的!Novita AI 提供 Llama 3.2 1B 模型的免費存取,並附有簡單的 API 整合。

Novita AI 是一個 AI 雲端平台,為開發者提供透過簡單 API 部署 AI 模型的簡易方式,同時提供經濟實惠且可靠的 GPU 雲端服務以用於建置與擴展。

推薦閱讀