Llama 3.2 1B 在 Novita AI 上免費使用！

什麼是 Llama 3.2 1B？
Llama 3.2 1B 基準測試
Llama 3.2 1B 硬體需求
如何存取 Llama 3.2 1B？

重點摘要

模型概述：Llama 3.2 1B 是 Meta 開發的輕量級多語言 LLM，專為邊緣裝置與行動裝置的高效使用而設計。

訓練方法：採用結構化剪枝與從較大模型中進行的知識蒸餾。

硬體需求：推論需要 3.14 GB VRAM，微調則需要 14.11 GB VRAM。

Llama 3.2 1B 是 Meta 建立的一款先進多語言大型語言模型，專為輕量級部署於行動裝置與邊緣裝置而設計。其架構能在維持高效資源使用的同時，於各種自然語言處理任務中提供穩健的效能。

推薦好友使用 Novita AI，雙方均可獲得 $10 的 LLM API 額度，最高可達 $500 總獎勵。

為支援開發者社群，Llama 3.2 1B、Qwen2.5-7B、Qwen 3 0.6B、Qwen 3 1.7B、Qwen 3 4B 目前於 Novita AI 上免費提供。

什麼是 Llama 3.2 1B？

Llama 3.2 1B 模型是 Meta 開發的輕量級多語言大型語言模型，專為在邊緣裝置與行動裝置上高效運行而設計，同時為各種自然語言處理任務提供強大的效能。

模型大小：1B
開源：是
架構：密集 Transformer
上下文長度：128,000 個 token
支援的多語言：
- 官方支援：英文、德文、法文、義大利文、葡萄牙文、印地文、西班牙文、泰文
- 更廣泛的涵蓋：在列出的 8 種語言之外，還訓練了其他語言。
多模態能力：
- 輸入：文字
- 輸出：文字與程式碼
訓練方法：Llama 3.2 1B 使用來自 Llama 3.1 8B 模型的結構化剪枝進行訓練，系統性地移除網路部分，同時調整權重以建立更小、更有效率的模型。它還採用了知識蒸餾，將 Llama 3.1 8B 和 70B 模型的 logits 作為預訓練期間的 token 級目標。這種方法使 Llama 3.2 1B 能夠利用較大模型的洞見，在剪枝過程後提升其效能。

Llama 3.2 1B 基準測試

Llama 3.2 1B 硬體需求

推論細節

模型：Llama 3.2 1B
量化：FP16
推論所需 VRAM：3.14 GB
相容 GPU：
- RTX 3090 (12 GB)
- RTX 4060 (8 GB)

微調細節

模型：Llama 3.2 1B
量化：FP16
微調所需 VRAM：14.11 GB
相容 GPU：RTX 4090 (24 GB)

Meta 已推出 Llama 3.2 1B 和 3B 模型的量化版本，大幅減少了模型大小與運算需求。與原始版本相比，這些量化模型可減少高達 56% 的模型大小與 41% 的記憶體使用量。此類最佳化使其適合部署於行動裝置，包括採用 ARM 架構 CPU 的智慧型手機。

如何存取 Llama 3.2 1B？

步驟 1：登入並存取模型庫

登入您的帳戶，然後點擊 Model Library 按鈕。

步驟 2：選擇您的模型

瀏覽可用選項，選擇適合您需求的模型。

步驟 3：開始免費試用

開始您的免費試用，探索所選模型的功能。

立即試用 Llama 3.2 1B

步驟 4：取得您的 API 金鑰

為了驗證 API，我們將提供您一個新的 API 金鑰。進入「Settings」頁面，您可以按照圖片指示複製 API 金鑰。

步驟 5：安裝 API

使用您程式語言適用的套件管理工具安裝 API。

安裝完成後，將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API，即可開始與 Novita AI LLM 互動。以下是 Python 使用者使用聊天補全 API 的範例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-3.2-1b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

總而言之，Llama 3.2 1B 以其在資源受限裝置上提供強大語言處理能力而脫穎而出。憑藉其開源特性與最佳化架構，它是尋求高效 AI 解決方案的開發者的寶貴工具。

常見問題

什麼是 Llama 3.2 1B？

一款專為行動裝置高效部署而設計的多語言輕量級語言模型。

Llama 3.2 1B 的硬體需求為何？

推論需要 3.14 GB VRAM；微調需要 14.11 GB VRAM。

Llama 3.2 1B 模型是否免費使用？

是的！Novita AI 提供 Llama 3.2 1B 模型的免費存取，並附有簡單的 API 整合。

Novita AI 是一個 AI 雲端平台，為開發者提供透過簡單 API 部署 AI 模型的簡易方式，同時提供經濟實惠且可靠的 GPU 雲端服務以用於建置與擴展。