重點摘要
模型概述:Llama 3.2 1B 是 Meta 開發的輕量級多語言 LLM,專為邊緣裝置與行動裝置的高效使用而設計。
訓練方法:採用結構化剪枝與從較大模型中進行的知識蒸餾。
硬體需求:推論需要 3.14 GB VRAM,微調則需要 14.11 GB VRAM。
Llama 3.2 1B 是 Meta 建立的一款先進多語言大型語言模型,專為輕量級部署於行動裝置與邊緣裝置而設計。其架構能在維持高效資源使用的同時,於各種自然語言處理任務中提供穩健的效能。
推薦好友使用 Novita AI,雙方均可獲得 $10 的 LLM API 額度,最高可達 $500 總獎勵。
為支援開發者社群,Llama 3.2 1B、Qwen2.5-7B、Qwen 3 0.6B、Qwen 3 1.7B、Qwen 3 4B 目前於 Novita AI 上免費提供。
什麼是 Llama 3.2 1B?
Llama 3.2 1B 模型是 Meta 開發的輕量級多語言大型語言模型,專為在邊緣裝置與行動裝置上高效運行而設計,同時為各種自然語言處理任務提供強大的效能。

-
模型大小:1B
-
開源:是
-
架構:密集 Transformer
-
上下文長度:128,000 個 token
-
支援的多語言:
- 官方支援:英文、德文、法文、義大利文、葡萄牙文、印地文、西班牙文、泰文
- 更廣泛的涵蓋:在列出的 8 種語言之外,還訓練了其他語言。
-
多模態能力:
- 輸入:文字
- 輸出:文字與程式碼
-
訓練方法:Llama 3.2 1B 使用來自 Llama 3.1 8B 模型的結構化剪枝進行訓練,系統性地移除網路部分,同時調整權重以建立更小、更有效率的模型。它還採用了知識蒸餾,將 Llama 3.1 8B 和 70B 模型的 logits 作為預訓練期間的 token 級目標。這種方法使 Llama 3.2 1B 能夠利用較大模型的洞見,在剪枝過程後提升其效能。

Llama 3.2 1B 基準測試



Llama 3.2 1B 硬體需求
推論細節
-
模型:Llama 3.2 1B
-
量化:FP16
-
推論所需 VRAM:3.14 GB
-
相容 GPU:
- RTX 3090 (12 GB)
- RTX 4060 (8 GB)
微調細節
- 模型:Llama 3.2 1B
- 量化:FP16
- 微調所需 VRAM:14.11 GB
- 相容 GPU:RTX 4090 (24 GB)
Meta 已推出 Llama 3.2 1B 和 3B 模型的量化版本,大幅減少了模型大小與運算需求。與原始版本相比,這些量化模型可減少高達 56% 的模型大小與 41% 的記憶體使用量。此類最佳化使其適合部署於行動裝置,包括採用 ARM 架構 CPU 的智慧型手機。
如何存取 Llama 3.2 1B?
步驟 1:登入並存取模型庫
登入您的帳戶,然後點擊 Model Library 按鈕。

步驟 2:選擇您的模型
瀏覽可用選項,選擇適合您需求的模型。

步驟 3:開始免費試用
開始您的免費試用,探索所選模型的功能。

步驟 4:取得您的 API 金鑰
為了驗證 API,我們將提供您一個新的 API 金鑰。進入「Settings」頁面,您可以按照圖片指示複製 API 金鑰。

步驟 5:安裝 API
使用您程式語言適用的套件管理工具安裝 API。
安裝完成後,將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API,即可開始與 Novita AI LLM 互動。以下是 Python 使用者使用聊天補全 API 的範例。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "meta-llama/llama-3.2-1b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
總而言之,Llama 3.2 1B 以其在資源受限裝置上提供強大語言處理能力而脫穎而出。憑藉其開源特性與最佳化架構,它是尋求高效 AI 解決方案的開發者的寶貴工具。
常見問題
什麼是 Llama 3.2 1B?
一款專為行動裝置高效部署而設計的多語言輕量級語言模型。
Llama 3.2 1B 的硬體需求為何?
推論需要 3.14 GB VRAM;微調需要 14.11 GB VRAM。
Llama 3.2 1B 模型是否免費使用?
是的!Novita AI 提供 Llama 3.2 1B 模型的免費存取,並附有簡單的 API 整合。
Novita AI 是一個 AI 雲端平台,為開發者提供透過簡單 API 部署 AI 模型的簡易方式,同時提供經濟實惠且可靠的 GPU 雲端服務以用於建置與擴展。

