重點摘要
Gemma 3 27B 是 Google 於 2025 年 3 月 推出的開源多模態大型語言模型(LLM)。
支援 **140+ 種語言 **,配備全新分詞器以及 128K 脈絡視窗。
可同時處理 文字與圖片 輸入,並輸出文字。
以 14 兆個 token 訓練,在 ** 數學、程式碼與指令遵循** 方面表現優異。
基準測試分數:1339 Elo、69.0 (MATH)、67.5 (MMLU-Pro)。
可運行於 單張 NVIDIA H100,也可透過 Ollama (本機) 或 Novita AI API / 雲端 GPU 部署。
Gemma 3 27B 是 Google 打造的一款功能強大且靈活的 LLM。它結合了多語言涵蓋範圍、多模態輸入以及高效能表現,無論是在本機或雲端,都非常適合多樣化的 AI 工作負載。
什麼是 Gemma 3 27B?
顯著特色
- 進階多語言支援:憑藉全新分詞器,Gemma 3 在超過 140 種語言中均展現高效能。
- 多模態輸入:能夠同時處理圖片與文字,使其成為多種應用的多功能工具。
- 擴展脈絡視窗:128K token 的容量可處理大量且詳細的輸入。
- 開源且社群友善:作為開源模型,鼓勵社群實驗與廣泛採用。
| 類別 | 項目 | 詳細資訊 |
|---|---|---|
| 基本資訊 | 發布日期 | 2025 年 3 月 12 日 |
| 模型大小 | 270 億個參數 | |
| 開源 | 是(由 Google 發布) | |
| 語言支援 | 支援的多語言 | 超過 140 種語言 |
| 訓練 | 訓練資料 | 14 兆個 token |
| 強項 | 數學、程式碼、指令遵循 | |
| 多模態 | 多模態能力 | 是(處理圖片與文字,輸出文字) |
| 脈絡 | 脈絡視窗 | 128K tokens |
| 不同精度的模型大小 | bf16 (原始) | 權重:54.0 GB;權重 + KV 快取:72.7 GB |
| INT4 | 權重:14.1 GB;權重 + KV 快取:32.8 GB | |
| INT4 (blocks=32) | 權重:15.3 GB;權重 + KV 快取:34.0 GB | |
| SFP8 | 權重:27.4 GB;權重 + KV 快取:46.1 GB |
Gemma 3 27B 基準測試
| 基準測試 | Gemma 3 27B | DeepSeek R1 | LLaMA 3.3 70B |
|---|---|---|---|
| LMSys Elo 分數 | 1339 | ~1360 | ~1260 |
| MMLU-Pro | 67.5 | 84.0 | 66.4 |
| LiveCodeBench | 29.7 | 65.9 | ~29 |
| GPQA Diamond | 42.4 | 71.5 | 50.5 |
| MATH | 69.0 | 97.3 | 77.0 |
如何在本地端存取 Gemma 3 27B?
硬體需求
Gemma 3 27B 被描述為 「你可以在單張 GPU 上運行的最強大模型!」
來源:Google
| **設定 ** | **VRAM 需求 ** | ** 備註** |
|---|---|---|
| 雲端部署 | 約 80GB VRAM(單卡/多卡 GPU) | 建議使用 A100 或 H100 GPU 以獲得最佳雲端部署效能。或使用 RTX 4090 24GB(x3) |
| Apple Silicon | 透過 mlx-vlm 支援 Gemma 3 4B | Gemma 3 4B 在 mlx-vlm(一個在 Apple Silicon 裝置(如 Mac 和 iPhone)上運行視覺語言模型的開源函式庫)中享有首日支援。 |
在本機安裝 Gemma 3 27B 的逐步流程
# 步驟 0:檢查 NVIDIA GPU
nvidia-smi
# 步驟 1:更新 Ubuntu 套件來源
apt update
# 步驟 2:安裝 Ollama 相依套件以偵測 GPU
apt install pciutils lshw
# 步驟 3:安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 步驟 4:啟動 Ollama 伺服器(在一個終端機中執行並保持開啟)
ollama serve
# 步驟 5:(在新終端機中)檢查 Ollama 是否運作
ollama
# 步驟 6:安裝 Gemma-3 模型(選擇其中一個)
# 執行 Gemma-3 1B
# ollama run gemma3:1b
# 執行 Gemma-3 4B
# ollama run gemma3:4b
# 執行 Gemma-3 12B
# ollama run gemma3:12b
# ✅ 建議:執行 Gemma-3 27B
ollama run gemma3:27b
# 步驟 7:直接在主控台中透過提示與模型互動
# 範例:
# 你是一位專門研究加密貨幣市場的 AI 驅動交易分析師。
# 你的任務是設計一個能夠預測市場趨勢、
# 執行交易並有效管理風險的自動化 AI 代理。你的回覆應包含:
# - 分析鏈上 + 鏈下資料的策略
# - 價格預測與情緒分析的模型選擇
# - Python 程式碼片段
# - 風險管理方法
# - 道德考量
如何透過 Novita API 存取 Gemma 3 27B?
步驟 1:登入並存取模型庫
登入您的帳戶,然後點擊 「模型庫」 按鈕。

步驟 2:開始免費試用
開始免費試用,探索所選模型的功能。

步驟 3:取得您的 API 金鑰
為了驗證 API,我們將提供您一個新的 API 金鑰。進入 「設定」 頁面,您可以依照圖示複製 API 金鑰。

步驟 4:安裝 API
使用您程式語言專屬的套件管理器安裝 API。

安裝完成後,將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API,即可開始與 Novita AI LLM 互動。以下是一個 Python 使用者使用聊天補全 API 的範例。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "google/gemma-3-27b-it"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
透過 Chatbox 使用 Gemma 3 27B
步驟 1:安裝 Chatbox

- 選擇 「設定」 選項。此設定可確保與遵循 OpenAI API 標準的 API(如 Novita AI)相容。
- 填入設定欄位:
- Base URL:輸入
https://api.novita.ai/v3/openai。 - API Key:在此貼上您的 Novita AI API 金鑰。
- Model Name:貼上您先前複製的模型名稱(例如
google/gemma-3-27b-it)。
- Base URL:輸入
- 填寫完設定後,點擊 「完成」。
透過雲端 GPU 使用 Gemma 3 27B
步驟 1:註冊帳戶
如果您是 Novita AI 的新用戶,請先在我們的網站上建立帳戶。註冊完成後,前往 「GPU」 分頁探索可用資源,展開您的旅程。

步驟 2:探索範本與 GPU 伺服器
首先選擇符合您專案需求的範本,例如 PyTorch、TensorFlow 或 CUDA。選擇符合需求的版本,例如 PyTorch 2.2.1 或 CUDA 11.8.0。接著選擇 A100 GPU 伺服器設定,此設定提供強大效能,可處理高負載工作,並具備充足的 VRAM、RAM 與磁碟容量。

步驟 3:自訂您的部署
選擇範本與 GPU 後,自訂您的部署設定,例如調整作業系統版本(如 CUDA 11.8)。您也可以調整其他設定,使環境符合專案的特定需求。

步驟 4:啟動執行個體
完成範本與部署設定後,點擊 「啟動執行個體」 以設定您的 GPU 執行個體。這將啟動環境設定,讓您開始將 GPU 資源用於 AI 任務。

憑藉優異的基準測試表現與簡易的部署選項,對於尋求開放、高品質 AI 工具的開發者與研究人員而言,Gemma 3 27B 是頂尖的選擇。
常見問題
什麼是 Gemma 3 27B?
Gemma 3 27B 是 Google 開發的一款 270 億參數的開源大型語言模型。它支援多模態輸入(文字 + 圖片)、超過 140 種語言,並具備 128K token 的脈絡視窗。
在本機運行 Gemma 3 27B 需要怎樣的硬體需求?
您需要約 80GB VRAM。單張 NVIDIA H100 即足夠。您也可以使用多張 RTX 4090(例如 3×24GB)來運行。
是否有 Gemma 3 27B 的 API 版本?
有的!您可以透過 Novita AI API 存取 Gemma 3 27B,該 API 完全相容於 OpenAI API 標準。
Novita AI 是一個 AI 雲端平台,為開發者提供透過簡易 API 部署 AI 模型的簡單方式,同時也提供價格合理、穩定可靠的 GPU 雲端服務,用於建置與擴展應用。
推薦閱讀
- 為何 LLaMA 3.3 70B 的 VRAM 需求對家用伺服器是一大挑戰?
- Qwen 2.5 72b 與 Llama 3.3 70b:哪個模型適合您的需求?
- Qwen 2.5 與 Llama 3.2 90B:程式碼與圖像推理能力比較分析
簡易 API 與可擴展 GPU
Novita AI 是一個 AI 雲端平台,為開發者提供透過簡易 API 部署 AI 模型的簡單方式,同時也提供價格合理、穩定可靠的 GPU 雲端服務,用於建置與擴展應用。

來源: