如何在本地、透過 API 或雲端 GPU 存取 Gemma 3 27B

什麼是 Gemma 3 27B？
如何在本地端存取 Gemma 3 27B？
如何透過 Novita API 存取 Gemma 3 27B？
透過 Chatbox 使用 Gemma 3 27B
透過雲端 GPU 使用 Gemma 3 27B
常見問題
簡易 API 與可擴展 GPU

重點摘要

Gemma 3 27B 是 Google 於 2025 年 3 月 推出的開源多模態大型語言模型（LLM）。

支援 **140+ 種語言 **，配備全新分詞器以及 128K 脈絡視窗。

可同時處理 文字與圖片 輸入，並輸出文字。

以 14 兆個 token 訓練，在 ** 數學、程式碼與指令遵循** 方面表現優異。

基準測試分數：1339 Elo、69.0 (MATH)、67.5 (MMLU-Pro)。

可運行於 單張 NVIDIA H100，也可透過 Ollama (本機) 或 Novita AI API / 雲端 GPU 部署。

Gemma 3 27B 是 Google 打造的一款功能強大且靈活的 LLM。它結合了多語言涵蓋範圍、多模態輸入以及高效能表現，無論是在本機或雲端，都非常適合多樣化的 AI 工作負載。

什麼是 Gemma 3 27B？

顯著特色

進階多語言支援：憑藉全新分詞器，Gemma 3 在超過 140 種語言中均展現高效能。

多模態輸入：能夠同時處理圖片與文字，使其成為多種應用的多功能工具。

擴展脈絡視窗：128K token 的容量可處理大量且詳細的輸入。

開源且社群友善：作為開源模型，鼓勵社群實驗與廣泛採用。

類別	項目	詳細資訊
基本資訊	發布日期	2025 年 3 月 12 日
	模型大小	270 億個參數
	開源	是（由 Google 發布）
語言支援	支援的多語言	超過 140 種語言
訓練	訓練資料	14 兆個 token
	強項	數學、程式碼、指令遵循
多模態	多模態能力	是（處理圖片與文字，輸出文字）
脈絡	脈絡視窗	128K tokens
不同精度的模型大小	bf16 (原始)	權重：54.0 GB；權重 + KV 快取：72.7 GB
	INT4	權重：14.1 GB；權重 + KV 快取：32.8 GB
	INT4 (blocks=32)	權重：15.3 GB；權重 + KV 快取：34.0 GB
	SFP8	權重：27.4 GB；權重 + KV 快取：46.1 GB

Gemma 3 27B 基準測試

基準測試	Gemma 3 27B	DeepSeek R1	LLaMA 3.3 70B
LMSys Elo 分數	1339	~1360	~1260
MMLU-Pro	67.5	84.0	66.4
LiveCodeBench	29.7	65.9	~29
GPQA Diamond	42.4	71.5	50.5
MATH	69.0	97.3	77.0

如何在本地端存取 Gemma 3 27B？

硬體需求

Gemma 3 27B 被描述為 「你可以在單張 GPU 上運行的最強大模型！」

來源：Google

設定	VRAM 需求	備註
雲端部署	約 80GB VRAM（單卡/多卡 GPU）	建議使用 A100 或 H100 GPU 以獲得最佳雲端部署效能。或使用 RTX 4090 24GB（x3）
Apple Silicon	透過 mlx-vlm 支援 Gemma 3 4B	Gemma 3 4B 在 mlx-vlm（一個在 Apple Silicon 裝置（如 Mac 和 iPhone）上運行視覺語言模型的開源函式庫）中享有首日支援。

在本機安裝 Gemma 3 27B 的逐步流程

# 步驟 0：檢查 NVIDIA GPU
nvidia-smi

# 步驟 1：更新 Ubuntu 套件來源
apt update

# 步驟 2：安裝 Ollama 相依套件以偵測 GPU
apt install pciutils lshw

# 步驟 3：安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 步驟 4：啟動 Ollama 伺服器（在一個終端機中執行並保持開啟）
ollama serve

# 步驟 5：（在新終端機中）檢查 Ollama 是否運作
ollama

# 步驟 6：安裝 Gemma-3 模型（選擇其中一個）

# 執行 Gemma-3 1B
# ollama run gemma3:1b

# 執行 Gemma-3 4B
# ollama run gemma3:4b

# 執行 Gemma-3 12B
# ollama run gemma3:12b

# ✅ 建議：執行 Gemma-3 27B
ollama run gemma3:27b

# 步驟 7：直接在主控台中透過提示與模型互動
# 範例：
# 你是一位專門研究加密貨幣市場的 AI 驅動交易分析師。
# 你的任務是設計一個能夠預測市場趨勢、
# 執行交易並有效管理風險的自動化 AI 代理。你的回覆應包含：
# - 分析鏈上 + 鏈下資料的策略
# - 價格預測與情緒分析的模型選擇
# - Python 程式碼片段
# - 風險管理方法
# - 道德考量

如何透過 Novita API 存取 Gemma 3 27B？

步驟 1：登入並存取模型庫

登入您的帳戶，然後點擊 「模型庫」 按鈕。

立即試用 Gemma 3 27B 示範！

步驟 2：開始免費試用

開始免費試用，探索所選模型的功能。

步驟 3：取得您的 API 金鑰

為了驗證 API，我們將提供您一個新的 API 金鑰。進入 「設定」 頁面，您可以依照圖示複製 API 金鑰。

步驟 4：安裝 API

使用您程式語言專屬的套件管理器安裝 API。

安裝完成後，將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API，即可開始與 Novita AI LLM 互動。以下是一個 Python 使用者使用聊天補全 API 的範例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "google/gemma-3-27b-it"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

透過 Chatbox 使用 Gemma 3 27B

步驟 1：安裝 Chatbox

選擇 「設定」 選項。此設定可確保與遵循 OpenAI API 標準的 API（如 Novita AI）相容。
填入設定欄位：
- Base URL：輸入 https://api.novita.ai/v3/openai。
- API Key：在此貼上您的 Novita AI API 金鑰。
- Model Name：貼上您先前複製的模型名稱（例如 google/gemma-3-27b-it）。
填寫完設定後，點擊 「完成」。

透過雲端 GPU 使用 Gemma 3 27B

步驟 1：註冊帳戶

如果您是 Novita AI 的新用戶，請先在我們的網站上建立帳戶。註冊完成後，前往 「GPU」 分頁探索可用資源，展開您的旅程。

步驟 2：探索範本與 GPU 伺服器

首先選擇符合您專案需求的範本，例如 PyTorch、TensorFlow 或 CUDA。選擇符合需求的版本，例如 PyTorch 2.2.1 或 CUDA 11.8.0。接著選擇 A100 GPU 伺服器設定，此設定提供強大效能，可處理高負載工作，並具備充足的 VRAM、RAM 與磁碟容量。

試用 Novita AI 高效能 GPU

步驟 3：自訂您的部署

選擇範本與 GPU 後，自訂您的部署設定，例如調整作業系統版本（如 CUDA 11.8）。您也可以調整其他設定，使環境符合專案的特定需求。

步驟 4：啟動執行個體

完成範本與部署設定後，點擊 「啟動執行個體」 以設定您的 GPU 執行個體。這將啟動環境設定，讓您開始將 GPU 資源用於 AI 任務。

憑藉優異的基準測試表現與簡易的部署選項，對於尋求開放、高品質 AI 工具的開發者與研究人員而言，Gemma 3 27B 是頂尖的選擇。

常見問題

什麼是 Gemma 3 27B？

Gemma 3 27B 是 Google 開發的一款 270 億參數的開源大型語言模型。它支援多模態輸入（文字 + 圖片）、超過 140 種語言，並具備 128K token 的脈絡視窗。

在本機運行 Gemma 3 27B 需要怎樣的硬體需求？

您需要約 80GB VRAM。單張 NVIDIA H100 即足夠。您也可以使用多張 RTX 4090（例如 3×24GB）來運行。

是否有 Gemma 3 27B 的 API 版本？

有的！您可以透過 Novita AI API 存取 Gemma 3 27B，該 API 完全相容於 OpenAI API 標準。

Novita AI 是一個 AI 雲端平台，為開發者提供透過簡易 API 部署 AI 模型的簡單方式，同時也提供價格合理、穩定可靠的 GPU 雲端服務，用於建置與擴展應用。

簡易 API 與可擴展 GPU

Novita AI 是一個 AI 雲端平台，為開發者提供透過簡易 API 部署 AI 模型的簡單方式，同時也提供價格合理、穩定可靠的 GPU 雲端服務，用於建置與擴展應用。

立即試用 Gemma 3 27B 示範

如何在本地、透過 API 或雲端 GPU 存取 Gemma 3 27B

重點摘要

什麼是 Gemma 3 27B？