Gemma 3 27B 在 Novita AI：真的能單 GPU 運行？

什麼是 Gemma 3 27B？
Gemma 3 27B 基準測試
Gemma 3 27B 硬體需求
Gemma 3 27B 測試
如何存取 Gemma 3 27B？
常見問題

重點摘要

多模態、多語言、長上下文：Gemma 3 27B 能處理文字與圖片，支援超過 140 種語言，長度可達 128K tokens，適合長篇輸入。

Elo 分數：獲得 Elo 分數 1339，位居全球前 10 大模型。

單 GPU 相容性：可在單張 NVIDIA H100 GPU 上展現頂尖效能，超越需要多張 GPU 的競品。

Novita AI 存取：Novita AI 提供經濟實惠的 API 以及免費的 Playground，讓您探索 Gemma 3 27B 的能力——現在就試試看！

Google 於 2025 年 3 月 12 日正式發表的 Gemma 3 27B，是旗下開源大型語言模型產品線的重要新成員。作為 Gemma 3 系列中規模最大的模型（除具有特定功能的指令微調版本外），它致力於在效能與可及性之間取得平衡。本文將提供 Gemma 3 27B 的實務與技術概觀，涵蓋其架構、能力、基準測試與實際測試結果、硬體考量以及存取方式。

什麼是 Gemma 3 27B？

顯著特色

進階多語言支援：全新的 Tokenizer 使 Gemma 3 在超過 140 種語言上表現優異。

多模態輸入：能同時處理圖片與文字，成為多種應用的多功能工具。

擴展上下文視窗：128K tokens 的容量讓模型能處理大量且細緻的輸入。

開源且友善社群：作為開源模型，鼓勵社群實驗與廣泛採用。

發佈日期、模型大小與開源狀況

2025 年 3 月 12 日
270 億個參數
這個規模讓 Gemma 3 成為一個功能強大的模型，能有效處理多樣化的複雜任務。
開放模型：由 Google 以開源形式發佈。

支援語言

支援超過 140 種語言
- 配備 全新 Tokenizer，專為更好的 ** 多語言支援** 而設計，使其在全球化應用中極具靈活性。

模型架構

**技術基礎 **：採用與 Google Gemini 2.0 模型 相同的技術與研究成果。
訓練：
- 以 14 兆個 tokens 在 Google TPU 上進行訓練。
- 使用 JAX 框架 實現高效且可擴展的訓練。
- 使用的技術：
  - 蒸餾 (Distillation)
  - 強化學習（包括 RLHF、RLMF、RLEF）
  - 模型合併 (Model Merging)
- 這些技術在 數學、程式碼 ** 與 ** 指令遵循 等關鍵領域提升了模型效能。

多模態能力

多模態：是
- 能 **同時接收圖片與文字輸入 ，並產生 ** 文字輸出。
**視覺編碼器 **：基於 SigLIP。

上下文視窗

128K tokens
- 讓模型能處理並理解 大量資訊，適用於複雜任務。
- 預訓練細節：
  - 初始使用 **32k 序列 ** 進行預訓練，後續擴展至 128k。
  - 透過 RoPE (旋轉位置編碼) 調整 ** 位置嵌入 (Positional Embeddings)** 來達成。

量化精度

預設訓練精度：bfloat16
- **效能注意事項 **：模型在 bfloat16 下表現最佳，使用其他精度可能會降低品質。
量化選項：
- 社群曾嘗試 Q8 gguf quant、EXL2、IQ4_XS 等量化等級，以最佳化 VRAM 使用。

精度等級	僅權重 (GB)	權重 + KV 快取 (GB)
bf16 (原始)	54.0	72.7
INT4	14.1	32.8
INT4 (blocks=32)	15.3	34.0
SFP8	27.4	46.1

Gemma 3 27B 基準測試

對話效能

Gemma 3 27B 在近期評估中展現出卓越能力，在 LMSys Chatbot Arena 中獲得 Elo 分數 1339。這項成績讓它躋身 ** 全球前 10 大模型 （包括領先的閉源模型 o1-preview），凸顯其在人類偏好評估上的優勢。此外，Gemma 3 27B 僅需 ** 單張 NVIDIA H100 GPU 即可達成此高分，而競品則需多達 32 張 GPU 才能達到類似效能。

取自 Hugging Face

特定基準測試效能

指令微調版本 Gemma 3 27B IT 在多項評估中表現優異，經常能與 ** 閉源的 Gemini 模型** 匹敵：

基準	分數	說明
MMLU-Pro	67.5	在多任務語言理解上表現出色。
LiveCodeBench	29.7	在即時程式設計挑戰中展現中等水準。
Bird-SQL	54.4	在 SQL 查詢生成與理解上表現具競爭力。
GPQA Diamond	42.4	在通用問答任務上表現穩健。
MATH	69.0	擅長解決複雜數學問題。
FACTS Grounding	74.9	在知識型任務中事實準確性極佳。
MMMU	64.9	在多模態理解任務上表現強勁。
SimpleQA	10.0	在基礎事實問答上表現較低，仍有改善空間。

Gemma 3 27B 硬體需求

Gemma 3 27B 被形容為 「能在單張 GPU 上運行的最強模型」！

取自 Google

設定	VRAM 需求	備註
雲端部署	約 80GB VRAM（單張/多張 GPU）	建議使用 A100 或 H100 GPU 以獲得最佳雲端部署效能。或使用 RTX 4090 24GB（x3 張）
Apple Silicon	透過 mlx-vlm 支援 Gemma 3 4B	Gemma 3 4B 在 mlx-vlm（一個在 Apple Silicon 裝置上執行視覺語言模型的開源函式庫，支援 Mac 與 iPhone）中獲得首日支援。

Gemma 3 27B 測試

程式碼

提示：建立一個 JavaScript 模擬：由字母構成的旋轉 3D 球體。最近的字母應顯示較亮的顏色，最遠的字母應呈現灰色。

輸出：模型似乎並未完全遵循提示，而是生成了一個帶有字母的旋轉環。此外，前兩個預覽因亮度不足而失敗。

推理

提示：一開始你有 14 顆蘋果。Emma 拿走 3 顆，但還回 2 顆。你掉了 7 顆，又撿起 4 顆。Leo 拿走 4 顆，又給你 5 顆。你從 Emma 那裡拿 1 顆蘋果，然後用它跟 Leo 交換 3 顆蘋果，再將那 3 顆給 Emma，Emma 則給你一顆蘋果和一顆柳橙。Zara 拿走你的蘋果，並給你一顆梨子。你拿梨子跟 Leo 換一顆蘋果。後來 Zara 用一顆蘋果換一顆柳橙，再跟你交換另一顆蘋果。最後你有幾顆梨子？只回答問題所問的內容。

輸出：模型在幾秒內迅速分析了所有情景，並準確計算出梨子的總數。

圖片分析

提示：請告訴我從 Gemma 2 27B 到 Gemma 3 27B，Elo 分數增加了多少倍？

取自 Google

輸出：模型準確辨識出數字，但未按提示計算倍數，而只計算了差值。

根據圖片，計算如下：

Gemma 2 27B Elo 分數： 1220

Gemma 3 27B Elo 分數： 1338

增加量： 1338 - 1220 = 118

從 Gemma 2 27B 到 Gemma 3 27B，Elo 分數增加了 118 分。

如何存取 Gemma 3 27B？

Novita AI 是一個 AI 雲端平台，為開發者提供簡單的 API 以便部署 AI 模型，同時也提供經濟實惠且可靠的 GPU 雲端資源，用於建置與擴展。

步驟 1：登入並進入模型庫

登入您的帳戶，然後點擊 模型庫 (Model Library) 按鈕。

立刻試用 Gemma 3 27B 演示！

步驟 2：開始免費試用

開始免費試用，探索所選模型的功能。

步驟 3：取得您的 API 金鑰

為了透過 API 進行驗證，我們將提供一組新的 API 金鑰。進入「設定」頁面，您可以按照圖片指示複製 API 金鑰。

步驟 4：安裝 API

根據您的程式語言，使用對應的套件管理器來安裝 API。

安裝完成後，將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化用戶端，即可開始與 Novita AI LLM 互動。以下是 Python 使用者使用聊天補全 API 的範例：

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "google/gemma-3-27b-it"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Gemma 3 27B 是 Google 推出的強大開源模型，具備優秀的推理能力、多模態功能、多語言支援，且能與 Hugging Face 等平台輕鬆整合，同時可在消費級硬體上運行。

常見問題

Gemma 3 27B 有多少參數？

Gemma 3 27B 具有 270 億個參數。

Gemma 3 27B 是多模態模型嗎？

是的，它支援圖片與文字輸入。

運行 Gemma 3 27B 建議使用什麼硬體？

若要在本地端使用，建議配備 至少 24GB VRAM 的 GPU，更大的 VRAM 有助於處理更長的上下文。您也可以在 Hugging Face Inference Endpoints 等雲端平台部署，並選擇各種 GPU 方案。或者，選擇像 Novita AI 這樣高效的 API 也是一個好方法！

Novita AI 是一個 AI 雲端平台，為開發者提供簡單的 API 以便部署 AI 模型，同時也提供經濟實惠且可靠的 GPU 雲端資源，用於建置與擴展。

Gemma 3 27B 在 Novita AI：真的能單 GPU 運行？

重點摘要

什麼是 Gemma 3 27B？