Gemma 3 27B 在 Novita AI:真的能單 GPU 運行?

Gemma 3 27B 在 Novita AI:真的能單 GPU 運行?

重點摘要

多模態、多語言、長上下文:Gemma 3 27B 能處理文字與圖片,支援超過 140 種語言,長度可達 128K tokens,適合長篇輸入。

Elo 分數:獲得 Elo 分數 1339,位居全球前 10 大模型。

單 GPU 相容性:可在單張 NVIDIA H100 GPU 上展現頂尖效能,超越需要多張 GPU 的競品。

Novita AI 存取Novita AI 提供經濟實惠的 API 以及免費的 Playground,讓您探索 Gemma 3 27B 的能力——現在就試試看!

Google 於 2025 年 3 月 12 日正式發表的 Gemma 3 27B,是旗下開源大型語言模型產品線的重要新成員。作為 Gemma 3 系列中規模最大的模型(除具有特定功能的指令微調版本外),它致力於在效能與可及性之間取得平衡。本文將提供 Gemma 3 27B 的實務與技術概觀,涵蓋其架構、能力、基準測試與實際測試結果、硬體考量以及存取方式。

什麼是 Gemma 3 27B?

顯著特色

  • 進階多語言支援:全新的 Tokenizer 使 Gemma 3 在超過 140 種語言上表現優異。
  • 多模態輸入:能同時處理圖片與文字,成為多種應用的多功能工具。
  • 擴展上下文視窗:128K tokens 的容量讓模型能處理大量且細緻的輸入。
  • 開源且友善社群:作為開源模型,鼓勵社群實驗與廣泛採用。

發佈日期、模型大小與開源狀況

  • 2025 年 3 月 12 日
  • 270 億個參數
    這個規模讓 Gemma 3 成為一個功能強大的模型,能有效處理多樣化的複雜任務。
  • 開放模型:由 Google 以開源形式發佈。

支援語言

  • 支援超過 140 種語言

    • 配備 全新 Tokenizer,專為更好的 ** 多語言支援** 而設計,使其在全球化應用中極具靈活性。

模型架構

  • **技術基礎 **:採用與 Google Gemini 2.0 模型 相同的技術與研究成果。
  • 訓練
    • 14 兆個 tokensGoogle TPU 上進行訓練。
    • 使用 JAX 框架 實現高效且可擴展的訓練。
    • 使用的技術
      • 蒸餾 (Distillation)
      • 強化學習(包括 RLHF、RLMF、RLEF)
      • 模型合併 (Model Merging)
    • 這些技術在 數學 程式碼 ** 與 ** 指令遵循 等關鍵領域提升了模型效能。

多模態能力

  • 多模態:是
    • 能 **同時接收圖片與文字輸入 ,並產生 ** 文字輸出
  • **視覺編碼器 **:基於 SigLIP

上下文視窗

  • 128K tokens

    • 讓模型能處理並理解 大量資訊,適用於複雜任務。
    • 預訓練細節
      • 初始使用 **32k 序列 ** 進行預訓練,後續擴展至 128k
      • 透過 RoPE (旋轉位置編碼) 調整 ** 位置嵌入 (Positional Embeddings)** 來達成。

量化精度

  • 預設訓練精度:bfloat16

    • **效能注意事項 **:模型在 bfloat16 下表現最佳,使用其他精度可能會降低品質。
  • 量化選項

    • 社群曾嘗試 Q8 gguf quant、EXL2、IQ4_XS 等量化等級,以最佳化 VRAM 使用。
精度等級 僅權重 (GB) 權重 + KV 快取 (GB)
bf16 (原始) 54.0 72.7
INT4 14.1 32.8
INT4 (blocks=32) 15.3 34.0
SFP8 27.4 46.1

Gemma 3 27B 基準測試

對話效能

Gemma 3 27B 在近期評估中展現出卓越能力,在 LMSys Chatbot Arena 中獲得 Elo 分數 1339。這項成績讓它躋身 ** 全球前 10 大模型 (包括領先的閉源模型 o1-preview),凸顯其在人類偏好評估上的優勢。此外,Gemma 3 27B 僅需 ** 單張 NVIDIA H100 GPU 即可達成此高分,而競品則需多達 32 張 GPU 才能達到類似效能。

elo 分數

取自 Hugging Face

特定基準測試效能

指令微調版本 Gemma 3 27B IT 在多項評估中表現優異,經常能與 ** 閉源的 Gemini 模型** 匹敵:

**基準 ** ** 分數 ** ** 說明**
MMLU-Pro 67.5 在多任務語言理解上表現出色。
LiveCodeBench 29.7 在即時程式設計挑戰中展現中等水準。
Bird-SQL 54.4 在 SQL 查詢生成與理解上表現具競爭力。
GPQA Diamond 42.4 在通用問答任務上表現穩健。
MATH 69.0 擅長解決複雜數學問題。
FACTS Grounding 74.9 在知識型任務中事實準確性極佳。
MMMU 64.9 在多模態理解任務上表現強勁。
SimpleQA 10.0 在基礎事實問答上表現較低,仍有改善空間。

Gemma 3 27B 硬體需求

Gemma 3 27B 被形容為 「能在單張 GPU 上運行的最強模型」

ELO 分數 取自 Google

**設定 ** **VRAM 需求 ** ** 備註**
雲端部署 約 80GB VRAM(單張/多張 GPU) 建議使用 A100 或 H100 GPU 以獲得最佳雲端部署效能。或使用 RTX 4090 24GB(x3 張)
Apple Silicon 透過 mlx-vlm 支援 Gemma 3 4B Gemma 3 4B 在 mlx-vlm(一個在 Apple Silicon 裝置上執行視覺語言模型的開源函式庫,支援 Mac 與 iPhone)中獲得首日支援。

Gemma 3 27B 測試

程式碼

提示:建立一個 JavaScript 模擬:由字母構成的旋轉 3D 球體。最近的字母應顯示較亮的顏色,最遠的字母應呈現灰色。

輸出:模型似乎並未完全遵循提示,而是生成了一個帶有字母的旋轉環。此外,前兩個預覽因亮度不足而失敗。

gemma 3 27b 程式碼測試

推理

提示:一開始你有 14 顆蘋果。Emma 拿走 3 顆,但還回 2 顆。你掉了 7 顆,又撿起 4 顆。Leo 拿走 4 顆,又給你 5 顆。你從 Emma 那裡拿 1 顆蘋果,然後用它跟 Leo 交換 3 顆蘋果,再將那 3 顆給 Emma,Emma 則給你一顆蘋果和一顆柳橙。Zara 拿走你的蘋果,並給你一顆梨子。你拿梨子跟 Leo 換一顆蘋果。後來 Zara 用一顆蘋果換一顆柳橙,再跟你交換另一顆蘋果。最後你有幾顆梨子?只回答問題所問的內容。

輸出:模型在幾秒內迅速分析了所有情景,並準確計算出梨子的總數。

圖片分析

提示:請告訴我從 Gemma 2 27B 到 Gemma 3 27B,Elo 分數增加了多少倍?

ELO 分數

取自 Google

輸出:模型準確辨識出數字,但未按提示計算倍數,而只計算了差值。

根據圖片,計算如下:

  • Gemma 2 27B Elo 分數: 1220
  • Gemma 3 27B Elo 分數: 1338

增加量: 1338 - 1220 = 118

從 Gemma 2 27B 到 Gemma 3 27B,Elo 分數增加了 118 分。

如何存取 Gemma 3 27B?

Novita AI 是一個 AI 雲端平台,為開發者提供簡單的 API 以便部署 AI 模型,同時也提供經濟實惠且可靠的 GPU 雲端資源,用於建置與擴展。

步驟 1:登入並進入模型庫

登入您的帳戶,然後點擊 模型庫 (Model Library) 按鈕。

登入並進入模型庫

立刻試用 Gemma 3 27B 演示!

步驟 2:開始免費試用

開始免費試用,探索所選模型的功能。

開始免費試用 gemma 3

步驟 3:取得您的 API 金鑰

為了透過 API 進行驗證,我們將提供一組新的 API 金鑰。進入「設定」頁面,您可以按照圖片指示複製 API 金鑰。

取得 API 金鑰

步驟 4:安裝 API

根據您的程式語言,使用對應的套件管理器來安裝 API。

安裝 gemma 3 的 API

安裝完成後,將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化用戶端,即可開始與 Novita AI LLM 互動。以下是 Python 使用者使用聊天補全 API 的範例:

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "google/gemma-3-27b-it"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Gemma 3 27B 是 Google 推出的強大開源模型,具備優秀的推理能力、多模態功能、多語言支援,且能與 Hugging Face 等平台輕鬆整合,同時可在消費級硬體上運行。

常見問題

Gemma 3 27B 有多少參數?

Gemma 3 27B 具有 270 億個參數

Gemma 3 27B 是多模態模型嗎?

是的,它支援圖片與文字輸入。

運行 Gemma 3 27B 建議使用什麼硬體?

若要在本地端使用,建議配備 至少 24GB VRAM 的 GPU,更大的 VRAM 有助於處理更長的上下文。您也可以在 Hugging Face Inference Endpoints 等雲端平台部署,並選擇各種 GPU 方案。或者,選擇像 Novita AI 這樣高效的 API 也是一個好方法!

Novita AI 是一個 AI 雲端平台,為開發者提供簡單的 API 以便部署 AI 模型,同時也提供經濟實惠且可靠的 GPU 雲端資源,用於建置與擴展。

推薦閱讀