Google 的 Gemma 4 現已於 Novita AI 上線。其中兩款較大的模型 — 31B 與 26B A4B — 已於 Model API 正式上線。包含裝置端專用的 E2B 與 E4B 在內,全部 4 種尺寸均可透過 GPU Application 部署:這是 Novita AI 的一鍵模型部署服務,只要選擇模型、啟動實例,即可立即開始運行。
本文將介紹 Gemma 4 的詳細資訊、不同架構的差異,以及各尺寸模型的適用場景 — 讓你在開始開發前就能選擇最適合的存取路徑。
什麼是 Gemma 4?
Gemma 4 是 Google 第四代開源模型家族,基於 3 種不同的架構打造,各自針對不同的記憶體與效能目標進行優化。產品線涵蓋從裝置端推論到伺服器級部署的各種場景,每種架構都圍繞特定的記憶體佔用與效能目標設計。
四個模型尺寸如下:
| 模型 | 架構 | 參數量 | 上下文長度 | 支援模態 |
|---|---|---|---|---|
| Gemma 4 E2B | 密集(小型) | 2.3B 有效參數,加入嵌入層後為 5.1B | 128K | 文字、視覺、音訊 |
| Gemma 4 E4B | 密集(小型) | 4.5B 有效參數,加入嵌入層後為 7.9B | 128K | 文字、視覺、音訊 |
| Gemma 4 26B A4B | 混合專家(MoE) | 4B 活躍參數 / 總共 26B | 256K | 文字、視覺 |
| Gemma 4 31B | 密集 | 31B | 256K | 文字、視覺 |
全部 4 種尺寸都提供經過指令微調(-it)的版本,以及基礎預訓練檢查點。
三種架構的運作原理
密集架構(31B):專為長上下文品質打造
31B 模型是旗艦級的密集架構。它在 Gemma 基礎架構上進行了多項架構調整,提升了運算效率與長上下文處理品質。
混合專家(MoE)架構(26B A4B):高效能、固定記憶體佔用
26B A4B 模型採用混合專家(Mixture of Experts, MoE)設計,總共包含 128 個專家節點(大量小型專家),以及 1 個永遠處於活躍狀態的共享專家。每次前向傳遞僅會啟動 8 個專家,在總共 26.8B 的參數中,僅有 3.8B 為活躍參數。
該設計的目標是讓模型在套用量化後,仍可在高階筆電與伺服器架構上運行。我們提供了針對量化感知訓練(Quantization-Aware Training, QAT)的檢查點 — Q3-2、Q3-0 與 Q4-0,讓你能在降低記憶體佔用的同時,維持高品質的推論效果。
小型架構(E2B 與 E4B):裝置端專用,具備實際吞吐量
E2B 與 E4B 模型是專為裝置端推論場景設計的。其設計基礎為 Gemma 4 的密集架構,並加入了精選自 Gemma 3n 的創新功能,以提升每秒處理的 token 數、降低預填充時間,並擴大對各種裝置、框架與執行環境的相容性。
延續自 Gemma 3n 的兩個核心功能:
- 逐層嵌入(Per-Layer Embeddings, PLE):保留自 Gemma 3n 的功能
- KV 快取共享(KV-Cache Sharing):在幾乎不影響品質的前提下,同時降低預填充時間與 KV 快取的記憶體佔用
核心能力

除了架構差異之外,所有尺寸的 Gemma 4 都具備一系列強大的內建能力:
- 思考模式 — 內建的推理功能,可讓模型在回答前逐步思考。
- 長上下文 — E2B 與 E4B 支援 128K token,26B A4B 與 31B 則支援 256K token。
- 圖像理解 — 支援物件偵測、文件與 PDF 解析、畫面與 UI 理解、圖表解讀、光學字元辨識(OCR)、手寫辨識,以及指向功能。
- 影片理解 — 可透過處理連續幀的方式分析影片內容。
- 交錯多模態輸入 — 可在單一提示中自由混合文字與圖像。
- 函數呼叫 — 原生支援結構化工具使用與代理工作流程。
- 程式碼處理 — 支援程式碼生成、補全與修正。
- 多語言支援 — 開箱即用支援 35 種以上語言,預訓練資料涵蓋 140 種以上語言。
- 音訊(僅 E2B 與 E4B 支援) — 支援多語言的語音自動辨識(ASR)與語音翻譯為文字功能。
多模態能力:視覺與音訊
視覺:全尺寸支援,原生寬高比
全部 4 種尺寸的 Gemma 4 都支援視覺輸入。圖像會以原生寬高比透過混合解析度處理,無需平移裁剪,也無需強制調整為正方形。
音訊:僅 E2B 與 E4B 支援
僅 E2B 與 E4B 小型模型支援音訊輸入,26B A4B 與 31B 則不支援音訊功能。
音訊模型支援以下功能:
- 語音自動辨識(Automatic Speech Recognition, ASR) — 將語音轉換為原文語言的文字。
- 語音自動翻譯(Automatic Speech Translation, AST) — 將來源語言的語音轉換為文字後,翻譯為目標語言。
建議取樣參數
Google 針對 Gemma 4 各種使用場景標準化的取樣配置如下:
| 參數 | 數值 |
|---|---|
| temperature | 1.0 |
| top_p | 0.95 |
| top_k | 64 |
可將這些參數作為 Gemma 4 各種使用場景的基礎取樣配置。
模型比較
| 模型 | 上下文長度 | 音訊支援 | 存取方式 |
|---|---|---|---|
| Gemma 4 31B | 256K | 否 | Model API 或 GPU Application |
| Gemma 4 26B A4B | 256K | 否 | Model API 或 GPU Application |
| Gemma 4 E4B | 128K | 是 | GPU Application |
| Gemma 4 E2B | 128K | 是 | GPU Application |
在 Novita AI 上運行 Gemma 4
Novita AI 提供兩種運行 Gemma 4 的方式,可根據你需要受管理的 API,或是需要完全掌控實例來選擇。
Model API:31B 與 26B A4B
Gemma 4 31B 與 Gemma 4 26B A4B 已於 Novita AI Model API 上線 — 相容 OpenAI 格式、按 token 計費,無需每月承諾消費額度。
from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="google/gemma-4-31b-it",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=131072,
temperature=0.7
)
print(response.choices[0].message.content)
如果你已經在使用相容 OpenAI 的客戶端,則无需修改 SDK。只要更換 base_url 與 api_key,更新模型字串,即可立即開始使用。
GPU Application:全部 4 種尺寸
全部 4 種 Gemma 4 模型 — E2B、E4B、26B A4B 與 31B — 均可透過 Novita AI GPU Application 取得。GPU Application 是預先配置好的即用型模型部署庫:只要選擇模型、啟動實例,一鍵即可開始運行,无需進行基礎設施設定或手動容器配置。
透過 GPU Application 啟動 Gemma 4 →
總結
Gemma 4 在單一模型家族中整合了 3 種截然不同的架構:31B 密集模型專注於長上下文品質、26B A4B MoE 模型針對受限記憶體場景設計並支援 QAT、小型 E2B/E4B 模型則專為裝置端推論打造。全部 4 種尺寸都支援視覺輸入,而音訊(ASR 與 AST)功能僅在 E2B 與 E4B 上提供。所有尺寸的模型都內建思考模式、函數呼叫、多語言支援與影片理解能力。
在 Novita AI 上,31B 與 26B A4B 已於 Model API 正式上線 — 相容 OpenAI 格式,可直接替換使用。包含小型模型在內的全部 4 種尺寸,均可透過 GPU Application 進行一鍵部署。
常見問題
Gemma 4 31B 與 Gemma 4 26B A4B 有什麼差異? 31B 是密集模型 — 每次前向傳遞都會啟動全部 31.3B 參數,針對長上下文品質進行優化。26B A4B 則是混合專家模型,總共擁有 26.8B 參數,但推論時僅有 3.8B 參數處於活躍狀態,專為受限記憶體的部署場景設計,並支援量化功能。
所有尺寸的 Gemma 4 都支援視覺與音訊嗎? 視覺功能在全部 4 種尺寸上都支援。音訊功能僅在 E2B 與 E4B 上提供 — 26B A4B 與 31B 僅接受文字與圖像輸入,不支援音訊。
Gemma 4 提供哪些量化格式? 混合專家(26B A4B)版本提供基於 QAT 的檢查點,包含 Q3-2、Q3-0 與 Q4-0 三種格式。
什麼是 Novita AI GPU Application? GPU Application 是 Novita AI 上的一鍵模型部署服務。你可以從預先配置好的即用型模型應用庫中選擇(包含 LLM、圖像、音訊、影片等類型),選擇模型、啟動實例後即可開始運行,无需進行容器設定或基礎設施配置。全部 4 種尺寸的 Gemma 4 都可以在此取得。
Novita AI 是 AI 與代理雲端平台,協助開發者與新創公司建構、部署與擴展模型及代理應用程式,兼具高效能、高可靠性與成本效益。
