Google Gemma 4 現已上線 Novita AI — 4 種尺寸、支援音訊與視覺

什麼是 Gemma 4？
三種架構的運作原理
核心能力
多模態能力：視覺與音訊
建議取樣參數
模型比較
在 Novita AI 上運行 Gemma 4
總結

Google 的 Gemma 4 現已於 Novita AI 上線。其中兩款較大的模型 — 31B 與 26B A4B — 已於 Model API 正式上線。包含裝置端專用的 E2B 與 E4B 在內，全部 4 種尺寸均可透過 GPU Application 部署：這是 Novita AI 的一鍵模型部署服務，只要選擇模型、啟動實例，即可立即開始運行。

本文將介紹 Gemma 4 的詳細資訊、不同架構的差異，以及各尺寸模型的適用場景 — 讓你在開始開發前就能選擇最適合的存取路徑。

立即試用 Gemma 4 31B

立即試用 Gemma 4 26B A4B

什麼是 Gemma 4？

Gemma 4 是 Google 第四代開源模型家族，基於 3 種不同的架構打造，各自針對不同的記憶體與效能目標進行優化。產品線涵蓋從裝置端推論到伺服器級部署的各種場景，每種架構都圍繞特定的記憶體佔用與效能目標設計。

四個模型尺寸如下：

模型	架構	參數量	上下文長度	支援模態
Gemma 4 E2B	密集（小型）	2.3B 有效參數，加入嵌入層後為 5.1B	128K	文字、視覺、音訊
Gemma 4 E4B	密集（小型）	4.5B 有效參數，加入嵌入層後為 7.9B	128K	文字、視覺、音訊
Gemma 4 26B A4B	混合專家（MoE）	4B 活躍參數 / 總共 26B	256K	文字、視覺
Gemma 4 31B	密集	31B	256K	文字、視覺

全部 4 種尺寸都提供經過指令微調（-it）的版本，以及基礎預訓練檢查點。

三種架構的運作原理

密集架構（31B）：專為長上下文品質打造

31B 模型是旗艦級的密集架構。它在 Gemma 基礎架構上進行了多項架構調整，提升了運算效率與長上下文處理品質。

混合專家（MoE）架構（26B A4B）：高效能、固定記憶體佔用

26B A4B 模型採用混合專家（Mixture of Experts, MoE）設計，總共包含 128 個專家節點（大量小型專家），以及 1 個永遠處於活躍狀態的共享專家。每次前向傳遞僅會啟動 8 個專家，在總共 26.8B 的參數中，僅有 3.8B 為活躍參數。

該設計的目標是讓模型在套用量化後，仍可在高階筆電與伺服器架構上運行。我們提供了針對量化感知訓練（Quantization-Aware Training, QAT）的檢查點 — Q3-2、Q3-0 與 Q4-0，讓你能在降低記憶體佔用的同時，維持高品質的推論效果。

小型架構（E2B 與 E4B）：裝置端專用，具備實際吞吐量

E2B 與 E4B 模型是專為裝置端推論場景設計的。其設計基礎為 Gemma 4 的密集架構，並加入了精選自 Gemma 3n 的創新功能，以提升每秒處理的 token 數、降低預填充時間，並擴大對各種裝置、框架與執行環境的相容性。

延續自 Gemma 3n 的兩個核心功能：

逐層嵌入（Per-Layer Embeddings, PLE）：保留自 Gemma 3n 的功能
KV 快取共享（KV-Cache Sharing）：在幾乎不影響品質的前提下，同時降低預填充時間與 KV 快取的記憶體佔用

核心能力

除了架構差異之外，所有尺寸的 Gemma 4 都具備一系列強大的內建能力：

思考模式 — 內建的推理功能，可讓模型在回答前逐步思考。
長上下文 — E2B 與 E4B 支援 128K token，26B A4B 與 31B 則支援 256K token。
圖像理解 — 支援物件偵測、文件與 PDF 解析、畫面與 UI 理解、圖表解讀、光學字元辨識（OCR）、手寫辨識，以及指向功能。
影片理解 — 可透過處理連續幀的方式分析影片內容。
交錯多模態輸入 — 可在單一提示中自由混合文字與圖像。
函數呼叫 — 原生支援結構化工具使用與代理工作流程。
程式碼處理 — 支援程式碼生成、補全與修正。
多語言支援 — 開箱即用支援 35 種以上語言，預訓練資料涵蓋 140 種以上語言。
音訊（僅 E2B 與 E4B 支援） — 支援多語言的語音自動辨識（ASR）與語音翻譯為文字功能。

多模態能力：視覺與音訊

視覺：全尺寸支援，原生寬高比

全部 4 種尺寸的 Gemma 4 都支援視覺輸入。圖像會以原生寬高比透過混合解析度處理，無需平移裁剪，也無需強制調整為正方形。

音訊：僅 E2B 與 E4B 支援

僅 E2B 與 E4B 小型模型支援音訊輸入，26B A4B 與 31B 則不支援音訊功能。

音訊模型支援以下功能：

語音自動辨識（Automatic Speech Recognition, ASR） — 將語音轉換為原文語言的文字。
語音自動翻譯（Automatic Speech Translation, AST） — 將來源語言的語音轉換為文字後，翻譯為目標語言。

建議取樣參數

Google 針對 Gemma 4 各種使用場景標準化的取樣配置如下：

參數	數值
temperature	1.0
top_p	0.95
top_k	64

可將這些參數作為 Gemma 4 各種使用場景的基礎取樣配置。

模型比較

模型	上下文長度	音訊支援	存取方式
Gemma 4 31B	256K	否	Model API 或 GPU Application
Gemma 4 26B A4B	256K	否	Model API 或 GPU Application
Gemma 4 E4B	128K	是	GPU Application
Gemma 4 E2B	128K	是	GPU Application

在 Novita AI 上運行 Gemma 4

Novita AI 提供兩種運行 Gemma 4 的方式，可根據你需要受管理的 API，或是需要完全掌控實例來選擇。

Model API：31B 與 26B A4B

Gemma 4 31B 與 Gemma 4 26B A4B 已於 Novita AI Model API 上線 — 相容 OpenAI 格式、按 token 計費，無需每月承諾消費額度。

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="google/gemma-4-31b-it",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=131072,
    temperature=0.7
)

print(response.choices[0].message.content)

如果你已經在使用相容 OpenAI 的客戶端，則无需修改 SDK。只要更換 base_url 與 api_key，更新模型字串，即可立即開始使用。

GPU Application：全部 4 種尺寸

全部 4 種 Gemma 4 模型 — E2B、E4B、26B A4B 與 31B — 均可透過 Novita AI GPU Application 取得。GPU Application 是預先配置好的即用型模型部署庫：只要選擇模型、啟動實例，一鍵即可開始運行，无需進行基礎設施設定或手動容器配置。

透過 GPU Application 啟動 Gemma 4 →

總結

Gemma 4 在單一模型家族中整合了 3 種截然不同的架構：31B 密集模型專注於長上下文品質、26B A4B MoE 模型針對受限記憶體場景設計並支援 QAT、小型 E2B/E4B 模型則專為裝置端推論打造。全部 4 種尺寸都支援視覺輸入，而音訊（ASR 與 AST）功能僅在 E2B 與 E4B 上提供。所有尺寸的模型都內建思考模式、函數呼叫、多語言支援與影片理解能力。

在 Novita AI 上，31B 與 26B A4B 已於 Model API 正式上線 — 相容 OpenAI 格式，可直接替換使用。包含小型模型在內的全部 4 種尺寸，均可透過 GPU Application 進行一鍵部署。

立即試用 Gemma 4 31B

立即試用 Gemma 4 26B A4B

常見問題

Gemma 4 31B 與 Gemma 4 26B A4B 有什麼差異？ 31B 是密集模型 — 每次前向傳遞都會啟動全部 31.3B 參數，針對長上下文品質進行優化。26B A4B 則是混合專家模型，總共擁有 26.8B 參數，但推論時僅有 3.8B 參數處於活躍狀態，專為受限記憶體的部署場景設計，並支援量化功能。

所有尺寸的 Gemma 4 都支援視覺與音訊嗎？ 視覺功能在全部 4 種尺寸上都支援。音訊功能僅在 E2B 與 E4B 上提供 — 26B A4B 與 31B 僅接受文字與圖像輸入，不支援音訊。

Gemma 4 提供哪些量化格式？ 混合專家（26B A4B）版本提供基於 QAT 的檢查點，包含 Q3-2、Q3-0 與 Q4-0 三種格式。

什麼是 Novita AI GPU Application？ GPU Application 是 Novita AI 上的一鍵模型部署服務。你可以從預先配置好的即用型模型應用庫中選擇（包含 LLM、圖像、音訊、影片等類型），選擇模型、啟動實例後即可開始運行，无需進行容器設定或基礎設施配置。全部 4 種尺寸的 Gemma 4 都可以在此取得。

Novita AI 是 AI 與代理雲端平台，協助開發者與新創公司建構、部署與擴展模型及代理應用程式，兼具高效能、高可靠性與成本效益。

Google Gemma 4 現已上線 Novita AI — 4 種尺寸、支援音訊與視覺

什麼是 Gemma 4？