Gemma-3-12B-IT 屬於 Google Gemma 系列的開源模型,兼具強大的多模態效能與輕量化、高效能特性。其基礎架構與 Gemini 同源,能輕鬆處理文字生成、摘要、推理、影像理解等任務,是開發者與研究人員都適用的強大且易於取得的選項。
在本指南中,我們將先快速回顧 Gemma-3-12B-IT 的核心特性,接著逐步說明三種存取方式:網頁介面、API 整合與本地部署。
什麼是 Gemma-3-12B-IT?
基本資訊
| 功能 | 詳細資訊 |
| 模型大小 | 120 億參數 |
| 架構 | 密集架構 |
| 開源 | 是 |
| 上下文視窗 | 12.8 萬 Token |
| 多語言支援 | 英語表現優異,支援 140 種語言 |
| 多模態 | 文字與影像(標準化解析度為 896x896) |
| 授權 | Gemma |
| 基準測試 | 效能 |
| GPQA Diamond | 35% |
| MMLU-Pro | 60% |
| IFBench | 37% |
| SciCode | 17% |
| LiveCodeBench | 14% |
| AIME 2025 | 18% |
| Humanity’s Last Exam | 4.8% |
| AA-LCR | 7% |
擴展上下文處理能力
具備 12.8 萬 Token 的上下文視窗,Gemma-3-12B-IT 不只是技術升級,更重新定義了企業處理長篇文件與複雜分析工作流程的方式。其先進的設計消除了傳統模型常見的上下文碎片化問題,能在處理大量文字時保持連貫性與語境完整性。
這項擴展能力為文件智慧開闢了新可能,讓 AI 系統在閱讀完整的研究論文、合約或技術手冊時都能維持理解連貫性,同時也能解讀圖表、圖解等視覺元素。
先進多模態整合
Gemma-3-12B-IT 採用視覺語言框架,遠超標準影像識別功能,能實現接近人類的分析推理能力。透過連結文字與視覺資訊,它可以解讀兩種模態之間的關聯,提取出僅靠文字或僅靠影像分析無法獲得的深度洞察。
核心亮點
- 文件分析: 從包含圖表、圖解的報告中提取有價值的洞察。
- 視覺理解: 以清晰且符合邏輯的推理回答複雜的影像相關問題。
- 內容生成: 產出自然連結視覺與文字的清晰描述、圖說與說明。
- 學習輔助: 提供結合文字與實用視覺範例的詳盡、易於理解的說明。
指令微調架構
Gemma-3-12B-IT 的精煉指令微調設計,大幅降低了複雜提示詞工程或進階技術設定的需求,簡化了 AI 部署流程。它能自然理解人類語言指令,並在長時間的多輪對話中維持語境,實現更流暢、更直覺的模型互動。
如何存取 Gemma-3-12B-IT:網頁介面(適合初學者)

如何存取 Gemma-3-12B-IT:使用 API(適合開發者)
Novita AI 提供的 Gemma-3-12B-IT API 支援 13.1 萬 Token 上下文,費用為輸入 每 1K Token 0.05 美元、輸出 每 1K Token 0.1 美元,開發者可透過單一統一 API 無縫使用 Google 這款輕量化多模態模型,執行進階推理、摘要與生成任務。
Novita AI
步驟 1:登入並存取模型庫
登入你的帳號後,點擊 模型庫 按鈕。

步驟 2:開始免費試用
選擇你想要的模型,開始免費試用以探索所選模型的能力。

步驟 3:取得 API 金鑰
若要透過 API 進行身份驗證,我們會為你提供新的 API 金鑰。進入「設定」頁面後,即可按照圖中指示複製 API 金鑰。

步驟 4:安裝 API
使用對應程式語言的套件管理器安裝 API。
安裝完成後,將必要的函式庫匯入你的開發環境,並使用你的 API 金鑰初始化 API,即可開始與 Novita AI LLM 互動。以下為 Python 使用者呼叫聊天完成 API 的範例:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key="session_Um3Ozta39g2J__yeP9b_rOegzeA_qSYYquKzJS2oitKENIo8_H2FL2sCtl25-sKWjCY_wsmN18iuDp1zv_Xkaw==",
)
model = "google/gemma-3-12b-it"
stream = True # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
選項 2:使用 OpenAI Agents SDK 建構多代理工作流程
利用 Gemma-3-12B-IT 的雙模式能力,建構複雜的多代理系統:
- 即插即用整合: 在任何 OpenAI Agents 工作流程中使用 DeepSeek V3.1
- 進階代理能力: 支援交接、路由與工具整合
- 可擴展架構: 設計能運用 DeepSeek V3.1 能力的代理
如何存取 Gemma-3-12B-IT:本地部署(適合進階使用者)
Gemma3-12B-IT 硬體需求
| 量化方式 | 僅權重(約略) | 含 KV 快取(約略) | 最低配置 | 推薦 GPU |
| BF16 | 24.0 GB | 38.9 GB | Nvidia L40S ×1 | Nvidia H100 ×1 |
| SFP8 | 12.4 GB | 27.3 GB | Nvidia L40S ×1 | Nvidia A100 ×1 |
| INT4 | 6.6 GB | 21.5 GB | Nvidia L4 ×1 | Nvidia L40S ×1 |
對於需要更高控制權與靈活性的使用者,Novita AI 提供隨選雲端 GPU 執行個體,包含 L40S、A100、H100,以及其他高效能選項如 RTX 4090、RTX 5090 與 RTX 6000 Ada,讓使用者無需依賴本地硬體即可輕鬆部署高效能工作負載。


使用 Gemma-3-12B-IT 的最佳實踐
- 選擇合適的存取方式: 初學者可先用網頁介面快速試用,開發者應使用 Novita AI API 將模型整合至應用程式與工作流程,進階使用者則可選擇本地部署以獲得完整控制權與離線使用能力。
- 注意資源需求: 若選擇本地部署,請確認你的 GPU 符合最低配置要求,INT4 或 SFP8 等量化模型能在效能與記憶體效率之間取得最佳平衡。
- 優化上下文與吞吐量: Gemma-3-12B-IT 最高支援 12.8 萬 Token,若輸入內容較長,可將內容分割為結構化段落,或使用摘要功能以維持輸出的連貫性。
- 發揮多模態優勢: 在提示詞中結合文字與影像,探索模型的推理分析與描述生成能力。
- 實驗與迭代: 根據任務需求調整
temperature、top_p、max_tokens等參數,微調輸出的創造力、事實準確性與回應長度。
常見問題
什麼是 Gemma-3-12B-IT?
Gemma-3-12B-IT 是 Google Gemma 系列的指令微調多模態模型,能同時處理文字與影像輸入,生成自然且符合語境的文字輸出。
Gemma-3-12B-IT 與其他 Gemma 模型有何不同?
它在效能與效率之間取得了平衡,具備 120 億個參數,針對推理、摘要與視覺理解任務進行了最佳化。
如何開始使用 Gemma-3-12B-IT?
你可以透過官方網頁介面、Novita AI API 或 GPU 執行個體存取,也可以使用 Hugging Face 進行本地部署。Novita AI 提供實惠的價格與穩定的效能。
Novita AI 是領先的 AI 雲端平台,為開發者提供易於使用的 API 與實惠、可靠的 GPU 基礎設施,協助建置與擴展 AI 應用程式。
