Google Gemma-3-12B-IT 現已登陸 Novita AI：更聰明、更快速、更靈活的多模態 AI

什麼是 Google Gemma-3-12B-IT？
主要功能與能力
技術規格與效能
實際應用場景
如何在 Novita AI 上使用 Gemma-3-12B-IT
結論

Google Gemma-3-12B-IT 將多模態 AI 部署從基礎設施難題轉化為戰略優勢。透過 Novita AI 的精簡平台提供，定價為每百萬輸入 token 0.05 美元、每百萬輸出 token 0.1 美元，這款經過指令微調的模型無需傳統部署的複雜度，即可提供企業級視覺語言能力。

建基於 Google DeepMind 的 Gemini 研究基礎，Gemma-3-12B-IT 結合了 128,000 token 的上下文處理能力，以及橫跨 140 多種語言的先進影像理解能力。此次整合展示了如何透過巧思的平台設計，將前沿 AI 能力轉化為易於使用、可投入生產的解決方案，為各規模組織釋放前所未有的運算潛力。

什麼是 Google Gemma-3-12B-IT？

在多模態 AI 的複雜領域中航行，不僅需要技術規格，更需要理解架構創新如何轉化為實際商業價值。Google Gemma-3-12B-IT 代表了這項戰略演進，結合了 120 億個經過精心優化的參數，以及擅長複雜多步驟推理任務的指令微調架構。

不同於僅能處理文字的傳統語言模型，Gemma-3-12B-IT 無縫整合了視覺與文字理解能力。這項架構進步改變了組織處理內容分析、客戶服務和知識管理的方式，讓 AI 系統能夠像人類一樣，透過多重感官通道處理資訊。

模型的指令微調基礎意味著它能夠理解上下文、遵循複雜指令，並在長時間互動中保持對話連貫性。這項成熟度消除了通常需要耗費大量心力才能實現專業級輸出的提示工程複雜度，讓沒有專業知識的團隊也能輕鬆使用先進 AI 能力。

Novita AI 上的 Gemma 模型家族

戰略性 AI 部署需要將運算需求與營運限制相匹配。Novita AI 全面的 Gemma 3 生態系將模型選擇從技術限制轉化為戰略靈活性，讓組織能根據特定使用場景和成長軌跡優化自身方案。

Gemma3 12B IT

定價：每百萬輸入 token 0.05 美元 • 每百萬輸出 token 0.1 美元
上下文長度：131072 token
部署方式：無伺服器基礎設施
適用場景：需要多模態能力和長上下文的生產環境應用

Gemma 3 27B IT

定價：每百萬輸入 token 0.119 美元 • 每百萬輸出 token 0.2 美元
上下文長度：32,768 token
部署方式：無伺服器基礎設施
適用場景：複雜推理任務和企業級大規模應用

Gemma3 1B IT

定價：免費
上下文長度：32,768 token
部署方式：無伺服器基礎設施
適用場景：概念驗證開發和注重資源節省的部署場景

這種分層架構展示了巧思的平台設計如何創造戰略機會：組織可以使用免費的 1B 模型進行原型驗證，使用均衡的 12B 版本開發生產環境應用，並隨著需求演進擴展到旗艦級 27B 模型——所有操作都在同一套統一基礎設施上完成。

主要功能與能力

擴展上下文處理

128,000 token 的上下文窗口不僅是技術進步，更改變了組織處理綜合文件和複雜分析工作流程的方式。這項架構能力消除了限制傳統模型的信息碎片化問題，讓 AI 系統能夠在分析大量材料時保持上下文連貫性，不會遺失理解脈絡。

這項擴展處理能力為文件智能開闢了新的可能性，讓 AI 系統能夠在完整的研究論文、法律文件或技術手冊中維持上下文，同時整合圖表、圖解和插圖等視覺元素。

先進多模態整合

Gemma-3-12B-IT 的視覺語言架構超越了簡單的影像辨識，能夠提供媲美人類視覺推理的複雜分析能力。這項整合讓模型能夠理解文字內容與視覺資訊之間的關聯，提取出僅靠純文字或純影像分析都無法獨立實現的洞察。

核心能力：

文件智能：從包含圖表、圖形和技術圖解的报告提取可執行的洞察
視覺推理：在完整上下文理解的前提下，回答關於影像內容的複雜問題
內容創作：生成整合視覺與文字資訊的詳細描述、標題和說明
教育應用：提供結合書面解釋和視覺學習材料的全方位輔導

全球語言支援

支援 140 多種語言將國際部署從技術挑戰轉化為戰略優勢。這項全面的多語言能力確保在不同市場都能保持一致效能，讓組織無論身處何種地理或文化背景，都能維持品質標準。

指令微調架構

模型先進的指令遵循能力降低了通常與 AI 部署相關的複雜度。Gemma-3-12B-IT 無需耗費大量心力進行提示工程或具備專業技術知識，就能理解自然語言指令，並在複雜的多輪互動中維持對話上下文。

技術規格與效能

架構卓越性

Gemma-3-12B-IT 的技術基礎展示了戰略性設計選擇如何創造部署優勢。建基於 Google DeepMind 的研究基礎設施，這款模型平衡了運算效率與全面的能力覆蓋範圍，無需傳統基礎設施限制，即可提供企業級效能。

核心規格：

參數量：120 億，針對多模態處理效率優化
上下文窗口：128,000 token，支援全面文件理解
輸出容量：8,192 token，可生成詳細且細膩的回應
影像處理：支援 896x896 解析度輸入，每張影像編碼為 256 token
訓練基礎：使用覆蓋多元多語言數據集的 12 萬億 token 訓練

全面基準測試分析

Google 的評估方法論在多樣化的生產場景中驗證了 Gemma-3-12B-IT 的能力。這些結果展示了架構成熟度如何轉化為關鍵商業應用的實際部署優勢。

推理與事實準確性

Benchmark	Metric	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
HellaSwag	10-shot	62.3	77.2	84.2	85.6
BoolQ	0-shot	63.2	72.3	78.8	82.4
PIQA	0-shot	73.8	79.6	81.8	83.3
SocialIQA	0-shot	48.9	51.9	53.4	54.9
TriviaQA	5-shot	39.8	65.8	78.2	85.5
Natural Questions	5-shot	9.48	20.0	31.4	36.1
ARC-c	25-shot	38.4	56.2	68.9	70.6
ARC-e	0-shot	73.0	82.4	88.3	89.0
WinoGrande	5-shot	58.2	64.7	74.3	78.8
BIG-Bench Hard	few-shot	28.4	50.9	72.6	77.7
DROP	1-shot	42.4	60.1	72.2	77.2

STEM 與程式碼

Benchmark	Metric	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MMLU	5-shot	59.6	74.5	78.6
MMLU (Pro COT)	5-shot	29.2	45.3	52.2
AGIEval	3-5-shot	42.1	57.4	66.2
MATH	4-shot	24.2	43.3	50.0
GSM8K	8-shot	38.4	71.0	82.6
GPQA	5-shot	15.0	25.4	24.3
MBPP	3-shot	46.0	60.4	65.6
HumanEval	0-shot	36.0	45.7	48.8

多語言

|Benchmark|Gemma 3 PT 1B|Gemma 3 PT 4B|Gemma 3 PT 12B|Gemma 3 PT 27B| |—|—|—|—|—|—| |MGSM|2.04|34.7|64.3|74.3| |Global-MMLU-Lite|24.9|57.0|69.4|75.7| |WMT24++ (ChrF)|36.7|48.4|53.9|55.7| |FloRes|29.5|39.2|46.0|48.8| |XQuAD (all)|43.9|68.0|74.5|76.8| |ECLeKTic|4.69|11.0|17.2|24.4| |IndicGenBench|41.4|57.2|61.7|63.4|

多模態

Benchmark	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
COCOcap	102	111	116
DocVQA (val)	72.8	82.3	85.6
InfoVQA (val)	44.1	54.8	59.4
MMMU (pt)	39.2	50.3	56.1
TextVQA (val)	58.9	66.5	68.6
RealWorldQA	45.5	52.2	53.9
ReMI	27.3	38.5	44.8
AI2D	63.2	75.2	79.0
ChartQA	63.6	74.7	76.3
VQAv2	63.9	71.2	72.9
BLINK	38.0	35.9	39.6
OKVQA	51.0	58.7	60.2
TallyQA	42.5	51.8	54.3
SpatialSense VQA	50.9	60.0	59.4
CountBenchQA	26.1	17.8	68.0

這些基準測試結果展現了細膩的效能特徵，證明了 Gemma-3-12B-IT 在生產部署中的戰略定位。12B 模型展現了卓越性價比，在推理（BoolQ 78.8）、數學能力（GSM8K 71.0）和多模態理解（DocVQA 82.3）方面都表現優異，同時相比更大的 27B 版本，保持了更具成本效益的資源需求。

實際應用場景

將技術能力轉化為商業價值，需要理解多模態 AI 如何解決複雜的組織挑戰。Gemma-3-12B-IT 的成熟架構實現了傳統純文字模型無法達成的解決方案，為各產業和用例創造戰略優勢。

智慧內容營運

現代內容工作流程不僅需要文字生成，更需要理解視覺上下文、維持品牌一致性，並適應多格式的受眾偏好。我們的方法將內容創建挑戰轉化為戰略機會。

文件智能：

從包含圖表、圖形和技術圖解的报告提取可執行的洞察
生成整合文字分析與視覺數據的執行摘要
透過分析多媒體監管內容自動化合規文件製作
生成全面的內容描述，提升各平台的可訪問性

戰略內容開發：

分析活動影像與效能指標，優化創意策略
生成回應視覺趨勢和受眾互動模式的上下文內容
開發結合技術規格與視覺吸引力的產品描述
創建無縫融合解釋性文字與輔助視覺素材的教育材料

教育科技與培訓

教育機構和企業培訓計劃需要能夠理解人們如何透過多重渠道學習的 AI 系統。透過重新構想教育 AI 基礎設施，組織可以建立降低教學成本、同時保持前沿教學效能的框架。

自適應學習系統：

處理學生包含圖解、圖表和書面解釋的作業
生成結合文字指導與視覺輔助工具的個人化學習材料
為涉及計算和視覺推理的複雜問題解決提供即時反饋
透過教育視覺素材的全面描述支援可訪問性需求

專業發展解決方案：

分析包含流程圖解和文字說明的技術文件
生成同時涵蓋理論概念和實際應用的培訓材料
處理包含視覺組件和書面回覆的績效評估

企業智能與分析

企業決策越來越依賴整合來自多元來源的資訊：內嵌圖表的財務報告、包含視覺數據的市場研究，以及跨多格式的客戶反饋。這項整合展示了巧思的設計如何釋放前所未有的分析潛力。

進階數據分析：

處理整合財務數據可視化與敘述分析的季度報告
透過分析文字內容與視覺簡報生成競爭情報
支援需要理解複雜圖解和技術規範的盡職調查流程
生成整合多模態數據來源洞察的執行簡報

客戶體驗提升：

處理涉及影像、文件和詳細說明的客戶查詢
提供結合視覺輔助工具與詳細文字指導的全面支援
處理需要視覺理解和上下文推理的複雜案例
透過智慧多模態互動轉變客戶服務工作流程

如何在 Novita AI 上使用 Gemma-3-12B-IT

開始使用 Gemma-3-12B-IT 能將 AI 部署從技術挑戰轉化為戰略落地。Novita AI 的精簡方案消除了基礎設施複雜度，同時保留了對先進多模態能力的完全控制。

使用 Playground（無需編碼）

立即存取：註冊後即可在幾秒內開始體驗 Gemma-3-12B-IT，無需基礎設施設置或技術配置。

互動體驗：透過支援文字和影像輸入的直觀介面測試多模態能力。

戰略性比較：輕鬆切換不同模型，評估效能特徵，找出適合特定用例的最佳解決方案。

透過 API 整合（適用開發者）

透過 Novita AI 的統一 REST API，將 Gemma-3-12B-IT 無縫連接至應用程式、工作流程和業務系統，无需管理模型權重或基礎設施複雜度。

選項 1：直接 API 整合（Python 範例）

將複雜的多模態 AI 轉化為易於存取的開發工作流程：

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="session_Um3Ozta39g2J__yeP9b_rOegzeA_qSYYquKzJS2oitKENIo8_H2FL2sCtl25-sKWjCY_wsmN18iuDp1zv_Xkaw==",
)

model = "google/gemma-3-12b-it"
stream = True # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

主要特色：

統一端點：/v3/openai 支援 OpenAI 的 Chat Completions API 格式
彈性控制：可調整 temperature、top-p、懲罰係數等參數，獲取量身打造的結果
串流與批次處理：可選擇您偏好的回應模式
多模態支援：無縫處理文字和影像

選項 2：使用 OpenAI Agents SDK 構建多代理工作流程

透過將 Novita AI 與 OpenAI Agents SDK 整合，構建先進的多模態代理系統：

即插即用：無需修改即可在任何 OpenAI Agents 工作流程中使用 Gemma-3-12B-IT。

支援交接、路由和工具調用：可設計能分析視覺內容、委派任務，並基於多模態理解執行功能的代理。

Python 整合：將 SDK 指向 Novita 的端點（https://api.novita.ai/v3/openai），即可實現無縫代理工作流程。

選項 3：在第三方平台連接 Gemma-3-12B-IT API

Hugging Face：透過 Novita AI 端點，在 Spaces、pipeline 或搭配 Transformers 函式庫使用 Gemma-3-12B-IT。

代理與編排框架：透過官方連接器和逐步整合指南，連接 Continue、AnythingLLM、LangChain、Dify 和 Langflow 等平台。

OpenAI 相容 API：使用 Cline、Trae、Qwen Code 和 Cursor 等工具，從現有實現無縫遷移。

結論

Novita AI 上的 Gemma-3-12B-IT 將多模態 AI 部署從基礎設施難題轉化為戰略優勢。憑藉 128,000 token 的上下文處理能力、先進的視覺能力，以及每百萬輸入 token 0.05 美元起的競爭力定價，這項整合透過對開發者友好的基礎設施，提供企業級智能。

我們的方法展示了巧思的平台設計如何消除傳統部署障礙，同時保留 Google DeepMind 的前沿研究能力。組織可以專注於創新而非基礎設施管理，透過直觀、可擴展且能隨需求成長的平台，運用世界級的多模態 AI。

準備好用先進多模態智能轉變您的應用程式了嗎？立即開始使用 Novita AI 上的 Gemma-3-12B-IT，今天就釋放前所未有的運算潛力。

Novita AI 是領先的 AI 雲端平台，為開發者提供易於使用的 API 和實惠、可靠的 GPU 基礎設施，用於構建和擴展 AI 應用程式。

Google Gemma-3-12B-IT 現已登陸 Novita AI：更聰明、更快速、更靈活的多模態 AI