Gemma-3-12B-IT 属于 Google 的 Gemma 系列开放模型,在保持轻量和高效的同时,提供了强大的多模态能力。该模型基于与 Gemini 相同的高级基础构建,能够轻松处理文本生成、摘要、推理和图像理解等任务,为开发者和研究人员提供强大且易用的选择。
在本指南中,我们将首先快速回顾 Gemma-3-12B-IT,然后逐步介绍访问它的不同方式,包括网页界面、API 集成以及本地部署。
Gemma-3-12B-IT 是什么?
基本信息
| 特性 | 详情 |
|---|---|
| 模型大小 | 120亿参数 |
| 架构 | Dense |
| 开源 | 是 |
| 上下文窗口 | 128K Token |
| 多语言支持 | 精通英语,支持140种语言 |
| 多模态 | 文本与图像(归一化至896×896分辨率) |
| 许可证 | Gemma |
| 基准测试 | 性能 |
|---|---|
| GPQA Diamond | 35% |
| MMLU-Pro | 60% |
| IFBench | 37% |
| SciCode | 17% |
| LiveCodeBench | 14% |
| AIME 2025 | 18% |
| Humanity’s Last Exam | 4.8% |
| AA-LCR | 7% |
扩展上下文处理
凭借128,000个Token的上下文窗口,Gemma-3-12B-IT 不仅仅是一次技术升级,它重新定义了企业处理长篇文档和复杂分析工作流的方式。其先进的设计消除了传统模型中的碎片化问题,能够无缝理解大量文本,而不会失去连贯性或上下文。
这种扩展能力为文档智能开辟了新的领域,使AI系统能够在整个研究论文、合同或技术手册中保持理解,同时也能解读图形、图表和插图等视觉组件。
先进的多模态集成
Gemma-3-12B-IT 基于视觉语言框架构建,远超标准图像识别,实现了类似人类的分析推理能力。通过链接文本和视觉信息,它可以解释两种模态之间的关系,并提取仅通过文本或图像分析无法获得的深刻见解。
关键亮点
- 文档分析:从包含图表、图形和可视内容的报告中提取有用的信息。
- 视觉理解:以清晰、逻辑的推理回答复杂的基于图像的问题。
- 内容生成:撰写将视觉与文本自然连接的清晰描述、字幕和解释。
- 学习支持:提供结合文本与有效视觉示例的全面、易于理解的解释。
指令调优架构
Gemma-3-12B-IT 经过优化的指令调优设计简化了AI部署流程,最大限度地减少了对复杂提示工程或高级技术设置的需求。它能自然地解释人类语言指令,并在多轮对话中保持上下文,从而实现与模型的更流畅、更直观的交互。
如何访问 Gemma-3-12B-IT:网页界面(适合初学者)

如何访问 Gemma-3-12B-IT:使用 API(适合开发者)
Novita AI 提供 Gemma-3-12B-IT API,支持 131K 上下文,成本为 $0.05/输入 和 $0.1/输出,允许开发者通过一个统一的API无缝接入 Google 的轻量级多模态模型,以完成高级推理、摘要和生成任务。
Novita AI
步骤 1:登录并访问模型库
登录您的账户,然后点击 模型库 按钮。

步骤 2:开始免费试用
选择您的模态(modal)并开始免费试用,以探索所选模型的能力。

步骤 3:获取 API 密钥
为了通过 API 进行身份验证,我们将为您提供一个新的API密钥。进入“设置”页面,您可以按照图中所示复制API密钥。

步骤 4:安装 API
使用您编程语言的包管理器安装 API。
安装后,将必要的库导入您的开发环境。使用您的 API 密钥初始化客户端,以开始与 Novita AI LLM 交互。以下是 Python 用户使用聊天补全 API 的示例。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key="session_Um3Ozta39g2J__yeP9b_rOegzeA_qSYYquKzJS2oitKENIo8_H2FL2sCtl25-sKWjCY_wsmN18iuDp1zv_Xkaw==",
)
model = "google/gemma-3-12b-it"
stream = True # or False
max_tokens = 4096
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
选项 2:使用 OpenAI Agents SDK 的多智能体工作流
利用 Gemma-3-12B-IT 的双模式能力构建复杂的多智能体系统:
- 即插即用集成:在任何 OpenAI Agents 工作流中使用 DeepSeek V3.1
- 高级智能体功能:支持交接、路由和工具集成
- 可扩展架构:设计能够利用 DeepSeek V3.1 能力的智能体
如何访问 Gemma-3-12B-IT:本地部署(适合高级用户)
Gemma3-12B-IT 硬件需求
| 量化方式 | 仅权重(约) | 含 KV-cache(约) | 最低配置 | 推荐 GPU |
|---|---|---|---|---|
| BF16 | 24.0 GB | 38.9 GB | Nvidia L40S ×1 | Nvidia H100 ×1 |
| SFP8 | 12.4 GB | 27.3 GB | Nvidia L40S ×1 | Nvidia A100 ×1 |
| INT4 | 6.6 GB | 21.5 GB | Nvidia L4 ×1 | Nvidia L40S ×1 |
对于需要更多控制和灵活性的用户,Novita AI 提供按需云 GPU 实例,包括 L40S、A100、H100,以及其他高要求选项如 RTX 4090、RTX 5090 和 RTX 6000 Ada,使用户无需依赖本地硬件即可轻松部署高性能工作负载。


使用 Gemma-3-12B-IT 的最佳实践
- 选择合适的访问方式:初学者可从网页界面开始快速试用;开发者应使用 Novita AI API 集成到应用和工作流中;高级用户可选择本地部署以获得完全控制和离线使用能力。
- 留意资源需求:如果选择本地部署,请确保您的GPU满足最低配置——量化模型(如 INT4 或 SFP8)是平衡性能与内存效率的理想选择。
- 优化上下文与吞吐量:Gemma-3-12B-IT 支持高达 128K Token。对于较长输入,可将内容拆分为结构化片段或使用摘要功能以保持结果连贯。
- 利用多模态优势:在提示中结合文本和图像,探索模型的分析推理和描述生成能力。
- 实验与迭代:根据任务调整
temperature、top_p和max_tokens等参数,以微调创意性、事实性和响应长度。
常见问题
什么是 Gemma-3-12B-IT?
Gemma-3-12B-IT 是 Google Gemma 系列中的指令调优多模态模型,能够处理文本和图像输入,生成自然且上下文感知的文本输出。
Gemma-3-12B-IT 与其他 Gemma 模型有何不同?
它在性能与效率之间提供了平衡的组合,拥有120亿参数,针对推理、摘要和视觉理解任务进行了优化。
如何开始使用 Gemma-3-12B-IT?
您可以通过官方网页界面、Novita AI API 或 GPU 实例,或使用 Hugging Face 进行本地部署来访问它。Novita AI 提供实惠的价格和稳健的性能。
Novita AI 是一家领先的 AI 云平台,为开发者提供易于使用的 API 以及经济、可靠的 GPU 基础设施,用于构建和扩展 AI 应用。
