关键亮点
多模态、多语言、长上下文:Gemma 3 27B 可处理文本和图像,支持 140 多种语言,并支持最长 128K token 的长输入。
Elo 评分:Elo 评分达 1339,位居全球模型前十。
单 GPU 兼容性:在单个 NVIDIA H100 GPU 上即可发挥顶级性能,而同类竞品需要多个 GPU。
通过 Novita AI 访问:Novita AI 提供经济高效的 API 和免费体验区,让您探索 Gemma 3 27B 的能力——立即试用!
2025 年 3 月 12 日发布的 Gemma 3 27B 是 Google 开源大语言模型产品线的重要成员。作为 Gemma 3 系列中最大的模型(除具有特定功能的指令微调变体外),它旨在实现性能与可访问性的平衡。本文对 Gemma 3 27B 进行实用且技术性的概述,详细介绍其架构、能力、基准测试及实际测试表现、硬件要求以及访问方式。
什么是 Gemma 3 27B?
显著特性
- 先进的多语言支持:借助新分词器,Gemma 3 在 140 多种语言上表现高效。
- 多模态输入:能够同时处理图像和文本,使其成为多种应用场景的多功能工具。
- 扩展上下文窗口:128K token 容量使其能够处理大量且详细的输入。
- 开源且社区友好:开源特性鼓励社区进行实验和广泛采用。
发布日期、模型尺寸 、 开源
- 2025 年 3 月 12 日
- 270 亿参数
这一规模使 Gemma 3 成为一个能够有效处理复杂且多样化任务的重要模型。 - 开放模型:由 Google 作为开源模型发布。
支持的语言
-
支持超过 140 种语言
- 采用专为更好的 多语言支持 而设计的 新分词器,使其在全球应用中具有高度通用性。
模型架构
- **技术 **:基于为 Google Gemini 2.0 模型 提供支持的相同研究和构建技术。
- 训练:
- 使用 Google TPU 在 14 万亿 token 上进行训练。
- 利用 JAX 框架 实现高效且可扩展的训练。
- 使用的技术:
- 蒸馏
- 强化学习(包括 RLHF、RLMF、RLEF)
- 模型合并
- 这些技术在 数学、** 编码 和 指令遵循**等关键领域提升了模型性能。
多模态能力
- 多模态:是
- 处理 图像和文本作为输入,并生成 ** 文本输出**。
- **视觉编码器 **:基于 SigLIP。
上下文窗口
-
128K token
- 允许模型处理和理解 大量信息,以完成复杂任务。
- 预训练细节:
- 初始使用 **32k 序列 ** 预训练,后扩展至 128k。
- 通过使用 RoPE(旋转位置编码) 调整 ** 位置嵌入**实现。
量化精度
-
默认训练精度:bfloat16
- **性能说明 **:模型在 bfloat16 下表现最佳,使用其他精度时质量可能会下降。
-
量化选项:
- 社区尝试了诸如 Q8 gguf quant、EXL2 和 IQ4_XS 等量化级别,以优化 VRAM 使用。
| 精度级别 | 仅权重 (GB) | 权重 + KV 缓存 (GB) |
|---|---|---|
| bf16 (原始) | 54.0 | 72.7 |
| INT4 | 14.1 | 32.8 |
| INT4 (blocks=32) | 15.3 | 34.0 |
| SFP8 | 27.4 | 46.1 |
Gemma 3 27B 基准测试
聊天性能
Gemma 3 27B 在最近的评估中展现了卓越能力,在 LMSys Chatbot Arena 中取得了 Elo 评分 1339。这一表现使其跻身包括领先闭源模型 o1-preview 在内的 ** 前十最佳模型 之列,彰显了其在人类偏好评估中的优势。此外,Gemma 3 27B 仅需 ** 单个 NVIDIA H100 GPU 即可达到此高分,而同类竞品若要达到类似性能则需要多达 32 个 GPU。

来自 Hugging Face
特定基准测试中的表现
指令微调版本 Gemma 3 27B IT 在一系列评估中取得了具有竞争力的结果,往往能与 ** 闭源的 Gemini 模型**相媲美:
| **基准测试 ** | ** 分数 ** | ** 描述** |
|---|---|---|
| MMLU-Pro | 67.5 | 在多任务语言理解方面表现强劲。 |
| LiveCodeBench | 29.7 | 在实时编程挑战中表现中等。 |
| Bird-SQL | 54.4 | 在 SQL 查询生成与理解方面具有竞争力。 |
| GPQA Diamond | 42.4 | 在通用问答方面表现扎实。 |
| MATH | 69.0 | 擅长解决复杂数学问题。 |
| FACTS Grounding | 74.9 | 在基于知识的任务中具有出色的事实依据和准确性。 |
| MMMU | 64.9 | 在多模态理解任务中表现强劲。 |
| SimpleQA | 10.0 | 在基于事实的基础问答中表现较低,有待改进。 |
Gemma 3 27B 硬件要求
Gemma 3 27B 被描述为 “可以在单个 GPU 上运行的最强模型”!
来自 Google
| **配置 ** | **VRAM 需求 ** | ** 备注** |
|---|---|---|
| 云部署 | 约 80GB VRAM(单/多 GPU) | 推荐使用 A100 或 H100 GPU 以获得最佳云部署性能。或 RTX 4090 24GB(x3) |
| Apple Silicon | 通过 mlx-vlm 支持 Gemma 3 4B | Gemma 3 4B 在 mlx-vlm(一个用于在 Apple Silicon 设备(包括 Mac 和 iPhone)上运行视觉语言模型的开源库)中从发布日起即获支持。 |
Gemma 3 27B 测试
代码
提示: 创建一个由字母组成的旋转 3D 球的 JavaScript 模拟。最近的字母应使用更亮的颜色,而最远的字母应为灰色。
输出: 模型似乎没有完全遵循提示。相反,它生成了一个带有字母的旋转环。另外,前两次预览因亮度不足而失败。

推理
提示: 你一开始有 14 个苹果。Emma 拿走 3 个,但还回 2 个。你掉了 7 个,又捡起 4 个。Leo 拿走 4 个,给出 5 个。你从 Emma 那里拿走 1 个苹果,用它向 Leo 交换 3 个苹果,然后把那 3 个苹果给 Emma,Emma 给你 1 个苹果和 1 个橙子。Zara 拿走你的苹果,给你一个梨。你用那个梨向 Leo 换了一个苹果。后来,Zara 用苹果换了一个橙子,然后又和你交换另一个苹果。你现在有多少个梨?只回答问的问题。
输出: 在几秒钟内,它高效地分析了所有场景并准确计算出了梨的总数。

图像分析
提示: 告诉我 Gemma 2 27B 到 Gemma 3 27B 的 elo 评分提高了多少倍?

来自 Google
输出: 准确识别了数字,但没有按照提示计算倍数,只计算了差值。
根据图片,以下是计算过程:
- Gemma 2 27B Elo 评分: 1220
- Gemma 3 27B Elo 评分: 1338
增加量: 1338 - 1220 = 118
Elo 评分从 Gemma 2 27B 到 Gemma 3 27B 增加了 118 分。
如何访问 Gemma 3 27B?
Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的简便方式,同时也提供经济实惠且可靠的 GPU 云来构建和扩展应用。
第 1 步:登录并访问模型库
登录您的账户,点击 “模型库” 按钮。

第 2 步:开始免费试用
开始免费试用,探索所选模型的能力。

第 3 步:获取 API 密钥
为了验证 API,我们将为您提供一个新的 API 密钥。进入 “设置” 页面,即可复制图片中所示的 API 密钥。

第 4 步:安装 API
使用您的编程语言对应的包管理器安装 API。

安装完成后,将必要的库导入您的开发环境。使用您的 API 密钥初始化 API,开始与 Novita AI LLM 交互。以下是 Python 用户使用聊天补全 API 的示例。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "google/gemma-3-27b-it"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Gemma 3 27B 是 Google 出品的一款强大开源模型,提供强大的推理能力、多模态功能、多语言支持,并能轻松集成到 Hugging Face 等平台,同时可在消费级硬件上运行。
常见问题
Gemma 3 27B 有多少参数?
Gemma 3 27B 拥有 270 亿参数。
Gemma 3 27B 是多模态的吗?
是的,它同时支持图像和文本输入。
运行 Gemma 3 27B 建议使用什么硬件?
在本地使用,建议使用 至少 24GB VRAM 的 GPU,更大的上下文窗口需要更多 VRAM。也可以部署在 Hugging Face Inference Endpoints 等云平台上,有多种 GPU 可选。或者您可以选择像 Novita AI 这样高效的 API 来使用它!
Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的简便方式,同时也提供经济实惠且可靠的 GPU 云来构建和扩展应用。
