Gemma 3 27B 在 Novita AI 上：真的是单GPU模型吗？

什么是 Gemma 3 27B？
Gemma 3 27B 基准测试
Gemma 3 27B 硬件要求
Gemma 3 27B 测试
如何访问 Gemma 3 27B？
常见问题

关键亮点

多模态、多语言、长上下文：Gemma 3 27B 可处理文本和图像，支持 140 多种语言，并支持最长 128K token 的长输入。

Elo 评分：Elo 评分达 1339，位居全球模型前十。

单 GPU 兼容性：在单个 NVIDIA H100 GPU 上即可发挥顶级性能，而同类竞品需要多个 GPU。

通过 Novita AI 访问：Novita AI 提供经济高效的 API 和免费体验区，让您探索 Gemma 3 27B 的能力——立即试用！

2025 年 3 月 12 日发布的 Gemma 3 27B 是 Google 开源大语言模型产品线的重要成员。作为 Gemma 3 系列中最大的模型（除具有特定功能的指令微调变体外），它旨在实现性能与可访问性的平衡。本文对 Gemma 3 27B 进行实用且技术性的概述，详细介绍其架构、能力、基准测试及实际测试表现、硬件要求以及访问方式。

什么是 Gemma 3 27B？

显著特性

先进的多语言支持：借助新分词器，Gemma 3 在 140 多种语言上表现高效。

多模态输入：能够同时处理图像和文本，使其成为多种应用场景的多功能工具。

扩展上下文窗口：128K token 容量使其能够处理大量且详细的输入。

开源且社区友好：开源特性鼓励社区进行实验和广泛采用。

发布日期、模型尺寸、开源

2025 年 3 月 12 日
270 亿参数
这一规模使 Gemma 3 成为一个能够有效处理复杂且多样化任务的重要模型。
开放模型：由 Google 作为开源模型发布。

支持的语言

支持超过 140 种语言
- 采用专为更好的 多语言支持 而设计的 新分词器，使其在全球应用中具有高度通用性。

模型架构

**技术 **：基于为 Google Gemini 2.0 模型 提供支持的相同研究和构建技术。
训练：
- 使用 Google TPU 在 14 万亿 token 上进行训练。
- 利用 JAX 框架 实现高效且可扩展的训练。
- 使用的技术：
  - 蒸馏
  - 强化学习（包括 RLHF、RLMF、RLEF）
  - 模型合并
- 这些技术在数学、** 编码和指令遵循**等关键领域提升了模型性能。

多模态能力

多模态：是
- 处理 图像和文本作为输入，并生成 ** 文本输出**。
**视觉编码器 **：基于 SigLIP。

上下文窗口

128K token
- 允许模型处理和理解 大量信息，以完成复杂任务。
- 预训练细节：
  - 初始使用 **32k 序列 ** 预训练，后扩展至 128k。
  - 通过使用 RoPE（旋转位置编码） 调整 ** 位置嵌入**实现。

量化精度

默认训练精度：bfloat16
- **性能说明 **：模型在 bfloat16 下表现最佳，使用其他精度时质量可能会下降。
量化选项：
- 社区尝试了诸如 Q8 gguf quant、EXL2 和 IQ4_XS 等量化级别，以优化 VRAM 使用。

精度级别	仅权重 (GB)	权重 + KV 缓存 (GB)
bf16 (原始)	54.0	72.7
INT4	14.1	32.8
INT4 (blocks=32)	15.3	34.0
SFP8	27.4	46.1

Gemma 3 27B 基准测试

聊天性能

Gemma 3 27B 在最近的评估中展现了卓越能力，在 LMSys Chatbot Arena 中取得了 Elo 评分 1339。这一表现使其跻身包括领先闭源模型 o1-preview 在内的 ** 前十最佳模型 之列，彰显了其在人类偏好评估中的优势。此外，Gemma 3 27B 仅需 ** 单个 NVIDIA H100 GPU 即可达到此高分，而同类竞品若要达到类似性能则需要多达 32 个 GPU。

来自 Hugging Face

特定基准测试中的表现

指令微调版本 Gemma 3 27B IT 在一系列评估中取得了具有竞争力的结果，往往能与 ** 闭源的 Gemini 模型**相媲美：

基准测试	分数	描述
MMLU-Pro	67.5	在多任务语言理解方面表现强劲。
LiveCodeBench	29.7	在实时编程挑战中表现中等。
Bird-SQL	54.4	在 SQL 查询生成与理解方面具有竞争力。
GPQA Diamond	42.4	在通用问答方面表现扎实。
MATH	69.0	擅长解决复杂数学问题。
FACTS Grounding	74.9	在基于知识的任务中具有出色的事实依据和准确性。
MMMU	64.9	在多模态理解任务中表现强劲。
SimpleQA	10.0	在基于事实的基础问答中表现较低，有待改进。

Gemma 3 27B 硬件要求

Gemma 3 27B 被描述为 “可以在单个 GPU 上运行的最强模型”！

来自 Google

配置	VRAM 需求	备注
云部署	约 80GB VRAM（单/多 GPU）	推荐使用 A100 或 H100 GPU 以获得最佳云部署性能。或 RTX 4090 24GB（x3）
Apple Silicon	通过 mlx-vlm 支持 Gemma 3 4B	Gemma 3 4B 在 mlx-vlm（一个用于在 Apple Silicon 设备（包括 Mac 和 iPhone）上运行视觉语言模型的开源库）中从发布日起即获支持。

Gemma 3 27B 测试

代码

提示： 创建一个由字母组成的旋转 3D 球的 JavaScript 模拟。最近的字母应使用更亮的颜色，而最远的字母应为灰色。

输出： 模型似乎没有完全遵循提示。相反，它生成了一个带有字母的旋转环。另外，前两次预览因亮度不足而失败。

推理

提示： 你一开始有 14 个苹果。Emma 拿走 3 个，但还回 2 个。你掉了 7 个，又捡起 4 个。Leo 拿走 4 个，给出 5 个。你从 Emma 那里拿走 1 个苹果，用它向 Leo 交换 3 个苹果，然后把那 3 个苹果给 Emma，Emma 给你 1 个苹果和 1 个橙子。Zara 拿走你的苹果，给你一个梨。你用那个梨向 Leo 换了一个苹果。后来，Zara 用苹果换了一个橙子，然后又和你交换另一个苹果。你现在有多少个梨？只回答问的问题。

输出： 在几秒钟内，它高效地分析了所有场景并准确计算出了梨的总数。

图像分析

提示： 告诉我 Gemma 2 27B 到 Gemma 3 27B 的 elo 评分提高了多少倍？

来自 Google

输出： 准确识别了数字，但没有按照提示计算倍数，只计算了差值。

根据图片，以下是计算过程：

Gemma 2 27B Elo 评分： 1220

Gemma 3 27B Elo 评分： 1338

增加量： 1338 - 1220 = 118

Elo 评分从 Gemma 2 27B 到 Gemma 3 27B 增加了 118 分。

如何访问 Gemma 3 27B？

Novita AI 是一个 AI 云平台，为开发者提供通过简单 API 部署 AI 模型的简便方式，同时也提供经济实惠且可靠的 GPU 云来构建和扩展应用。

第 1 步：登录并访问模型库

登录您的账户，点击 “模型库” 按钮。

立即试用 Gemma 3 27B！

第 2 步：开始免费试用

开始免费试用，探索所选模型的能力。

第 3 步：获取 API 密钥

为了验证 API，我们将为您提供一个新的 API 密钥。进入 “设置” 页面，即可复制图片中所示的 API 密钥。

第 4 步：安装 API

使用您的编程语言对应的包管理器安装 API。

安装完成后，将必要的库导入您的开发环境。使用您的 API 密钥初始化 API，开始与 Novita AI LLM 交互。以下是 Python 用户使用聊天补全 API 的示例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "google/gemma-3-27b-it"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Gemma 3 27B 是 Google 出品的一款强大开源模型，提供强大的推理能力、多模态功能、多语言支持，并能轻松集成到 Hugging Face 等平台，同时可在消费级硬件上运行。

常见问题

Gemma 3 27B 有多少参数？

Gemma 3 27B 拥有 270 亿参数。

Gemma 3 27B 是多模态的吗？

是的，它同时支持图像和文本输入。

运行 Gemma 3 27B 建议使用什么硬件？

在本地使用，建议使用 至少 24GB VRAM 的 GPU，更大的上下文窗口需要更多 VRAM。也可以部署在 Hugging Face Inference Endpoints 等云平台上，有多种 GPU 可选。或者您可以选择像 Novita AI 这样高效的 API 来使用它！

Novita AI 是一个 AI 云平台，为开发者提供通过简单 API 部署 AI 模型的简便方式，同时也提供经济实惠且可靠的 GPU 云来构建和扩展应用。

Gemma 3 27B 在 Novita AI 上：真的是单GPU模型吗？

关键亮点

什么是 Gemma 3 27B？