Gemma 3 27B 在 Novita AI 上:真的是单GPU模型吗?

Gemma 3 27B 在 Novita AI 上:真的是单GPU模型吗?

关键亮点

多模态、多语言、长上下文:Gemma 3 27B 可处理文本和图像,支持 140 多种语言,并支持最长 128K token 的长输入。

Elo 评分:Elo 评分达 1339,位居全球模型前十。

单 GPU 兼容性:在单个 NVIDIA H100 GPU 上即可发挥顶级性能,而同类竞品需要多个 GPU。

通过 Novita AI 访问Novita AI 提供经济高效的 API 和免费体验区,让您探索 Gemma 3 27B 的能力——立即试用!

2025 年 3 月 12 日发布的 Gemma 3 27B 是 Google 开源大语言模型产品线的重要成员。作为 Gemma 3 系列中最大的模型(除具有特定功能的指令微调变体外),它旨在实现性能与可访问性的平衡。本文对 Gemma 3 27B 进行实用且技术性的概述,详细介绍其架构、能力、基准测试及实际测试表现、硬件要求以及访问方式。

什么是 Gemma 3 27B?

显著特性

  • 先进的多语言支持:借助新分词器,Gemma 3 在 140 多种语言上表现高效。
  • 多模态输入:能够同时处理图像和文本,使其成为多种应用场景的多功能工具。
  • 扩展上下文窗口:128K token 容量使其能够处理大量且详细的输入。
  • 开源且社区友好:开源特性鼓励社区进行实验和广泛采用。

发布日期、模型尺寸 开源

  • 2025 年 3 月 12 日
  • 270 亿参数
    这一规模使 Gemma 3 成为一个能够有效处理复杂且多样化任务的重要模型。
  • 开放模型:由 Google 作为开源模型发布。

支持的语言

  • 支持超过 140 种语言

    • 采用专为更好的 多语言支持 而设计的 新分词器,使其在全球应用中具有高度通用性。

模型架构

  • **技术 **:基于为 Google Gemini 2.0 模型 提供支持的相同研究和构建技术。
  • 训练
    • 使用 Google TPU14 万亿 token 上进行训练。
    • 利用 JAX 框架 实现高效且可扩展的训练。
    • 使用的技术
      • 蒸馏
      • 强化学习(包括 RLHF、RLMF、RLEF)
      • 模型合并
    • 这些技术在 数学、** 编码 指令遵循**等关键领域提升了模型性能。

多模态能力

  • 多模态:是
    • 处理 图像和文本作为输入,并生成 ** 文本输出**。
  • **视觉编码器 **:基于 SigLIP

上下文窗口

  • 128K token

    • 允许模型处理和理解 大量信息,以完成复杂任务。
    • 预训练细节
      • 初始使用 **32k 序列 ** 预训练,后扩展至 128k
      • 通过使用 RoPE(旋转位置编码) 调整 ** 位置嵌入**实现。

量化精度

  • 默认训练精度:bfloat16

    • **性能说明 **:模型在 bfloat16 下表现最佳,使用其他精度时质量可能会下降。
  • 量化选项

    • 社区尝试了诸如 Q8 gguf quantEXL2IQ4_XS 等量化级别,以优化 VRAM 使用。
精度级别 仅权重 (GB) 权重 + KV 缓存 (GB)
bf16 (原始) 54.0 72.7
INT4 14.1 32.8
INT4 (blocks=32) 15.3 34.0
SFP8 27.4 46.1

Gemma 3 27B 基准测试

聊天性能

Gemma 3 27B 在最近的评估中展现了卓越能力,在 LMSys Chatbot Arena 中取得了 Elo 评分 1339。这一表现使其跻身包括领先闭源模型 o1-preview 在内的 ** 前十最佳模型 之列,彰显了其在人类偏好评估中的优势。此外,Gemma 3 27B 仅需 ** 单个 NVIDIA H100 GPU 即可达到此高分,而同类竞品若要达到类似性能则需要多达 32 个 GPU

elo 评分

来自 Hugging Face

特定基准测试中的表现

指令微调版本 Gemma 3 27B IT 在一系列评估中取得了具有竞争力的结果,往往能与 ** 闭源的 Gemini 模型**相媲美:

**基准测试 ** ** 分数 ** ** 描述**
MMLU-Pro 67.5 在多任务语言理解方面表现强劲。
LiveCodeBench 29.7 在实时编程挑战中表现中等。
Bird-SQL 54.4 在 SQL 查询生成与理解方面具有竞争力。
GPQA Diamond 42.4 在通用问答方面表现扎实。
MATH 69.0 擅长解决复杂数学问题。
FACTS Grounding 74.9 在基于知识的任务中具有出色的事实依据和准确性。
MMMU 64.9 在多模态理解任务中表现强劲。
SimpleQA 10.0 在基于事实的基础问答中表现较低,有待改进。

Gemma 3 27B 硬件要求

Gemma 3 27B 被描述为 “可以在单个 GPU 上运行的最强模型”

ELO 评分 来自 Google

**配置 ** **VRAM 需求 ** ** 备注**
云部署 约 80GB VRAM(单/多 GPU) 推荐使用 A100 或 H100 GPU 以获得最佳云部署性能。或 RTX 4090 24GB(x3)
Apple Silicon 通过 mlx-vlm 支持 Gemma 3 4B Gemma 3 4B 在 mlx-vlm(一个用于在 Apple Silicon 设备(包括 Mac 和 iPhone)上运行视觉语言模型的开源库)中从发布日起即获支持。

Gemma 3 27B 测试

代码

提示: 创建一个由字母组成的旋转 3D 球的 JavaScript 模拟。最近的字母应使用更亮的颜色,而最远的字母应为灰色。

输出: 模型似乎没有完全遵循提示。相反,它生成了一个带有字母的旋转环。另外,前两次预览因亮度不足而失败。

gemma 3 27b 代码测试

推理

提示: 你一开始有 14 个苹果。Emma 拿走 3 个,但还回 2 个。你掉了 7 个,又捡起 4 个。Leo 拿走 4 个,给出 5 个。你从 Emma 那里拿走 1 个苹果,用它向 Leo 交换 3 个苹果,然后把那 3 个苹果给 Emma,Emma 给你 1 个苹果和 1 个橙子。Zara 拿走你的苹果,给你一个梨。你用那个梨向 Leo 换了一个苹果。后来,Zara 用苹果换了一个橙子,然后又和你交换另一个苹果。你现在有多少个梨?只回答问的问题。

输出: 在几秒钟内,它高效地分析了所有场景并准确计算出了梨的总数。

图像分析

提示: 告诉我 Gemma 2 27B 到 Gemma 3 27B 的 elo 评分提高了多少倍?

ELO 评分

来自 Google

输出: 准确识别了数字,但没有按照提示计算倍数,只计算了差值。

根据图片,以下是计算过程:

  • Gemma 2 27B Elo 评分: 1220
  • Gemma 3 27B Elo 评分: 1338

增加量: 1338 - 1220 = 118

Elo 评分从 Gemma 2 27B 到 Gemma 3 27B 增加了 118 分。

如何访问 Gemma 3 27B?

Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的简便方式,同时也提供经济实惠且可靠的 GPU 云来构建和扩展应用。

第 1 步:登录并访问模型库

登录您的账户,点击 “模型库” 按钮。

登录并访问模型库

立即试用 Gemma 3 27B!

第 2 步:开始免费试用

开始免费试用,探索所选模型的能力。

在 gemma 3 上开始免费试用

第 3 步:获取 API 密钥

为了验证 API,我们将为您提供一个新的 API 密钥。进入 “设置” 页面,即可复制图片中所示的 API 密钥。

获取 API 密钥

第 4 步:安装 API

使用您的编程语言对应的包管理器安装 API。

在 gemma 3 上安装 api

安装完成后,将必要的库导入您的开发环境。使用您的 API 密钥初始化 API,开始与 Novita AI LLM 交互。以下是 Python 用户使用聊天补全 API 的示例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "google/gemma-3-27b-it"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Gemma 3 27B 是 Google 出品的一款强大开源模型,提供强大的推理能力、多模态功能、多语言支持,并能轻松集成到 Hugging Face 等平台,同时可在消费级硬件上运行。

常见问题

Gemma 3 27B 有多少参数?

Gemma 3 27B 拥有 270 亿参数

Gemma 3 27B 是多模态的吗?

是的,它同时支持图像和文本输入。

运行 Gemma 3 27B 建议使用什么硬件?

在本地使用,建议使用 至少 24GB VRAM 的 GPU,更大的上下文窗口需要更多 VRAM。也可以部署在 Hugging Face Inference Endpoints 等云平台上,有多种 GPU 可选。或者您可以选择像 Novita AI 这样高效的 API 来使用它!

Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的简便方式,同时也提供经济实惠且可靠的 GPU 云来构建和扩展应用。

推荐阅读