주요 하이라이트
멀티모달, 다국어, 긴 컨텍스트: Gemma 3 27B는 텍스트와 이미지를 처리하고, 140개 이상의 언어를 지원하며, 최대 128K 토큰의 긴 입력을 처리할 수 있습니다.
Elo 점수: 1339의 Elo 점수를 달성하여 전 세계 상위 10개 모델에 포함되었습니다.
단일 GPU 호환성: 단일 NVIDIA H100 GPU에서 최고 성능을 제공하며, 여러 GPU가 필요한 경쟁 제품보다 뛰어납니다.
Novita AI 액세스: Novita AI는 비용 효율적인 API와 무료 플레이그라운드를 제공하여 Gemma 3 27B의 기능을 탐색할 수 있습니다. 지금 사용해보세요!
2025년 3월 12일에 출시된 Gemma 3 27B 는 Google의 오픈소스 대규모 언어 모델 제품군에 중요한 추가 사항입니다. 특정 기능을 갖춘 명령어 튜닝 변형 외에도 Gemma 3 제품군 중 가장 큰 모델로서 성능과 접근성의 균형을 목표로 합니다. 이 글에서는 Gemma 3 27B의 아키텍처, 기능, 벤치마크 및 실제 테스트 성능, 하드웨어 고려 사항 및 액세스 방법에 대한 실용적이고 기술적인 개요를 제공합니다.
Gemma 3 27B란 무엇인가?
주목할 만한 기능
- 향상된 다국어 지원: 새로운 토크나이저를 통해 Gemma 3는 140개 이상의 언어에서 매우 효과적입니다.
- 멀티모달 입력: 이미지와 텍스트를 모두 처리할 수 있어 다양한 애플리케이션에 활용할 수 있는 다목적 도구입니다.
- 확장된 컨텍스트 윈도우: 128K 토큰 용량으로 광범위하고 세부적인 입력을 처리할 수 있습니다.
- 오픈소스 및 커뮤니티 친화적: 오픈소스 모델로서 커뮤니티의 실험과 광범위한 채택을 장려합니다.
**출시일, 모델 크기 , ** 오픈소스
- 2025년 3월 12일
- 270억 개의 매개변수
이 크기는 Gemma 3를 복잡하고 다양한 작업을 효과적으로 처리할 수 있는 강력한 모델로 자리매김하게 합니다. - 오픈 모델: Google이 오픈소스 모델로 공개했습니다.
지원 언어
-
140개 이상의 언어 지원
- 글로벌 애플리케이션에서 매우 다재다능하게 사용할 수 있도록 **향상된 다국어 지원 ** 을 위해 설계된 새로운 토크나이저 를 특징으로 합니다.
모델 아키텍처
- **기술 **: Google의 Gemini 2.0 모델 을 구동하는 동일한 연구 및 기술을 기반으로 구축되었습니다.
- 학습:
- Google TPU 를 사용하여 14조 개의 토큰 으로 학습되었습니다.
- 효율적이고 확장 가능한 학습을 위해 JAX Framework 를 활용했습니다.
- 사용된 기법:
- 증류(Distillation)
- 강화 학습(RLHF, RLMF, RLEF 포함)
- 모델 병합(Model Merging)
- 이러한 기법은 **수학 , ** 코딩 ** 및 ** 명령어 따르기와 같은 중요한 영역에서 모델 성능을 향상시킵니다.
멀티모달 기능
- 멀티모달: 예
- **이미지와 텍스트를 모두 입력 ** 으로 처리하고 텍스트 출력 을 생성합니다.
- **비전 인코더 **: SigLIP 기반.
컨텍스트 윈도우
-
128K 토큰
- 모델이 정교한 작업을 위해 많은 양의 정보 를 처리하고 이해할 수 있도록 합니다.
- 사전 학습 세부사항:
- 처음에는 **32k 시퀀스 ** 로 사전 학습된 후 128k 로 확장되었습니다.
- RoPE(Rotary Positional Embeddings) 를 사용한 ** 위치 임베딩** 조정을 통해 달성되었습니다.
양자화 정밀도
-
기본 학습 정밀도: bfloat16
- **성능 참고 **: 모델은 bfloat16 에서 가장 잘 작동하며, 다른 정밀도에서는 품질이 저하될 수 있습니다.
-
양자화 옵션:
- 커뮤니티에서는 VRAM 사용량을 최적화하기 위해 Q8 gguf quant, EXL2, IQ4_XS 와 같은 양자화 수준을 실험하고 있습니다.
| 정밀도 수준 | 가중치 전용(GB) | 가중치 + KV 캐싱(GB) |
|---|---|---|
| bf16 (원본) | 54.0 | 72.7 |
| INT4 | 14.1 | 32.8 |
| INT4 (blocks=32) | 15.3 | 34.0 |
| SFP8 | 27.4 | 46.1 |
Gemma 3 27B 벤치마크
채팅 성능
Gemma 3 27B는 최근 평가에서 뛰어난 능력을 입증하며 LMSys Chatbot Arena에서 **1339의 Elo 점수 ** 를 달성했습니다. 이 성능은 선도적인 폐쇄형 소스 모델인 o1-preview 를 포함한 **상위 10개 모델 ** 에 포함되며, 인간 선호도 평가에서의 강점을 강조합니다. 또한 Gemma 3 27B는 단일 NVIDIA H100 GPU 만 필요로 하는 반면, 경쟁사는 유사한 성능을 위해 최대 32개의 GPU 에 의존합니다.

출처: Hugging Face
특정 벤치마크 성능
명령어 튜닝 버전인 Gemma 3 27B IT 는 다양한 평가에서 경쟁력 있는 결과를 얻었으며, 종종 폐쇄형 Gemini 모델 과 견줄만한 성능을 보여주었습니다.
| **벤치마크 ** | ** 점수 ** | ** 설명** |
|---|---|---|
| MMLU-Pro | 67.5 | 다중 작업 언어 이해에서 강력한 성능. |
| LiveCodeBench | 29.7 | 라이브 코딩 챌린지에서 적당한 성공을 보여줍니다. |
| Bird-SQL | 54.4 | SQL 쿼리 생성 및 이해에서 경쟁력 있는 결과. |
| GPQA Diamond | 42.4 | 일반 목적 질문 응답에서 견고한 성능. |
| MATH | 69.0 | 복잡한 수학 문제 해결에 탁월함. |
| FACTS Grounding | 74.9 | 지식 기반 작업에서 뛰어난 사실 기반 근거 및 정확성. |
| MMMU | 64.9 | 멀티모달 이해 작업에서 강력한 성능. |
| SimpleQA | 10.0 | 기본적인 사실 기반 질문 응답에서 낮은 성능, 개선 여지가 있음. |
Gemma 3 27B 하드웨어 요구 사항
Gemma 3 27B는 “단일 GPU에서 실행할 수 있는 가장 강력한 모델” 로 설명됩니다!
출처: Google
| **설정 ** | **VRAM 요구 사항 ** | ** 참고 사항** |
|---|---|---|
| 클라우드 배포 | 약 80GB VRAM(단일/다중 GPU) | 최적의 클라우드 배포 성능을 위해 A100 또는 H100 GPU를 권장합니다. 또는 RTX 4090 24GB(x3) |
| Apple Silicon | mlx-vlm을 통해 Gemma 3 4B 지원 | Gemma 3 4B는 Mac 및 iPhone을 포함한 Apple Silicon 기기에서 비전-언어 모델을 실행하기 위한 오픈소스 라이브러리인 mlx-vlm 에서 출시일부터 지원됩니다. |
Gemma 3 27B 테스트
코드
프롬프트: 알파벳으로 구성된 회전하는 3D 구체의 JavaScript 시뮬레이션을 생성하세요. 가장 가까운 글자는 더 밝은 색상으로, 가장 먼 글자는 회색으로 표시되어야 합니다.
출력: 모델이 프롬프트를 완전히 따르지 않은 것으로 보입니다. 대신 알파벳이 있는 회전하는 링을 생성했습니다. 또한 처음 두 번의 미리보기는 밝기가 충분하지 않아 실패했습니다.

추론
프롬프트: 사과 14개로 시작합니다. Emma가 3개를 가져가지만 2개를 돌려줍니다. 당신은 7개를 떨어뜨리고 4개를 줍습니다. Leo가 4개를 가져가고 5개를 줍니다. 당신은 Emma에게서 사과 1개를 가져와 Leo와 교환하여 사과 3개를 얻은 후, 그 3개를 Emma에게 주고, Emma는 당신에게 사과 1개와 오렌지 1개를 줍니다. Zara가 당신의 사과를 가져가고 배를 줍니다. 당신은 배를 Leo와 교환하여 사과를 얻습니다. 나중에 Zara가 사과를 오렌지와 교환하고 당신과 다시 다른 사과로 교환합니다. 당신은 배를 몇 개 가지고 있습니까? 질문한 내용만 답하세요.
출력: 몇 초 만에 모든 시나리오를 효율적으로 분석하고 총 배 개수를 정확히 계산했습니다.

이미지 분석
프롬프트: Gemma 2 27B에서 Gemma 3 27B로 Elo 점수가 몇 배 증가했는지 알려주세요.

출처: Google
출력: 숫자는 정확히 식별했지만 프롬프트에서 지시한 배수는 계산하지 않고 차이만 계산했습니다.
이미지를 기반으로 계산한 내용은 다음과 같습니다.
- Gemma 2 27B Elo 점수: 1220
- Gemma 3 27B Elo 점수: 1338
증가: 1338 - 1220 = 118
Elo 점수가 Gemma 2 27B에서 Gemma 3 27B로 118점 증가했습니다.
Gemma 3 27B에 액세스하는 방법은?
Novita AI는 개발자가 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있도록 하고, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드를 제공하는 AI 클라우드 플랫폼입니다.
1단계: 로그인 및 모델 라이브러리 액세스
계정에 로그인하고 모델 라이브러리 버튼을 클릭합니다.

2단계: 무료 체험 시작
선택한 모델의 기능을 탐색하려면 무료 체험을 시작하세요.

3단계: API 키 받기
API 인증을 위해 새 API 키를 제공합니다. 설정 페이지로 이동하여 이미지에 표시된 대로 API 키를 복사할 수 있습니다.

4단계: API 설치
프로그래밍 언어에 맞는 패키지 관리자를 사용하여 API를 설치합니다.

설치 후 필요한 라이브러리를 개발 환경으로 가져옵니다. API 키로 API를 초기화하여 Novita AI LLM과 상호작용을 시작합니다. 다음은 Python 사용자를 위한 채팅 완성 API 사용 예시입니다.
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "google/gemma-3-27b-it"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Gemma 3 27B는 Google의 강력한 오픈소스 모델로, 강력한 추론, 멀티모달 기능, 다국어 지원, 그리고 Hugging Face와 같은 플랫폼과의 쉬운 통합을 제공하며, 컨슈머급 하드웨어에서도 실행할 수 있습니다.
자주 묻는 질문
Gemma 3 27B에는 몇 개의 매개변수가 있나요?
Gemma 3 27B에는 270억 개의 매개변수 가 있습니다.
Gemma 3 27B는 멀티모달인가요?
네, 이미지와 텍스트 입력을 모두 지원합니다.
Gemma 3 27B를 실행하기 위한 권장 하드웨어는 무엇인가요?
로컬 사용의 경우 최소 24GB VRAM의 GPU 를 권장하며, 더 큰 컨텍스트 크기를 위해서는 더 많은 VRAM이 유리합니다. 또한 Hugging Face Inference Endpoints와 같은 클라우드 플랫폼에서 다양한 GPU 옵션으로 배포할 수 있습니다. 또는 Novita AI와 같은 효과적인 API를 선택하여 사용할 수도 있습니다!
Novita AI는 개발자가 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있도록 하고, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드를 제공하는 AI 클라우드 플랫폼입니다.
