Gemma 3 27B en Novita AI: ¿Realmente un modelo para una sola GPU?

Tabla de contenido

¿Qué es Gemma 3 27B?
Benchmark de Gemma 3 27B
Requisitos de hardware de Gemma 3 27B
Prueba de Gemma 3 27B
¿Cómo acceder a Gemma 3 27B?
Preguntas frecuentes

Puntos clave

Multimodal, multilingüe, contexto largo: Gemma 3 27B procesa texto e imágenes, admite más de 140 idiomas y maneja hasta 128K tokens para entradas largas.

Puntuación Elo: Logró una puntuación Elo de 1339, situándose entre los 10 mejores modelos a nivel mundial.

Compatibilidad con una sola GPU: Ofrece un rendimiento superior en una sola GPU NVIDIA H100, superando a competidores que requieren múltiples GPUs.

Acceso en Novita AI: Novita AI ofrece una API rentable y un playground gratuito para explorar las capacidades de Gemma 3 27B—¡pruébalo ahora!

Publicado el 12 de marzo de 2025, Gemma 3 27B es una incorporación significativa a la oferta de modelos de lenguaje grandes de código abierto de Google. Como el modelo más grande de la familia Gemma 3, además de las variantes ajustadas por instrucciones con funcionalidades específicas, busca brindar un equilibrio entre rendimiento y accesibilidad. Este artículo ofrece una visión práctica y técnica de Gemma 3 27B, detallando su arquitectura, capacidades, rendimiento en benchmarks y pruebas prácticas, consideraciones de hardware y métodos de acceso.

¿Qué es Gemma 3 27B?

Características destacadas

Soporte multilingüe avanzado: Con su nuevo tokenizador, Gemma 3 es altamente efectivo en más de 140 idiomas.

Entrada multimodal: La capacidad de procesar tanto imágenes como texto lo convierte en una herramienta versátil para una variedad de aplicaciones.

Ventana de contexto extendida: La capacidad de 128K tokens permite manejar entradas extensas y detalladas.

Código abierto y orientado a la comunidad: Al ser de código abierto, el modelo fomenta la experimentación comunitaria y una adopción amplia.

Fecha de lanzamiento, tamaño del modelo, Código abierto

12 de marzo de 2025
27 mil millones de parámetros
Este tamaño posiciona a Gemma 3 como un modelo sustancial capaz de manejar tareas complejas y diversas de manera efectiva.
Modelo abierto: Publicado como modelo de código abierto por Google.

Idiomas compatibles

Admite más de 140 idiomas
- Cuenta con un nuevo tokenizador diseñado para un mejor soporte multilingüe, lo que lo hace muy versátil en aplicaciones globales.

Arquitectura del modelo

Tecnología: Construido con la misma investigación y tecnología que impulsan los modelos Gemini 2.0 de Google.
Entrenamiento:
- Entrenado con 14 billones de tokens usando TPUs de Google.
- Aprovechó el Framework JAX para un entrenamiento eficiente y escalable.
- Técnicas utilizadas:
  - Destilación
  - Aprendizaje por refuerzo (incluyendo RLHF, RLMF, RLEF)
  - Fusión de modelos
- Estas técnicas mejoran el rendimiento del modelo en áreas críticas como matemáticas, codificación y seguimiento de instrucciones.

Capacidad multimodal

Multimodal: Sí
- Procesa imágenes y texto como entrada y genera salida de texto.
Codificador de visión: Basado en SigLIP.

Ventana de contexto

128K tokens
- Permite al modelo procesar y comprender grandes cantidades de información para tareas sofisticadas.
- Detalles del preentrenamiento:
  - Inicialmente preentrenado con secuencias de 32k y luego escalado a 128k.
  - Logrado mediante ajustes en las incrustaciones posicionales usando RoPE (Rotary Positional Embeddings).

Precisión de cuantización

Precisión de entrenamiento predeterminada: bfloat16
- Nota de rendimiento: Los modelos funcionan mejor con bfloat16, y la calidad puede degradarse con otras precisiones.
Opciones de cuantización:
- Experimentos comunitarios con niveles de cuantización como Q8 gguf quant, EXL2 e IQ4_XS para optimizar el uso de VRAM.

Nivel de precisión	Solo pesos (GB)	Pesos + almacenamiento en caché KV (GB)
bf16 (sin procesar)	54.0	72.7
INT4	14.1	32.8
INT4 (bloques=32)	15.3	34.0
SFP8	27.4	46.1

Benchmark de Gemma 3 27B

Rendimiento en chat

Gemma 3 27B ha demostrado capacidades sobresalientes en evaluaciones recientes, logrando una puntuación Elo de 1339 en LMSys Chatbot Arena. Este rendimiento lo sitúa entre los 10 mejores modelos, incluidos los principales modelos de código cerrado como o1-preview, y destaca su solidez en evaluaciones de preferencia humana. Además, Gemma 3 27B alcanza esta alta puntuación requiriendo solo una GPU NVIDIA H100, a diferencia de competidores que dependen de hasta 32 GPUs para un rendimiento similar.

De Hugging Face

Rendimiento en benchmarks específicos

La versión ajustada por instrucciones, Gemma 3 27B IT, obtuvo resultados competitivos en una variedad de evaluaciones, a menudo rivalizando con los modelos Gemini cerrados:

Benchmark	Puntuación	Descripción
MMLU-Pro	67.5	Rendimiento sólido en comprensión del lenguaje multitarea.
LiveCodeBench	29.7	Éxito moderado en desafíos de codificación en vivo.
Bird-SQL	54.4	Resultados competitivos en generación y comprensión de consultas SQL.
GPQA Diamond	42.4	Rendimiento sólido en respuestas a preguntas de propósito general.
MATH	69.0	Destaca en la resolución de problemas matemáticos complejos.
FACTS Grounding	74.9	Excelente fundamentación fáctica y precisión en tareas basadas en conocimiento.
MMMU	64.9	Rendimiento sólido en tareas de comprensión multimodal.
SimpleQA	10.0	Rendimiento más bajo en respuestas a preguntas básicas de hechos, lo que deja margen de mejora.

Requisitos de hardware de Gemma 3 27B

¡Gemma 3 27B se describe como el “modelo más capaz que puedes ejecutar en una sola GPU” !

De Google

Configuración	Requisito de VRAM	Notas
Implementación en la nube	Aproximadamente 80 GB de VRAM (una o varias GPUs)	Se recomiendan GPUs A100 o H100 para un rendimiento óptimo en la nube. O RTX 4090 24 GB (x3)
Apple Silicon	Gemma 3 4B compatible mediante mlx-vlm	Gemma 3 4B se envía con soporte desde el primer día en mlx-vlm, una librería de código abierto para ejecutar modelos de visión-lenguaje en dispositivos Apple Silicon, incluidas Macs y iPhones.

Prueba de Gemma 3 27B

Código

Prompt: Crea una simulación en JavaScript de una esfera 3D giratoria compuesta por letras del alfabeto. Las letras más cercanas deben tener un color más brillante, mientras que las más lejanas deben aparecer en color gris.

Salida: Parece que el modelo no siguió completamente el prompt. En su lugar, generó un anillo giratorio con letras. Además, las dos primeras vistas previas fallaron debido a un brillo insuficiente.

Razonamiento

Prompt: Empiezas con 14 manzanas. Emma toma 3 pero devuelve 2. Se te caen 7 y recoges 4. Leo toma 4 y da 5. Tomas 1 manzana de Emma y la cambias con Leo por 3 manzanas, luego le das esas 3 a Emma, quien te da una manzana y una naranja. Zara toma tu manzana y te da una pera. Cambias la pera con Leo por una manzana. Más tarde, Zara cambia una manzana por una naranja y la intercambia contigo por otra manzana. ¿Cuántas peras tienes? Responde solo lo que se pregunta.

Salida: En cuestión de segundos, analizó eficientemente todos los escenarios y calculó con precisión el número total de peras.

Análisis de imagen

Prompt: Dime cuántas veces aumentó la puntuación Elo de gemma 2 27b a gemma 3 27b?

De Google

Salida: Identificó correctamente los números pero no calculó los múltiplos como indicaba el prompt; en su lugar, solo calculó la diferencia.

Basado en la imagen, aquí está el cálculo:

Puntuación Elo de Gemma 2 27B: 1220

Puntuación Elo de Gemma 3 27B: 1338

Incremento: 1338 - 1220 = 118

La puntuación Elo aumentó en 118 puntos de Gemma 2 27B a Gemma 3 27B.

¿Cómo acceder a Gemma 3 27B?

Novita AI es una plataforma en la nube de IA que ofrece a los desarrolladores una forma sencilla de implementar modelos de IA mediante nuestra API simple, al mismo tiempo que proporciona la nube de GPU asequible y confiable para construir y escalar.

Paso 1: Inicia sesión y accede a la Biblioteca de Modelos

Inicia sesión en tu cuenta y haz clic en el botón Biblioteca de Modelos.

¡Prueba la Demo de Gemma 3 27B ahora!

Paso 2: Comienza tu prueba gratuita

Comienza tu prueba gratuita para explorar las capacidades del modelo seleccionado.

Paso 3: Obtén tu clave API

Para autenticarte con la API, te proporcionaremos una nueva clave API. Ingresa a la página de “Configuración” y copia la clave API como se indica en la imagen.

Paso 4: Instala la API

Instala la API usando el gestor de paquetes específico de tu lenguaje de programación.

Después de la instalación, importa las librerías necesarias en tu entorno de desarrollo. Inicializa la API con tu clave API para comenzar a interactuar con Novita AI LLM. Este es un ejemplo de uso de la API de completaciones de chat para usuarios de Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<TU Clave API de Novita AI>",
)

model = "google/gemma-3-27b-it"
stream = True # o False
max_tokens = 2048
system_content = """Sé un asistente útil"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "¡Hola!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Gemma 3 27B es un potente modelo de código abierto de Google que ofrece un sólido razonamiento, capacidades multimodales, soporte multilingüe y una fácil integración con plataformas como Hugging Face, todo mientras se ejecuta en hardware de consumo.

Preguntas frecuentes

¿Cuántos parámetros tiene Gemma 3 27B?

Gemma 3 27B tiene 27 mil millones de parámetros.

¿Gemma 3 27B es multimodal?

Sí, admite entradas de imagen y texto.

¿Qué hardware se recomienda para ejecutar Gemma 3 27B?

Para uso local, se recomienda una GPU con al menos 24 GB de VRAM, siendo beneficioso más VRAM para tamaños de contexto más grandes. También se puede implementar en plataformas en la nube como Hugging Face Inference Endpoints con varias opciones de GPU. O puedes elegir una API efectiva como Novita AI para usarlo.

Novita AI es una plataforma en la nube de IA que ofrece a los desarrolladores una forma sencilla de implementar modelos de IA mediante nuestra API simple, al mismo tiempo que proporciona una nube de GPU asequible y confiable para construir y escalar.

Gemma 3 27B en Novita AI: ¿Realmente un modelo para una sola GPU?

Puntos clave

¿Qué es Gemma 3 27B?

Características destacadas

Fecha de lanzamiento, tamaño del modelo, Código abierto

Idiomas compatibles

Arquitectura del modelo

Capacidad multimodal

Ventana de contexto

Precisión de cuantización

Benchmark de Gemma 3 27B

Rendimiento en chat

Rendimiento en benchmarks específicos

Requisitos de hardware de Gemma 3 27B

Prueba de Gemma 3 27B

Código

Razonamiento

Análisis de imagen

¿Cómo acceder a Gemma 3 27B?

Paso 1: Inicia sesión y accede a la Biblioteca de Modelos

Paso 2: Comienza tu prueba gratuita

Paso 3: Obtén tu clave API

Paso 4: Instala la API

Preguntas frecuentes

Lectura recomendada

Product

RESOURCES

Partners

Company

Puntos clave

¿Qué es Gemma 3 27B?

Características destacadas

Fecha de lanzamiento, tamaño del modelo, Código abierto

Idiomas compatibles

Arquitectura del modelo

Capacidad multimodal

Ventana de contexto

Precisión de cuantización

Benchmark de Gemma 3 27B

Rendimiento en chat

Rendimiento en benchmarks específicos

Requisitos de hardware de Gemma 3 27B

Prueba de Gemma 3 27B

Código

Razonamiento

Análisis de imagen

¿Cómo acceder a Gemma 3 27B?

Paso 1: Inicia sesión y accede a la Biblioteca de Modelos

Paso 2: Comienza tu prueba gratuita

Paso 3: Obtén tu clave API

Paso 4: Instala la API

Preguntas frecuentes

Lectura recomendada

Publicaciones relacionadas

Product

RESOURCES

Partners

Company