Comment accéder à Gemma 3 27B en local, via API, sur GPU Cloud

Comment accéder à Gemma 3 27B en local, via API, sur GPU Cloud

Points clés

Gemma 3 27B est un LLM open-source et multimodal publié par Google en mars 2025.

Prend en charge plus de 140 langues avec un nouveau tokeniseur et une fenêtre de contexte de 128K tokens.

Gère les entrées texte et image, produit du texte.

Entraîné sur 14 000 milliards de tokens, excelle en mathématiques, code et suivi d’instructions.

Scores de référence : 1339 Elo, 69,0 (MATH), 67,5 (MMLU-Pro).

Peut fonctionner sur un seul NVIDIA H100 ou être déployé via Ollama (local) ou l’API / GPU Cloud Novita AI.

Gemma 3 27B est un LLM puissant et flexible développé par Google. Il combine portée multilingue, entrée multimodale et hautes performances, ce qui le rend idéal pour diverses charges de travail IA, en local ou dans le cloud.

Qu’est-ce que Gemma 3 27B ?

Caractéristiques notables

  • Support multilingue avancé : Grâce à son nouveau tokeniseur, Gemma 3 est très efficace dans plus de 140 langues.
  • Entrée multimodale : La capacité de traiter à la fois les images et le texte en fait un outil polyvalent pour une gamme d’applications.
  • Fenêtre de contexte étendue : La capacité de 128K tokens permet de gérer des entrées longues et détaillées.
  • Open source et convivial pour la communauté : En tant que modèle open source, il encourage l’expérimentation et une large adoption par la communauté.
Catégorie Élément Détails
Infos de base Date de publication 12 mars 2025
Taille du modèle 27 milliards de paramètres
Open source Oui (publié par Google)
Support linguistique Langues multilingues prises en charge Plus de 140 langues
Entraînement Données d’entraînement 14 000 milliards de tokens
Points forts Mathématiques, codage, suivi d’instructions
Multimodal Capacité multimodale Oui (traite images et texte, produit du texte)
Contexte Fenêtre de contexte 128K tokens
Taille du modèle par précision bf16 (brut) Poids : 54,0 Go ; Poids + Cache KV : 72,7 Go
INT4 Poids : 14,1 Go ; Poids + Cache KV : 32,8 Go
INT4 (blocks=32) Poids : 15,3 Go ; Poids + Cache KV : 34,0 Go
SFP8 Poids : 27,4 Go ; Poids + Cache KV : 46,1 Go

Benchmarks de Gemma 3 27B

Benchmark Gemma 3 27B DeepSeek R1 LLaMA 3.3 70B
Score Elo LMSys 1339 ~1360 ~1260
MMLU-Pro 67,5 84,0 66,4
LiveCodeBench 29,7 65,9 ~29
GPQA Diamond 42,4 71,5 50,5
MATH 69,0 97,3 77,0

Comment accéder à Gemma 3 27B en local ?

Configuration matérielle requise

Gemma 3 27B est décrit comme le “modèle le plus performant que vous puissiez exécuter sur un seul GPU” !

ELO SCORE De Google

Configuration VRAM nécessaire Remarques
Déploiement cloud Environ 80 Go de VRAM (mono/multi-GPU) Les GPU A100 ou H100 sont recommandés pour des performances optimales en cloud. Ou RTX 4090 24 Go (x3)
Apple Silicon Gemma 3 4B supporté via mlx-vlm Gemma 3 4B est disponible dès le premier jour dans mlx-vlm, une bibliothèque open-source pour exécuter des modèles vision-langage sur les appareils Apple Silicon, y compris Mac et iPhone.

Processus pas à pas pour installer Gemma 3 27B en local

# Étape 0 : Vérifier le GPU NVIDIA
nvidia-smi

# Étape 1 : Mettre à jour les paquets Ubuntu
apt update

# Étape 2 : Installer les dépendances Ollama pour la détection GPU
apt install pciutils lshw

# Étape 3 : Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Étape 4 : Démarrer le serveur Ollama (exécuter dans un terminal et le laisser ouvert)
ollama serve

# Étape 5 : (Dans un nouveau terminal) Vérifier qu'Ollama fonctionne
ollama

# Étape 6 : Installer les modèles Gemma-3 (choisir une option)

# Exécuter Gemma-3 1B
# ollama run gemma3:1b

# Exécuter Gemma-3 4B
# ollama run gemma3:4b

# Exécuter Gemma-3 12B
# ollama run gemma3:12b

# ✅ Recommandé : Exécuter Gemma-3 27B
ollama run gemma3:27b

# Étape 7 : Interagir avec le modèle directement par invite dans la console
# Exemple :
# Vous êtes un analyste de trading basé sur l'IA spécialisé dans les marchés de crypto-monnaies.
# Votre tâche est de concevoir un agent IA autonome capable de prédire les tendances du marché,
# d'exécuter des transactions et de gérer les risques efficacement. Votre réponse doit inclure :
# - Une stratégie pour analyser les données on-chain + off-chain
# - Le choix du modèle pour la prédiction des prix et le sentiment
# - Un extrait de code Python
# - Des méthodes de gestion des risques
# - Des considérations éthiques

Comment accéder à Gemma 3 27B via l’API Novita ?

Étape 1 : Se connecter et accéder à la bibliothèque de modèles

Connectez-vous à votre compte et cliquez sur le bouton Bibliothèque de modèles.

Se connecter et accéder à la bibliothèque de modèles

Essayez la démo de Gemma 3 27B maintenant !

Étape 2 : Démarrer votre essai gratuit

Commencez votre essai gratuit pour explorer les capacités du modèle sélectionné.

Démarrer un essai gratuit sur Gemma 3

Étape 3 : Obtenir votre clé API

Pour vous authentifier auprès de l’API, nous vous fournirons une nouvelle clé API. Rendez-vous dans la page “Paramètres”, vous pouvez copier la clé API comme indiqué sur l’image.

Obtenir la clé API

Étape 4 : Installer l’API

Installez l’API à l’aide du gestionnaire de paquets spécifique à votre langage de programmation.

Installer l'API sur Gemma 3

Après installation, importez les bibliothèques nécessaires dans votre environnement de développement. Initialisez l’API avec votre clé API pour commencer à interagir avec Novita AI LLM. Voici un exemple d’utilisation de l’API de complétion de chat pour les utilisateurs Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<VOTRE_CLÉ_API_Novita_AI>",
)

model = "google/gemma-3-27b-it"
stream = True # ou False
max_tokens = 2048
system_content = """Soyez un assistant utile"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Bonjour !",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Utiliser Gemma 3 27B via Chatbox

Étape 1 : Installer Chatbox

Utiliser Gemma 3 27B via Chatbox

  1. Sélectionnez l’option “Paramètres”. Ce paramètre garantit la compatibilité avec les API respectant la norme OpenAI API, comme Novita AI.
  2. Remplissez les champs de configuration :
    • URL de base : Entrez https://api.novita.ai/v3/openai.
    • Clé API : Collez votre clé API Novita AI ici.
    • Nom du modèle : Collez le nom du modèle que vous avez copié précédemment (par exemple, google/gemma-3-27b-it).
  3. Une fois la configuration remplie, cliquez sur Terminé.

Utiliser Gemma 3 27B via GPU Cloud

Étape 1 : Créer un compte

Si vous êtes nouveau sur Novita AI, commencez par créer un compte sur notre site web. Une fois inscrit, rendez-vous dans l’onglet “GPUs” pour explorer les ressources disponibles et commencer votre parcours.

Capture d'écran du site Novita AI

Étape 2 : Explorer les modèles et les serveurs GPU

Commencez par sélectionner un modèle correspondant aux besoins de votre projet, comme PyTorch, TensorFlow ou CUDA. Choisissez la version qui correspond à vos exigences, par exemple PyTorch 2.2.1 ou CUDA 11.8.0. Ensuite, sélectionnez la configuration de serveur GPU A100, qui offre des performances puissantes pour gérer des charges de travail exigeantes avec une VRAM, une RAM et une capacité de disque importantes.

Capture d'écran du site Novita AI utilisant GPU Cloud

Essayez les GPU hautes performances de Novita AI

Étape 3 : Personnaliser votre déploiement

Après avoir sélectionné un modèle et un GPU, personnalisez les paramètres de déploiement en ajustant des paramètres comme la version du système d’exploitation (par exemple, CUDA 11.8). Vous pouvez également modifier d’autres configurations pour adapter l’environnement aux besoins spécifiques de votre projet.

Capture d'écran du site Novita AI utilisant GPU Cloud

Étape 4 : Lancer une instance

Une fois que vous avez finalisé le modèle et les paramètres de déploiement, cliquez sur “Lancer l’instance” pour configurer votre instance GPU. Cela démarrera la configuration de l’environnement, vous permettant de commencer à utiliser les ressources GPU pour vos tâches IA.

Capture d'écran du site Novita AI utilisant GPU Cloud

Avec des benchmarks solides et des options de déploiement simples, Gemma 3 27B est un choix de premier ordre pour les développeurs et les chercheurs à la recherche d’outils IA ouverts et de haute qualité.

Foire aux questions

Qu’est-ce que Gemma 3 27B ?

Gemma 3 27B est un modèle de langage de grande taille (LLM) open-source de 27 milliards de paramètres développé par Google. Il prend en charge les entrées multimodales (texte + image), plus de 140 langues et dispose d’une fenêtre de contexte de 128K tokens.

Quels sont les besoins matériels pour exécuter Gemma 3 27B en local ?

Vous aurez besoin d’environ 80 Go de VRAM. Un seul NVIDIA H100 est suffisant. Vous pouvez également l’exécuter avec plusieurs RTX 4090 (par exemple, 3×24 Go).

Existe-t-il une version API de Gemma 3 27B ?

Oui ! Vous pouvez accéder à Gemma 3 27B via l’API Novita AI, qui est entièrement compatible avec la norme API OpenAI.

Novita AI est une plateforme cloud IA qui offre aux développeurs un moyen simple de déployer des modèles IA via notre API, tout en fournissant un GPU cloud abordable et fiable pour construire et faire évoluer.

Lecture recommandée

API simples et GPU évolutif

Novita AI est une plateforme cloud IA qui offre aux développeurs un moyen simple de déployer des modèles IA via notre API, tout en fournissant un GPU cloud abordable et fiable pour construire et faire évoluer.

Essayez la démo de Gemma 3 27B maintenant