Comment accéder à Gemma 3 27B en local, via API, sur GPU Cloud

Table des matières

Qu'est-ce que Gemma 3 27B ?
Comment accéder à Gemma 3 27B en local ?
Comment accéder à Gemma 3 27B via l'API Novita ?
Utiliser Gemma 3 27B via Chatbox
Utiliser Gemma 3 27B via GPU Cloud
Foire aux questions
API simples et GPU évolutif

Points clés

Gemma 3 27B est un LLM open-source et multimodal publié par Google en mars 2025.

Prend en charge plus de 140 langues avec un nouveau tokeniseur et une fenêtre de contexte de 128K tokens.

Gère les entrées texte et image, produit du texte.

Entraîné sur 14 000 milliards de tokens, excelle en mathématiques, code et suivi d’instructions.

Scores de référence : 1339 Elo, 69,0 (MATH), 67,5 (MMLU-Pro).

Peut fonctionner sur un seul NVIDIA H100 ou être déployé via Ollama (local) ou l’API / GPU Cloud Novita AI.

Gemma 3 27B est un LLM puissant et flexible développé par Google. Il combine portée multilingue, entrée multimodale et hautes performances, ce qui le rend idéal pour diverses charges de travail IA, en local ou dans le cloud.

Qu’est-ce que Gemma 3 27B ?

Caractéristiques notables

Support multilingue avancé : Grâce à son nouveau tokeniseur, Gemma 3 est très efficace dans plus de 140 langues.

Entrée multimodale : La capacité de traiter à la fois les images et le texte en fait un outil polyvalent pour une gamme d’applications.

Fenêtre de contexte étendue : La capacité de 128K tokens permet de gérer des entrées longues et détaillées.

Open source et convivial pour la communauté : En tant que modèle open source, il encourage l’expérimentation et une large adoption par la communauté.

Catégorie	Élément	Détails
Infos de base	Date de publication	12 mars 2025
	Taille du modèle	27 milliards de paramètres
	Open source	Oui (publié par Google)
Support linguistique	Langues multilingues prises en charge	Plus de 140 langues
Entraînement	Données d’entraînement	14 000 milliards de tokens
	Points forts	Mathématiques, codage, suivi d’instructions
Multimodal	Capacité multimodale	Oui (traite images et texte, produit du texte)
Contexte	Fenêtre de contexte	128K tokens
Taille du modèle par précision	bf16 (brut)	Poids : 54,0 Go ; Poids + Cache KV : 72,7 Go
	INT4	Poids : 14,1 Go ; Poids + Cache KV : 32,8 Go
	INT4 (blocks=32)	Poids : 15,3 Go ; Poids + Cache KV : 34,0 Go
	SFP8	Poids : 27,4 Go ; Poids + Cache KV : 46,1 Go

Benchmarks de Gemma 3 27B

Benchmark	Gemma 3 27B	DeepSeek R1	LLaMA 3.3 70B
Score Elo LMSys	1339	~1360	~1260
MMLU-Pro	67,5	84,0	66,4
LiveCodeBench	29,7	65,9	~29
GPQA Diamond	42,4	71,5	50,5
MATH	69,0	97,3	77,0

Comment accéder à Gemma 3 27B en local ?

Configuration matérielle requise

Gemma 3 27B est décrit comme le “modèle le plus performant que vous puissiez exécuter sur un seul GPU” !

De Google

Configuration	VRAM nécessaire	Remarques
Déploiement cloud	Environ 80 Go de VRAM (mono/multi-GPU)	Les GPU A100 ou H100 sont recommandés pour des performances optimales en cloud. Ou RTX 4090 24 Go (x3)
Apple Silicon	Gemma 3 4B supporté via mlx-vlm	Gemma 3 4B est disponible dès le premier jour dans mlx-vlm, une bibliothèque open-source pour exécuter des modèles vision-langage sur les appareils Apple Silicon, y compris Mac et iPhone.

Processus pas à pas pour installer Gemma 3 27B en local

# Étape 0 : Vérifier le GPU NVIDIA
nvidia-smi

# Étape 1 : Mettre à jour les paquets Ubuntu
apt update

# Étape 2 : Installer les dépendances Ollama pour la détection GPU
apt install pciutils lshw

# Étape 3 : Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Étape 4 : Démarrer le serveur Ollama (exécuter dans un terminal et le laisser ouvert)
ollama serve

# Étape 5 : (Dans un nouveau terminal) Vérifier qu'Ollama fonctionne
ollama

# Étape 6 : Installer les modèles Gemma-3 (choisir une option)

# Exécuter Gemma-3 1B
# ollama run gemma3:1b

# Exécuter Gemma-3 4B
# ollama run gemma3:4b

# Exécuter Gemma-3 12B
# ollama run gemma3:12b

# ✅ Recommandé : Exécuter Gemma-3 27B
ollama run gemma3:27b

# Étape 7 : Interagir avec le modèle directement par invite dans la console
# Exemple :
# Vous êtes un analyste de trading basé sur l'IA spécialisé dans les marchés de crypto-monnaies.
# Votre tâche est de concevoir un agent IA autonome capable de prédire les tendances du marché,
# d'exécuter des transactions et de gérer les risques efficacement. Votre réponse doit inclure :
# - Une stratégie pour analyser les données on-chain + off-chain
# - Le choix du modèle pour la prédiction des prix et le sentiment
# - Un extrait de code Python
# - Des méthodes de gestion des risques
# - Des considérations éthiques

Comment accéder à Gemma 3 27B via l’API Novita ?

Étape 1 : Se connecter et accéder à la bibliothèque de modèles

Connectez-vous à votre compte et cliquez sur le bouton Bibliothèque de modèles.

Essayez la démo de Gemma 3 27B maintenant !

Étape 2 : Démarrer votre essai gratuit

Commencez votre essai gratuit pour explorer les capacités du modèle sélectionné.

Étape 3 : Obtenir votre clé API

Pour vous authentifier auprès de l’API, nous vous fournirons une nouvelle clé API. Rendez-vous dans la page “Paramètres”, vous pouvez copier la clé API comme indiqué sur l’image.

Étape 4 : Installer l’API

Installez l’API à l’aide du gestionnaire de paquets spécifique à votre langage de programmation.

Après installation, importez les bibliothèques nécessaires dans votre environnement de développement. Initialisez l’API avec votre clé API pour commencer à interagir avec Novita AI LLM. Voici un exemple d’utilisation de l’API de complétion de chat pour les utilisateurs Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<VOTRE_CLÉ_API_Novita_AI>",
)

model = "google/gemma-3-27b-it"
stream = True # ou False
max_tokens = 2048
system_content = """Soyez un assistant utile"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Bonjour !",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Utiliser Gemma 3 27B via Chatbox

Étape 1 : Installer Chatbox

Sélectionnez l’option “Paramètres”. Ce paramètre garantit la compatibilité avec les API respectant la norme OpenAI API, comme Novita AI.
Remplissez les champs de configuration :
- URL de base : Entrez https://api.novita.ai/v3/openai.
- Clé API : Collez votre clé API Novita AI ici.
- Nom du modèle : Collez le nom du modèle que vous avez copié précédemment (par exemple, google/gemma-3-27b-it).
Une fois la configuration remplie, cliquez sur Terminé.

Utiliser Gemma 3 27B via GPU Cloud

Étape 1 : Créer un compte

Si vous êtes nouveau sur Novita AI, commencez par créer un compte sur notre site web. Une fois inscrit, rendez-vous dans l’onglet “GPUs” pour explorer les ressources disponibles et commencer votre parcours.

Étape 2 : Explorer les modèles et les serveurs GPU

Commencez par sélectionner un modèle correspondant aux besoins de votre projet, comme PyTorch, TensorFlow ou CUDA. Choisissez la version qui correspond à vos exigences, par exemple PyTorch 2.2.1 ou CUDA 11.8.0. Ensuite, sélectionnez la configuration de serveur GPU A100, qui offre des performances puissantes pour gérer des charges de travail exigeantes avec une VRAM, une RAM et une capacité de disque importantes.

Essayez les GPU hautes performances de Novita AI

Étape 3 : Personnaliser votre déploiement

Après avoir sélectionné un modèle et un GPU, personnalisez les paramètres de déploiement en ajustant des paramètres comme la version du système d’exploitation (par exemple, CUDA 11.8). Vous pouvez également modifier d’autres configurations pour adapter l’environnement aux besoins spécifiques de votre projet.

Étape 4 : Lancer une instance

Une fois que vous avez finalisé le modèle et les paramètres de déploiement, cliquez sur “Lancer l’instance” pour configurer votre instance GPU. Cela démarrera la configuration de l’environnement, vous permettant de commencer à utiliser les ressources GPU pour vos tâches IA.

Avec des benchmarks solides et des options de déploiement simples, Gemma 3 27B est un choix de premier ordre pour les développeurs et les chercheurs à la recherche d’outils IA ouverts et de haute qualité.

Foire aux questions

Qu’est-ce que Gemma 3 27B ?

Gemma 3 27B est un modèle de langage de grande taille (LLM) open-source de 27 milliards de paramètres développé par Google. Il prend en charge les entrées multimodales (texte + image), plus de 140 langues et dispose d’une fenêtre de contexte de 128K tokens.

Quels sont les besoins matériels pour exécuter Gemma 3 27B en local ?

Vous aurez besoin d’environ 80 Go de VRAM. Un seul NVIDIA H100 est suffisant. Vous pouvez également l’exécuter avec plusieurs RTX 4090 (par exemple, 3×24 Go).

Existe-t-il une version API de Gemma 3 27B ?

Oui ! Vous pouvez accéder à Gemma 3 27B via l’API Novita AI, qui est entièrement compatible avec la norme API OpenAI.

Novita AI est une plateforme cloud IA qui offre aux développeurs un moyen simple de déployer des modèles IA via notre API, tout en fournissant un GPU cloud abordable et fiable pour construire et faire évoluer.

Lecture recommandée

API simples et GPU évolutif

Novita AI est une plateforme cloud IA qui offre aux développeurs un moyen simple de déployer des modèles IA via notre API, tout en fournissant un GPU cloud abordable et fiable pour construire et faire évoluer.

Essayez la démo de Gemma 3 27B maintenant

Comment accéder à Gemma 3 27B en local, via API, sur GPU Cloud

Points clés

Qu’est-ce que Gemma 3 27B ?

Caractéristiques notables

Benchmarks de Gemma 3 27B

Comment accéder à Gemma 3 27B en local ?

Configuration matérielle requise

Processus pas à pas pour installer Gemma 3 27B en local

Comment accéder à Gemma 3 27B via l’API Novita ?

Étape 1 : Se connecter et accéder à la bibliothèque de modèles

Étape 2 : Démarrer votre essai gratuit

Étape 3 : Obtenir votre clé API

Étape 4 : Installer l’API

Utiliser Gemma 3 27B via Chatbox

Étape 1 : Installer Chatbox

Utiliser Gemma 3 27B via GPU Cloud

Étape 1 : Créer un compte

Étape 2 : Explorer les modèles et les serveurs GPU

Étape 3 : Personnaliser votre déploiement

Étape 4 : Lancer une instance

Foire aux questions

Lecture recommandée

API simples et GPU évolutif

Product

RESOURCES

Partners

Company

Points clés

Qu’est-ce que Gemma 3 27B ?

Caractéristiques notables

Benchmarks de Gemma 3 27B

Comment accéder à Gemma 3 27B en local ?

Configuration matérielle requise

Processus pas à pas pour installer Gemma 3 27B en local

Comment accéder à Gemma 3 27B via l’API Novita ?

Étape 1 : Se connecter et accéder à la bibliothèque de modèles

Étape 2 : Démarrer votre essai gratuit

Étape 3 : Obtenir votre clé API

Étape 4 : Installer l’API

Utiliser Gemma 3 27B via Chatbox

Étape 1 : Installer Chatbox

Utiliser Gemma 3 27B via GPU Cloud

Étape 1 : Créer un compte

Étape 2 : Explorer les modèles et les serveurs GPU

Étape 3 : Personnaliser votre déploiement

Étape 4 : Lancer une instance

Foire aux questions

Lecture recommandée

API simples et GPU évolutif

Articles associés

Product

RESOURCES

Partners

Company