Guide : Accéder à Llama 4 Scout localement, via API ou sur des GPU cloud

Guide : Accéder à Llama 4 Scout localement, via API ou sur des GPU cloud

Points clés

Contexte de 10 millions de tokens : Bien supérieur à la plupart des modèles.

Support multimodal : Gère à la fois le texte et les images en entrée.

Capacité multilingue : Prend en charge 12 langues, permettant des applications globales.

Open Source : Gratuit à utiliser et à personnaliser.

Profitez de la commodité de commencer votre essai gratuit avec l’API Novita AI dès aujourd’hui — rapide, simple et sans tracas !

Llama 4 Scout se distingue avec 10 millions de tokens de contexte, ce qui le différencie de la plupart des modèles d’IA aux fenêtres de contexte limitées. Cette capacité élevée le rend idéal pour gérer des tâches à grande échelle comme l’analyse de longs documents, la synthèse multilingue ou le traitement d’entrées multimodales.

Qu’est-ce que Llama 4 Scout ?

https://www.youtube.com/watch?v=MwHol73Cw\_I

Aperçu de Llama 4 Scout

Propriété Valeur
Date de sortie 5 avril 2025
Taille du modèle 109 milliards de paramètres (17B actifs/token)
Open Source Oui
Architecture 16 Mixture-of-Experts (MoE)
Contexte 10M (10000k)
Langues supportées Arabe, Anglais, Français, Allemand, Hindi, Indonésien, Italien, Portugais, Espagnol, Tagalog, Thaï et Vietnamien
Multimodal Entrée : Texte et image multilingues
Sortie : Texte et code multilingues
Données d’entraînement ~40 billions de tokens
Pré-entraînement MetaP (Configuration adaptative des experts + entraînement intermédiaire)
Post-entraînement SFT (Easy Data) → RL (Hard Data) → DPO
Type de tenseur BF16

Benchmark de Llama 4 Scout

benchmark de llama 4 scout

Source : Meta

Comment accéder à Llama 4 Scout localement ?

Configuration matérielle requise pour Llama 4 Scout

Longueur du contexte VRAM Int4 GPU nécessaire (Int4) VRAM FP16 GPU nécessaire (FP16)
4K tokens ~99,5 Go / ~76,2 Go 1xH100 ~345 Go 8×H100
128K tokens ~334 Go 8×H100 ~579 Go 8×H100
10M tokens ~18,8 To (dominé par le cache KV) 240×H100 Identique à INT4 (dominance KV) 240×H100

Bien que la promotion affirme que LLaMA 4 Scout peut fonctionner sur un seul H100, cela n’est possible qu’avec une quantification, des longueurs de contexte plus courtes, des tailles de lots réduites et un framework d’inférence efficace.

Installer Llama 4 Scout localement

Étape 1 : Préparer l’environnement

  • Installer Python : Assurez-vous que votre système dispose d’une version appropriée de Python (requise pour Llama 4).
  • Configurer le GPU : Vérifiez que votre système dispose d’un GPU puissant capable d’exécuter le modèle.
  • Créer un environnement Python : Utilisez des outils comme conda ou venv pour gérer les dépendances.

Étape 2 : Obtenir le modèle

  • Visiter le site web : Rendez-vous sur www.llama.com.
  • Sélectionner le modèle : Téléchargez Llama 4 Scout.

Étape 3 : Installer les dépendances

Exécutez la commande suivante pour installer les packages Python requis :

pip install llama-stack

Étape 4 : Vérifier le modèle

Listez tous les modèles disponibles et localisez l’ID du modèle pour Llama 4 Scout :

llama model list

Étape 5 : Télécharger et exécuter le modèle

  • Spécifier l’ID du modèle : Saisissez l’ID du modèle correct et l’URL de téléchargement.
  • Vérifier l’expiration de l’URL : Le lien de téléchargement est généralement valable seulement 48 heures ; vous devrez peut-être le retélécharger.

Une fois ces étapes terminées, vous serez prêt à exécuter Llama 4 Scout !

Comment accéder à Llama 4 Scout via l’API Novita ?

Étape 1 : Se connecter et accéder à la bibliothèque de modèles

Connectez-vous à votre compte et cliquez sur le bouton Model Library.

Se connecter et accéder à la bibliothèque de modèles

Essayez Llama 4 Scout maintenant !

Étape 2 : Choisir votre modèle

Parcourez les options disponibles et sélectionnez le modèle qui correspond à vos besoins.

choisissez votre modèle

Étape 3 : Commencer votre essai gratuit

Débutez votre essai gratuit pour explorer les capacités du modèle sélectionné.

commencez votre essai gratuit

Étape 4 : Obtenir votre clé API

Pour vous authentifier auprès de l’API, nous vous fournirons une nouvelle clé API. En accédant à la page « Settings » , vous pouvez copier la clé API comme indiqué sur l’image.

obtenez votre clé API

Étape 5 : Installer l’API

Installez l’API à l’aide du gestionnaire de packages spécifique à votre langage de programmation.

Après l’installation, importez les bibliothèques nécessaires dans votre environnement de développement. Initialisez l’API avec votre clé API pour commencer à interagir avec Novita AI LLM. Voici un exemple d’utilisation de l’API de complétion de chat pour les utilisateurs Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<VOTRE_CLÉ_API_Novita_AI>",
)

model = "meta-llama/llama-4-scout-17b-16e-instruct"
stream = True # ou False
max_tokens = 2048
system_content = """Soyez un assistant utile"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Bonjour !",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  
  

Utiliser Llama 4 Scout via un GPU cloud

Étape 1 : Créer un compte

Si vous êtes nouveau sur Novita AI, commencez par créer un compte sur notre site web. Une fois inscrit, allez dans l’onglet « GPUs » pour explorer les ressources disponibles et commencer votre parcours.

capture d'écran du site Novita AI

Étape 2 : Explorer les templates et les serveurs GPU

Commencez par sélectionner un template qui correspond aux besoins de votre projet, comme PyTorch, TensorFlow ou CUDA. Choisissez la version qui convient à vos besoins, par exemple PyTorch 2.2.1 ou CUDA 11.8.0. Ensuite, sélectionnez la configuration de serveur GPU A100, qui offre des performances puissantes pour gérer des charges de travail exigeantes avec une VRAM, une RAM et une capacité de disque suffisantes.

capture d'écran du site Novita AI utilisant un GPU cloud

Essayez les GPU haute performance de Novita AI

Étape 3 : Personnaliser votre déploiement

Après avoir sélectionné un template et un GPU, personnalisez vos paramètres de déploiement en ajustant des paramètres comme la version du système d’exploitation (par exemple, CUDA 11.8). Vous pouvez également modifier d’autres configurations pour adapter l’environnement aux exigences spécifiques de votre projet.

capture d'écran du site Novita AI utilisant un GPU cloud

Étape 4 : Lancer une instance

Une fois que vous avez finalisé le template et les paramètres de déploiement, cliquez sur « Launch Instance » pour configurer votre instance GPU. Cela démarrera la configuration de l’environnement, vous permettant de commencer à utiliser les ressources GPU pour vos tâches d’IA.

capture d'écran du site Novita AI utilisant un GPU cloud

La longueur de contexte inégalée de Llama 4 Scout et ses capacités multimodales en font un outil révolutionnaire pour les tâches longues, multilingues et à grande échelle. Son évolutivité et sa nature open source garantissent une flexibilité pour les développeurs et les chercheurs.

Questions fréquemment posées

Qu’est-ce qui rend Llama 4 Scout unique ?

Contexte de 10M tokens : Bien supérieur à la plupart des modèles.
Support multimodal : Gère à la fois le texte et les images en entrée.
Capacité multilingue : Prend en charge 12 langues, permettant des applications globales.
Open Source : Gratuit à utiliser et à personnaliser.

Puis-je utiliser Llama 4 Scout sans un GPU haut de gamme ?

Oui, mais seulement pour des contextes plus petits (par exemple, 4K tokens) en quantifiant le modèle. Les contextes complets de 10M tokens nécessitent au moins 240×H100 GPU en raison des besoins en mémoire, surtout pour le cache KV. Ou vous pouvez choisir Novita AI via l’API !

Quel matériel est recommandé pour Llama 4 Scout ?

Petits contextes (4K tokens) : 1×H100 GPU
Grands contextes (128K tokens) : 8×H100 GPU
Contextes complets (10M tokens) : 240×H100 GPU

Novita AI est une plateforme cloud d’IA qui offre aux développeurs un moyen simple de déployer des modèles d’IA via notre API, tout en fournissant un GPU cloud fiable et abordable pour créer et passer à l’échelle.

Lecture recommandée