Démarrage rapide de l'API MiniMax M3 avec Novita AI

Démarrage rapide de l'API MiniMax M3 avec Novita AI

MiniMax M3 est disponible via Novita AI avec l’ID de modèle minimax/minimax-m3, une URL de base compatible OpenAI, une fenêtre de contexte de 1 000 000 jetons et une tarification par paliers pour les prompts longs. Ce démarrage rapide reste pratique : copiez l’ID de modèle, définissez votre clé API, exécutez une petite requête, puis passez à des prompts plus longs une fois les bases maîtrisées.

Quand utiliser ce démarrage rapide

Utilisez ce démarrage rapide lorsque vous souhaitez tester MiniMax M3 via un chemin d’accès API sans serveur plutôt que de construire autour d’un hébergement de modèle brut. Il est destiné aux développeurs qui ont déjà un prompt ou une charge de travail en tête et qui ont besoin du point de terminaison, de l’ID de modèle, des limites de jetons et des détails de tarification avant d’écrire une petite preuve de concept.

MiniMax M3 est un bon choix lorsque votre requête nécessite un grand budget de contexte, une sortie structurée, des tâches orientées outils ou une assistance au codage sur des entrées longues. Sur Novita AI, la page actuelle du modèle liste text, image et video comme modalités d’entrée acceptées, text comme modalité de sortie, et prend en charge l’accès sans serveur, l’appel de fonctions, la sortie structurée, le raisonnement et la compatibilité avec l’API Anthropic.

Il ne s’agit pas d’une analyse comparative approfondie ou d’une annonce de lancement. L’objectif est plus simple : faire une requête propre, puis décider si MiniMax M3 correspond à votre application.

Étape 1 : Obtenez votre clé API Novita

Créez ou sélectionnez un compte Novita AI, ouvrez vos paramètres de clé API et générez une clé pour une utilisation côté serveur. Gardez la clé hors du code client, des bundles frontend, des dépôts publics et des notebooks qui pourraient être partagés en dehors de votre équipe.

Définissez la clé comme variable d’environnement avant d’exécuter les exemples :

export NOVITA_API_KEY="votre_cle_api_ici"

Si vous testez dans un environnement d’équipe, utilisez une clé de projet limitée ou une clé temporaire si votre configuration de compte le permet. Faites tourner la clé après des démos publiques, des expériences partagées ou toute exposition accidentelle.

Étape 2 : Confirmez l’ID de modèle et le point de terminaison

Avant d’écrire du code, conservez les détails de connexion MiniMax M3 au même endroit :

Champ Valeur
ID de modèle minimax/minimax-m3
URL de base https://api.novita.ai/openai
URL de complétion de chat https://api.novita.ai/openai/v1/chat/completions
Fenêtre de contexte 1 000 000 jetons
Sortie maximale 131 072 jetons
Entrées Texte, image, vidéo
Sortie Texte
Support sans serveur Pris en charge
Appel de fonctions Pris en charge
Sortie structurée Pris en charge
Raisonnement Pris en charge
Compatibilité API Anthropic Pris en charge

Vérifiez la documentation du modèle MiniMax M3 avant de déployer, car la disponibilité, la tarification et les limites peuvent changer.

Étape 3 : Envoyez votre première requête

Commencez par une courte requête de chat textuel uniquement. Il est beaucoup plus facile de déboguer l’authentification, le routage et l’analyse des réponses avant d’ajouter un grand prompt.

Pour le premier prompt, demandez une sortie déterministe et facile à vérifier. Par exemple : Résumez les principaux risques de mise en œuvre dans un processus de révision de code à long contexte.

Gardez max_tokens modeste pour le premier appel. MiniMax M3 prend en charge des sorties beaucoup plus longues, mais le premier objectif est de confirmer que l’intégration fonctionne.

Étape 4 : Lisez la réponse

Une réponse de complétion de chat compatible OpenAI renvoie généralement la réponse de l’assistant à choices[0].message.content.

Enregistrez également l’ID de requête ou les métadonnées de réponse exposées par votre environnement d’exécution. Ces détails sont utiles lorsqu’une requête échoue ou est lente. Pour le suivi des coûts, enregistrez la taille du prompt, la taille de la sortie, l’utilisation du cache en lecture si votre charge de travail utilise un contexte en cache et si la requête est entrée dans la bande de tarification à long contexte.

Ne considérez pas la première sortie comme une preuve que votre prompt est prêt pour les utilisateurs. Une fois l’intégration fonctionnelle, testez des prompts qui ressemblent à votre charge de travail réelle : codebases longs, instructions multi-fichiers, schémas d’outils, sortie JSON structurée ou entrées multimodales si votre application en a besoin.

Étape 5 : Vérifiez la tarification, les limites et les erreurs courantes

MiniMax M3 utilise une tarification par paliers sur Novita AI. Le prix change une fois que le prompt entre dans la bande à long contexte :

Bande de taille de prompt Entrée Sortie Lecture du cache
Moins de 524 288 jetons 0,30 $ par 1M de jetons 1,20 $ par 1M de jetons 0,06 $ par 1M de jetons
524 288 à 1 000 000 jetons 1,20 $ par 1M de jetons 4,80 $ par 1M de jetons 0,24 $ par 1M de jetons

Cette différence est importante. Un test de 50 000 jetons et une requête de près d’un million de jetons ne sont pas tarifés de la même manière. Lorsque vous estimez le coût, incluez la longueur du prompt, la longueur de sortie attendue, le comportement du cache, les tentatives et la fréquence à laquelle les utilisateurs peuvent envoyer des requêtes très volumineuses.

MiniMax M3 dispose actuellement d’une fenêtre de contexte de 1 000 000 jetons et d’une sortie maximale de 131 072 jetons. Avant de déployer, revérifiez la documentation du modèle MiniMax M3 pour obtenir le dernier tableau des prix et toute directive de limite de débit associée à votre compte.

Les erreurs de configuration courantes incluent :

  • En-tête Authorization manquant ou malformé.
  • Utilisation d’un mauvais ID de modèle, par exemple un nom d’affichage au lieu de minimax/minimax-m3.
  • Envoi de requêtes à la mauvaise URL de base.
  • Définition de max_tokens plus élevé que ce que votre application peut consommer en toute sécurité.
  • Test de prompts à long contexte sans tenir compte de la bande de tarification plus élevée.
  • Passage de contenu multimodal dans un format non pris en charge par votre bibliothèque cliente.

Exemple en Python

Cet exemple utilise le SDK Python OpenAI avec l’URL de base compatible OpenAI de Novita AI.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai/v1",
)

response = client.chat.completions.create(
    model="minimax/minimax-m3",
    messages=[
        {
            "role": "system",
            "content": "Vous êtes un assistant API concis pour les équipes logicielles.",
        },
        {
            "role": "user",
            "content": "Résumez les principaux risques de mise en œuvre dans un processus de révision de code à long contexte.",
        },
    ],
    temperature=0.2,
    max_tokens=600,
)

answer = response.choices[0].message.content
print(answer)

Envoyer la requête avec cURL

Si vous préférez cURL, gardez le corps JSON dans une variable payload. Cela rend la requête plus facile à lire et évite de tasser l’intégralité du corps JSON dans une seule commande.

payload='{
  "model": "minimax/minimax-m3",
  "messages": [
    {
      "role": "system",
      "content": "Vous êtes un assistant API concis pour les équipes logicielles."
    },
    {
      "role": "user",
      "content": "Résumez les principaux risques de mise en œuvre dans un processus de révision de code à long contexte."
    }
  ],
  "temperature": 0.2,
  "max_tokens": 600
}'

curl --request POST "https://api.novita.ai/openai/v1/chat/completions" \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data "$payload"

Paramètres clés

Paramètre Ce qu’il contrôle Commencez par
model Quel modèle hébergé répond à la requête minimax/minimax-m3
messages Instructions système et utilisateur Un prompt court, textuel uniquement
temperature Variabilité de la sortie 0.2 pour des tests reproductibles
max_tokens Sortie générée maximale Un plafond bas, puis augmentez-le plus tard
stream Si les jetons sont renvoyés progressivement Activez après que l’appel de base fonctionne
tools Définitions de fonctions/outils Ajoutez un outil à la fois
response_format Forme de la réponse structurée Validez la sortie avant de l’utiliser

Pour les entrées multimodales, confirmez la forme exacte de la requête dans votre SDK ou votre documentation API avant de vous fier aux prompts d’image ou de vidéo. La page du modèle liste la prise en charge des modalités, mais le formatage des requêtes dépend du chemin client que vous utilisez.

Dépannage

L’authentification échoue

Vérifiez que NOVITA_API_KEY est définie dans le même shell ou environnement d’exécution où vous exécutez la requête. L’en-tête d’autorisation doit utiliser le format jeton-porteur.

L’API ne trouve pas le modèle

Confirmez que la requête utilise minimax/minimax-m3, et non MiniMax M3, minimax-m3 ou un titre de blog. Les noms d’affichage des modèles et les ID de modèle ne sont pas interchangeables.

La requête fonctionne pour les prompts courts mais échoue pour les prompts longs

Mesurez l’entrée sérialisée, pas seulement le nombre de mots visibles. Les schémas d’outils, les documents récupérés, les références d’images et l’historique de conversation comptent tous. Si vous approchez 1 000 000 jetons, essayez un prompt plus petit et ajoutez une logique de troncature ou de récupération avant de réessayer.

La facture est plus élevée que prévu

Vérifiez si le prompt est entré dans la bande de tarification de 524 288 à 1 000 000 jetons. MiniMax M3 a des prix d’entrée, de sortie et de lecture de cache plus élevés dans ce palier à long contexte.

La sortie structurée est incohérente

Commencez avec un schéma plus petit, une température plus basse et une validation explicite. Si votre application nécessite un JSON strict, gérez les réponses malformées avec une validation et une logique de nouvelle tentative au lieu de supposer que chaque réponse sera analysée.

Les appels d’outils ne correspondent pas à votre schéma de fonction

Testez un outil à la fois. Gardez les noms de fonctions, les descriptions et les schémas de paramètres clairs, et ajoutez une validation côté serveur avant d’exécuter tout appel d’outil.

FAQ

MiniMax M3 est-il disponible via l’API Novita AI ?

Oui. La page actuelle du modèle Novita AI liste MiniMax M3 comme disponible via un accès API sans serveur avec l’ID de modèle minimax/minimax-m3.

Quel est l’ID de modèle pour MiniMax M3 ?

Utilisez minimax/minimax-m3.

Quelle URL de base dois-je utiliser ?

Utilisez https://api.novita.ai/openai comme URL de base compatible OpenAI. Dans les SDK OpenAI, définissez l’URL de base du SDK sur https://api.novita.ai/openai/v1.

Combien coûte MiniMax M3 sur Novita AI ?

La tarification de MiniMax M3 est par paliers. Pour les prompts de moins de 524 288 jetons, l’entrée est à 0,30 $ par million de jetons, la sortie à 1,20 $ par million de jetons et la lecture du cache à 0,06 $ par million de jetons. Pour les prompts de 524 288 à 1 000 000 jetons, l’entrée est à 1,20 $ par million de jetons, la sortie à 4,80 $ par million de jetons et la lecture du cache à 0,24 $ par million de jetons.

MiniMax M3 prend-il en charge le streaming ou l’entrée multimodale ?

La page actuelle du modèle liste les entrées texte, image et vidéo avec une sortie texte. Le comportement de streaming doit être testé via le chemin de complétion de chat compatible OpenAI avant une utilisation en production.

Quelle est la fenêtre de contexte maximale ?

MiniMax M3 dispose actuellement d’une fenêtre de contexte de 1 000 000 jetons et d’une sortie maximale de 131 072 jetons.