Étape 3.7 Flash sur Novita AI : Guide de démarrage rapide multimodal

Table des matières

De quoi avez-vous besoin avant d'appeler l'API ?
Quels faits sur Step 3.7 Flash sont importants pour l'implémentation ?
Comment appeler Step 3.7 Flash avec cURL ?
Comment appeler Step 3.7 Flash depuis Python ?
Comment gérer les entrées multimodales ?
Comment les appels de fonction et les sorties structurées s'intègrent-ils ?
Comment les équipes devraient-elles budgétiser et tester avant la production ?
FAQ
Articles recommandés

Step 3.7 Flash est disponible sur Novita AI en tant que LLM serverless avec l’ID de modèle stepfun/step-3.7-flash, l’endpoint chat/completions compatible OpenAI, la prise en charge des entrées texte, image et vidéo, la sortie texte, l’appel de fonction, les sorties structurées, et le raisonnement listé sur la page du modèle. Ce guide de démarrage rapide se concentre sur le flux de travail du développeur : comment appeler l’API, quels schémas de requête sont sûrs à utiliser aujourd’hui, quels champs de tarification budgétiser, et où être prudent avant d’intégrer le multimodal ou le raisonnement en production. Pour une vue plus large des fonctionnalités et du positionnement du modèle, consultez la présentation de l’API Step 3.7 Flash.

De quoi avez-vous besoin avant d’appeler l’API ?

Commencez par trois éléments de configuration :

Élément	Valeur
Clé API	Créez et stockez une clé API Novita AI dans une variable d’environnement telle que `NOVITA_API_KEY`.
URL de base compatible OpenAI	`https://api.novita.ai/openai`
Endpoint de complétion de chat	`POST https://api.novita.ai/openai/v1/chat/completions`
ID du modèle	`stepfun/step-3.7-flash`

L’index de documentation Novita AI liste l’URL de base compatible OpenAI, et la référence de l’API de complétion de chat documente les champs de requête et de réponse pour POST https://api.novita.ai/openai/v1/chat/completions.

Gardez la clé API hors du contrôle de source. En développement local, exportez-la dans votre terminal. En production, chargez-la depuis votre gestionnaire de secrets :

export NOVITA_API_KEY="votre_clé_api"

Si votre application utilise déjà des complétions de chat compatibles OpenAI, le chemin de migration est généralement court : pointez le client vers l’URL de base de Novita AI, définissez le jeton d’authentification Bearer, et utilisez l’ID du modèle Step 3.7 Flash.

Quels faits sur Step 3.7 Flash sont importants pour l’implémentation ?

Utilisez l’ID exact du modèle dans le code et le nom d’affichage dans l’interface utilisateur destinée aux utilisateurs. La page actuelle du modèle Novita liste Step 3.7 Flash comme un modèle de chat dans la série StepFun.

Champ	Valeur Novita actuelle
Nom d’affichage	Step 3.7 Flash
ID du modèle API	`stepfun/step-3.7-flash`
Famille de modèle présentée par Novita	StepFun
Type d’hébergement	LLM serverless
Endpoint	`chat/completions`
Modalités d’entrée	Texte, image, vidéo
Modalités de sortie	Texte
Fenêtre de contexte	262 144 jetons
Jetons de sortie max	256 000
Fonctionnalités listées	Serverless, appel de fonction, sorties structurées, raisonnement
Labels listés	MoE, >100B, NOUVEAU, En vedette
Limite de débit T1 par défaut	30 RPM et 50 000 000 TPM

Au 18 juin 2026, Novita liste ces prix de jetons pour stepfun/step-3.7-flash :

Type de jeton	Prix listé
Jetons d’entrée	0,20 $ par million de jetons
Jetons de sortie	1,15 $ par million de jetons
Jetons d’entrée lus depuis le cache	0,04 $ par million de jetons

Les prix, la disponibilité du modèle, les limites de débit et les paramètres de requête pris en charge peuvent changer. Consultez la page du modèle Step 3.7 Flash et la page de tarification Novita AI avant l’examen des achats, le lancement en production ou tout engagement tarifaire face aux clients.

Comment appeler Step 3.7 Flash avec cURL ?

Pour le premier test de validation, gardez la requête en texte seul. Cela confirme l’authentification, le routage du modèle, l’analyse de la réponse et la génération de base avant d’ajouter des outils, des schémas, des images ou des vidéos.

curl "https://api.novita.ai/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${NOVITA_API_KEY}" \
  -d '{
    "model": "stepfun/step-3.7-flash",
    "messages": [
      {
        "role": "system",
        "content": "Vous êtes un assistant technique concis."
      },
      {
        "role": "user",
        "content": "Créez une liste de contrôle en quatre étapes pour tester un bot d'assistance multimodal avant sa sortie."
      }
    ],
    "max_tokens": 512,
    "temperature": 0.2
  }'

Une réponse réussie suit la forme des complétions de chat documentée par Novita AI : un tableau choices, un message avec le content généré, les métadonnées created/model, et un objet usage lorsque l’utilisation est renvoyée. Pour les réponses en streaming, la référence API indique que l’utilisation apparaît dans le dernier morceau de la réponse.

Utilisez ce test de validation pour vérifier :

La clé API est valide.
L’ID du modèle est accepté.
Votre client peut analyser choices[0].message.content.
Votre journalisation capture l’utilisation des jetons de prompt, de complétion et totaux sans stocker de secrets.
Votre politique de délai d’attente et de nouvelle tentative est appropriée à la taille du prompt.

Comment appeler Step 3.7 Flash depuis Python ?

Le modèle du SDK Python OpenAI fonctionne avec Novita AI lorsque vous définissez l’URL de base Novita. Installez et figez la version du SDK dans votre propre projet selon votre politique de dépendances.

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key=os.environ["NOVITA_API_KEY"],
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {"role": "system", "content": "Vous êtes un assistant technique concis."},
        {
            "role": "user",
            "content": "Résumez les risques de publication pour un flux de travail de support client qui accepte des captures d'écran et des tickets longs.",
        },
    ],
    max_tokens=512,
    temperature=0.2,
)

print(response.choices[0].message.content)

Pour le code applicatif, encapsulez cela dans une petite passerelle de modèle au lieu de disperser des appels API bruts dans la base de code. Une passerelle vous permet d’imposer des limites de jetons par défaut, de définir des délais d’attente par route, de normaliser les erreurs et de changer de modèle pour l’évaluation sans modifier la logique métier.

Un wrapper de production pratique devrait capturer :

model, prompt_tokens, completion_tokens et total_tokens.
La latence de la requête et le nombre de nouvelles tentatives.
Le statut HTTP et la catégorie d’erreur API.
Si des outils, un schéma JSON, une entrée image ou vidéo ont été utilisés.
Un résumé de requête expurgé qui exclut les clés API et le contenu sensible de l’utilisateur.

Ces données de télémétrie sont importantes car Step 3.7 Flash dispose d’une grande fenêtre de contexte et d’une limite de sortie élevée. Ces limites sont utiles, mais les systèmes de production doivent toujours définir un max_tokens explicite, rejeter les téléchargements utilisateur surdimensionnés avant l’appel au modèle et surveiller la longueur de la sortie.

Comment gérer les entrées multimodales ?

Novita liste le texte, l’image et la vidéo comme modalités d’entrée pour Step 3.7 Flash et le texte comme modalité de sortie. Traitez cela comme la limite des capacités prises en charge, puis vérifiez la forme exacte de la payload dans la documentation actuelle de Novita ou la console avant de déployer une intégration multimodale.

Pour un démarrage rapide, utilisez cet ordre :

Exécutez le test de validation en texte seul.
Ajoutez une entrée image en utilisant le format de message de chat Novita actuellement documenté.
Validez la qualité de la réponse et la forme de la réponse sur votre tâche réelle.
Ajoutez des lots d’images plus volumineux ou de la vidéo uniquement après avoir confirmé le format de requête, les limites de taille, la latence et le comportement des coûts.

Ne supposez pas que chaque forme de payload multimodale compatible OpenAI est acceptée par chaque modèle hébergé sur Novita. La page du modèle Step 3.7 Flash vérifie la prise en charge des entrées image et vidéo, mais les exemples de requêtes vidéo sont plus sensibles à la gestion des fichiers, à l’accès aux URL, à la durée, à la taille et au formatage spécifique au modèle. Si la documentation actuelle ou l’exemple de console ne montre pas la forme exacte de payload vidéo dont vous avez besoin, évitez d’en coder en dur à partir de la documentation d’un autre fournisseur.

Les bons premiers cas d’utilisation d’images incluent :

Résumer une capture d’écran de support accompagnée du texte du ticket de l’utilisateur.
Extraire l’état de l’interface utilisateur à partir d’une capture d’écran de produit pour un assistant de tri interne.
Examiner une image de QA visuelle et produire une liste de contrôle textuelle.

La vidéo doit être testée de manière plus prudente. Commencez par de courts clips, enregistrez la forme exacte de la requête qui fonctionne, capturez la latence et l’utilisation des jetons, et définissez un comportement de repli lorsque l’entrée vidéo est rejetée, trop volumineuse ou trop lente pour votre route.

Comment les appels de fonction et les sorties structurées s’intègrent-ils ?

Step 3.7 Flash est listé avec l’appel de fonction et les sorties structurées. Dans l’API de complétion de chat, l’appel de fonction est exposé via tools, et les sorties structurées via response_format.

Utilisez l’appel de fonction lorsque le modèle doit choisir un outil et renvoyer des arguments JSON au lieu de répondre directement à l’utilisateur. La référence API documente les outils de fonction avec un type de function, un function.name, une description, des parameters en JSON Schema, et un paramètre optionnel strict.

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_support_ticket",
            "description": "Créez un ticket de support interne à partir d'un problème signalé par l'utilisateur.",
            "parameters": {
                "type": "object",
                "properties": {
                    "summary": {"type": "string"},
                    "priority": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "needs_human_review": {"type": "boolean"},
                },
                "required": ["summary", "priority", "needs_human_review"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "user",
            "content": "La page des paramètres de paiement renvoie une erreur 500 après avoir téléchargé une capture d'écran.",
        }
    ],
    tools=tools,
    temperature=0.1,
)

Utilisez les sorties structurées lorsque votre application a besoin d’une réponse JSON validée et qu’aucun appel d’outil externe n’est requis. La référence de l’API de complétion de chat de Novita documente response_format avec json_schema et note que le mode strict prend en charge un sous-ensemble de JSON Schema. Gardez les premiers schémas petits, évitez les fonctionnalités de schéma exotiques, et échouez de manière fermée lorsque la réponse du modèle ne se valide pas.

Pour le raisonnement, distinguez la capacité du modèle du comportement de la requête. La page du modèle Step 3.7 Flash liste le raisonnement comme une fonctionnalité, tandis que la référence de l’API de complétion de chat documente les paramètres liés au raisonnement avec des notes de prise en charge spécifiques au modèle. Avant de vous fier à un champ de raisonnement dans un analyseur syntaxique de production, exécutez un test API avec stepfun/step-3.7-flash et gérez la forme exacte de la réponse que votre compte reçoit.

Comment les équipes devraient-elles budgétiser et tester avant la production ?

Utilisez les prix des jetons listés pour estimer le premier budget, puis validez avec des journaux d’utilisation réels. Step 3.7 Flash est tarifé différemment pour les entrées, les sorties et les lectures du cache, donc les longs prompts, les sorties verbeuses et les contextes répétés ont des profils de coûts différents. Si vous comparez Novita AI avec d’autres fournisseurs d’API LLM, le guide meilleurs fournisseurs d’API LLM 2026 couvre les niveaux de prix, les limites de débit et les compromis entre fournisseurs. Pour les équipes qui évaluent encore quel fournisseur d’inférence convient à une charge de travail d’agent, choisir un fournisseur d’inférence pour les agents IA parcourt les critères d’évaluation clés.

Par exemple, une application qui envoie de grandes transcriptions de support peut dépenser la majeure partie de son budget en jetons d’entrée. Un agent qui demande des plans longs peut dépenser davantage en jetons de sortie. Un flux de travail de récupération ou de mémoire qui réutilise le contexte peut bénéficier de la tarification de lecture du cache si le comportement de cache s’applique au modèle de requête déployé.

Avant la production, exécutez un ensemble d’évaluation qui inclut :

Des prompts courts en texte seul pour la latence et la qualité de réponse de base.
Des prompts à long contexte proches de votre limite supérieure attendue, pas de la fenêtre de contexte maximale.
Des prompts d’image qui correspondent à votre source de téléchargement réelle et à la gestion des fichiers.
Des prompts d’appel d’outil où le comportement correct est d’appeler une fonction.
Des prompts de schéma JSON qui testent intentionnellement des champs invalides, manquants et limites.
Des cas d’échec pour entrée surdimensionnée, média manquant, clés API invalides et délais d’attente.

Ne dirigez pas tout le trafic vers un nouveau modèle en vous basant uniquement sur une liste de fonctionnalités. Les indicateurs de fonctionnalités vous disent ce qui est disponible ; l’évaluation vous dit si le modèle suit vos instructions, schémas, règles de sécurité et budget de latence sur votre charge de travail.

FAQ

Step 3.7 Flash est-il disponible via Novita AI ?

Oui. Novita liste Step 3.7 Flash comme un LLM serverless avec l’ID de modèle API stepfun/step-3.7-flash.

Quel endpoint dois-je utiliser pour Step 3.7 Flash ?

Utilisez l’endpoint de complétion de chat compatible OpenAI : POST https://api.novita.ai/openai/v1/chat/completions.

Step 3.7 Flash prend-il en charge les entrées image et vidéo ?

Novita liste le texte, l’image et la vidéo comme modalités d’entrée pour Step 3.7 Flash, avec le texte comme modalité de sortie. Utilisez la documentation actuelle de Novita ou des exemples de console pour vérifier la forme exacte de la payload image ou vidéo avant la production.

Combien coûte Step 3.7 Flash ?

Au 18 juin 2026, Novita liste stepfun/step-3.7-flash à 0,20 $ par million de jetons d’entrée, 1,15 $ par million de jetons de sortie, et 0,04 $ par million de jetons d’entrée lus depuis le cache.

Step 3.7 Flash prend-il en charge l’appel de fonction et les sorties structurées ?

Oui. Novita liste l’appel de fonction et les sorties structurées comme fonctionnalités de Step 3.7 Flash. Utilisez tools pour l’appel de fonction et response_format pour les sorties structurées, puis testez votre schéma et analyseur exacts avant la production.

Dois-je copier une payload vidéo d’un autre fournisseur ?

Non. Même lorsque les API sont compatibles OpenAI, la gestion des fichiers et des URL multimodaux peut varier. Utilisez une forme de payload vérifiée dans la documentation actuelle de Novita, les exemples de console, ou votre propre test API réussi pour stepfun/step-3.7-flash.

Étape 3.7 Flash sur Novita AI : Guide de démarrage rapide multimodal

De quoi avez-vous besoin avant d’appeler l’API ?

Quels faits sur Step 3.7 Flash sont importants pour l’implémentation ?

Comment appeler Step 3.7 Flash avec cURL ?

Comment appeler Step 3.7 Flash depuis Python ?

Comment gérer les entrées multimodales ?

Comment les appels de fonction et les sorties structurées s’intègrent-ils ?

Comment les équipes devraient-elles budgétiser et tester avant la production ?

FAQ

Step 3.7 Flash est-il disponible via Novita AI ?

Quel endpoint dois-je utiliser pour Step 3.7 Flash ?

Step 3.7 Flash prend-il en charge les entrées image et vidéo ?

Combien coûte Step 3.7 Flash ?

Step 3.7 Flash prend-il en charge l’appel de fonction et les sorties structurées ?

Dois-je copier une payload vidéo d’un autre fournisseur ?

Articles recommandés

Product

RESOURCES

Partners

Company

De quoi avez-vous besoin avant d’appeler l’API ?

Quels faits sur Step 3.7 Flash sont importants pour l’implémentation ?

Comment appeler Step 3.7 Flash avec cURL ?

Comment appeler Step 3.7 Flash depuis Python ?

Comment gérer les entrées multimodales ?

Comment les appels de fonction et les sorties structurées s’intègrent-ils ?

Comment les équipes devraient-elles budgétiser et tester avant la production ?

FAQ

Step 3.7 Flash est-il disponible via Novita AI ?

Quel endpoint dois-je utiliser pour Step 3.7 Flash ?

Step 3.7 Flash prend-il en charge les entrées image et vidéo ?

Combien coûte Step 3.7 Flash ?

Step 3.7 Flash prend-il en charge l’appel de fonction et les sorties structurées ?

Dois-je copier une payload vidéo d’un autre fournisseur ?

Articles recommandés

Articles associés

Product

RESOURCES

Partners

Company