- De quoi avez-vous besoin avant d’appeler l’API ?
- Quels faits concernant Step 3.7 Flash sont importants pour l’implémentation ?
- Comment appeler Step 3.7 Flash avec cURL ?
- Comment appeler Step 3.7 Flash depuis Python ?
- Comment gérer les entrées multimodales ?
- Comment s’intègrent l’appel de fonctions et les sorties structurées ?
- Comment les équipes doivent-elles budgéter et tester avant la production ?
- FAQ
- Articles recommandés
Step 3.7 Flash est disponible sur Novita AI en tant que LLM Serverless avec l’ID de modèle stepfun/step-3.7-flash, l’endpoint chat/completions compatible OpenAI, le support des entrées texte, image et vidéo, la sortie texte, l’appel de fonctions, les sorties structurées et le raisonnement listé sur la page du modèle. Ce démarrage rapide se concentre sur le flux de travail du développeur : comment appeler l’API, quels schémas de requête peuvent être utilisés en toute sécurité aujourd’hui, à quels champs de tarification budgéter, et où être prudent avant d’intégrer un comportement multimodal ou de raisonnement en production.
De quoi avez-vous besoin avant d’appeler l’API ?
Commencez par trois éléments de configuration :
| Élément | Valeur |
|---|---|
| Clé API | Créez et stockez une clé API Novita AI dans une variable d’environnement telle que NOVITA_API_KEY. |
| URL de base compatible OpenAI | https://api.novita.ai/openai |
| Endpoint chat completions | POST https://api.novita.ai/openai/v1/chat/completions |
| ID du modèle | stepfun/step-3.7-flash |
L’index de documentation Novita AI répertorie l’URL de base compatible OpenAI, et la référence de l’API chat completions documente les champs de requête et de réponse pour POST https://api.novita.ai/openai/v1/chat/completions.
Gardez la clé API hors du contrôle de version. En développement local, exportez-la dans votre terminal. En production, chargez-la depuis votre gestionnaire de secrets :
export NOVITA_API_KEY="your_api_key"
Si votre application utilise déjà des chat completions compatibles OpenAI, le chemin de migration est généralement petit : pointer le client vers l’URL de base de Novita AI, définir le jeton d’autorisation Bearer, et utiliser l’ID de modèle Step 3.7 Flash.
Quels faits concernant Step 3.7 Flash sont importants pour l’implémentation ?
Utilisez l’ID exact du modèle dans le code et le nom d’affichage dans l’interface utilisateur. La page actuelle des modèles Novita liste Step 3.7 Flash comme un modèle de Chat dans la série StepFun.
| Champ | Valeur actuelle Novita |
|---|---|
| Nom d’affichage | Step 3.7 Flash |
| ID de modèle API | stepfun/step-3.7-flash |
| Famille de modèle affichée par Novita | StepFun |
| Type d’hébergement | LLM Serverless |
| Endpoint | chat/completions |
| Modalités d’entrée | Texte, image, vidéo |
| Modalités de sortie | Texte |
| Fenêtre de contexte | 262 144 tokens |
| Maximum de tokens de sortie | 256 000 |
| Fonctionnalités listées | Serverless, appel de fonctions, sorties structurées, raisonnement |
| Étiquettes listées | MoE, >100B, NEW, En vedette |
| Limite de débit T1 par défaut | 30 RPM et 50 000 000 TPM |
Au 18 juin 2026, Novita liste ces prix de tokens pour stepfun/step-3.7-flash :
| Type de token | Prix affiché |
|---|---|
| Tokens d’entrée | 0,20 $ par million de tokens |
| Tokens de sortie | 1,15 $ par million de tokens |
| Tokens d’entrée en lecture de cache | 0,04 $ par million de tokens |
Les prix, la disponibilité des modèles, les limites de débit et les paramètres de requête pris en charge peuvent changer. Vérifiez la page du modèle Step 3.7 Flash et la page de tarification Novita AI avant l’examen des achats, le lancement en production ou tout engagement tarifaire destiné aux clients.
Comment appeler Step 3.7 Flash avec cURL ?
Pour le premier test de fumée, gardez la requête en texte uniquement. Cela confirme l’authentification, le routage du modèle, l’analyse de la réponse et la génération de base avant d’ajouter des outils, des schémas, des images ou des vidéos.
curl "https://api.novita.ai/openai/v1/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${NOVITA_API_KEY}" \
-d '{
"model": "stepfun/step-3.7-flash",
"messages": [
{
"role": "system",
"content": "Vous êtes un assistant technique concis."
},
{
"role": "user",
"content": "Créez une liste de contrôle en quatre étapes pour tester un bot de support multimodal avant sa sortie."
}
],
"max_tokens": 512,
"temperature": 0.2
}'
Une réponse réussie suit la forme des chat completions documentée par Novita AI : un tableau choices, un message avec le content généré, des métadonnées created/model, et un objet usage lorsque l’utilisation est renvoyée. Pour les réponses en streaming, la référence API note que l’utilisation apparaît dans le dernier fragment de réponse.
Utilisez ce test de fumée pour vérifier :
- La clé API est valide.
- L’ID du modèle est accepté.
- Votre client peut analyser
choices[0].message.content. - Votre journalisation capture l’utilisation des tokens (prompt, completion, total) sans stocker de secrets.
- Votre politique de délai d’attente et de réessai est adaptée à la taille de la requête.
Comment appeler Step 3.7 Flash depuis Python ?
Le modèle du SDK Python OpenAI fonctionne avec Novita AI lorsque vous définissez l’URL de base Novita. Installez et verrouillez la version du SDK dans votre propre projet conformément à votre politique de dépendances.
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key=os.environ["NOVITA_API_KEY"],
)
response = client.chat.completions.create(
model="stepfun/step-3.7-flash",
messages=[
{"role": "system", "content": "Vous êtes un assistant technique concis."},
{
"role": "user",
"content": "Résumez les risques de publication pour un workflow de support client qui accepte des captures d’écran et des tickets longs.",
},
],
max_tokens=512,
temperature=0.2,
)
print(response.choices[0].message.content)
Pour le code applicatif, encapsulez cela dans une petite passerelle de modèle plutôt que de disperser des appels API bruts dans la base de code. Une passerelle vous permet d’appliquer des limites de tokens par défaut, de définir des délais d’attente par route, de normaliser les erreurs et de changer de modèle pour l’évaluation sans modifier la logique métier.
Un wrapper de production pratique doit capturer :
model,prompt_tokens,completion_tokensettotal_tokens.- La latence de la requête et le nombre de tentatives.
- Le statut HTTP et la catégorie d’erreur API.
- Si des outils, un schéma JSON, une entrée image ou vidéo ont été utilisés.
- Un résumé de requête expurgé qui exclut les clés API et le contenu utilisateur sensible.
Ces données de télémétrie sont importantes car Step 3.7 Flash a une grande fenêtre de contexte et une limite de sortie élevée. Ces limites sont utiles, mais les systèmes en production doivent toujours définir explicitement max_tokens, rejeter les téléchargements utilisateur trop volumineux avant l’appel au modèle, et surveiller la longueur des sorties.
Comment gérer les entrées multimodales ?
Novita liste le texte, l’image et la vidéo comme modalités d’entrée pour Step 3.7 Flash et le texte comme modalité de sortie. Traitez cela comme la limite de capacité prise en charge, puis vérifiez la forme exacte de la charge utile dans la documentation ou la console actuelle de Novita avant de déployer une intégration multimodale.
Pour un démarrage rapide, utilisez cet ordre :
- Exécutez le test de fumée en texte uniquement.
- Ajoutez une entrée image en utilisant le format de message de chat Novita actuellement documenté.
- Validez la qualité de la réponse et la forme de la réponse sur votre tâche réelle.
- Ajoutez des lots d’images plus volumineux ou de la vidéo uniquement après avoir confirmé le format de requête, les limites de taille, la latence et le comportement des coûts.
Ne présumez pas que chaque forme de charge utile multimodale compatible OpenAI est acceptée par chaque modèle hébergé par Novita. La page du modèle Step 3.7 Flash vérifie le support des entrées image et vidéo, mais les exemples de requêtes vidéo sont plus sensibles à la gestion des fichiers, à l’accès aux URL, à la durée, à la taille et au formatage spécifique au modèle. Si la documentation ou l’exemple de console actuel ne montre pas la forme exacte de la charge utile vidéo dont vous avez besoin, évitez d’en coder en dur une à partir de la documentation d’un autre fournisseur.
Les bons premiers cas d’utilisation d’images incluent :
- Résumer une capture d’écran de support parallèlement au texte du ticket de l’utilisateur.
- Extraire l’état de l’interface utilisateur d’une capture d’écran de produit pour un assistant de triage interne.
- Examiner une image de QA visuelle et produire une liste de contrôle textuelle.
La vidéo doit être testée de manière plus conservatrice. Commencez par de courts clips, enregistrez la forme exacte de la requête qui fonctionne, capturez la latence et l’utilisation des tokens, et définissez un comportement de repli lorsque l’entrée vidéo est rejetée, trop volumineuse ou trop lente pour votre route.
Comment s’intègrent l’appel de fonctions et les sorties structurées ?
Step 3.7 Flash est listé avec l’appel de fonctions et les sorties structurées. Dans l’API chat completions, l’appel de fonctions est exposé via tools, et les sorties structurées via response_format.
Utilisez l’appel de fonctions lorsque le modèle doit choisir un outil et renvoyer des arguments JSON plutôt que de répondre directement à l’utilisateur. La référence API documente les outils de fonction avec un type de function, un function.name, une description, des parameters en JSON Schema, et un paramètre strict optionnel.
tools = [
{
"type": "function",
"function": {
"name": "create_support_ticket",
"description": "Crée un ticket de support interne à partir d’un problème signalé par un utilisateur.",
"parameters": {
"type": "object",
"properties": {
"summary": {"type": "string"},
"priority": {
"type": "string",
"enum": ["low", "medium", "high"],
},
"needs_human_review": {"type": "boolean"},
},
"required": ["summary", "priority", "needs_human_review"],
},
},
}
]
response = client.chat.completions.create(
model="stepfun/step-3.7-flash",
messages=[
{
"role": "user",
"content": "La page des paramètres de paiement renvoie une erreur 500 après que j’ai téléchargé une capture d’écran.",
}
],
tools=tools,
temperature=0.1,
)
Utilisez les sorties structurées lorsque votre application a besoin d’une réponse JSON validée et qu’aucun appel d’outil externe n’est requis. La référence API chat completions de Novita documente response_format avec json_schema et note que le mode strict prend en charge un sous-ensemble de JSON Schema. Gardez les premiers schémas petits, évitez les fonctionnalités de schéma exotiques, et échouez de manière sécurisée lorsque la réponse du modèle ne valide pas.
Pour le raisonnement, distinguez la capacité du modèle du comportement de la requête. La page du modèle Step 3.7 Flash liste le raisonnement comme une fonctionnalité, tandis que la référence API chat completions documente les paramètres liés au raisonnement avec des notes de prise en charge spécifiques au modèle. Avant de vous fier à un champ de raisonnement dans un analyseur de production, effectuez un test API avec stepfun/step-3.7-flash et gérez la forme exacte de la réponse que votre compte reçoit.
Comment les équipes doivent-elles budgéter et tester avant la production ?
Utilisez les prix des tokens listés pour estimer le premier budget, puis validez avec des journaux d’utilisation réels. Step 3.7 Flash est facturé différemment pour les entrées, les sorties et les lectures de cache : les longs prompts, les sorties verbeuses et les contextes répétés ont donc des profils de coûts différents.
Par exemple, une application qui envoie de longs transcripts de support peut dépenser la majeure partie de son budget en tokens d’entrée. Un agent qui demande des plans longs peut dépenser plus en tokens de sortie. Un workflow de récupération ou de mémoire qui réutilise le contexte peut bénéficier du prix de lecture de cache si le comportement de cache s’applique au modèle de requête déployé.
Avant la production, exécutez un ensemble d’évaluation qui inclut :
- Des prompts courts en texte uniquement pour la latence et la qualité de réponse de base.
- Des prompts longs proches de votre limite supérieure attendue, et non de la fenêtre de contexte maximale.
- Des prompts avec image correspondant à votre source de téléchargement réelle et à votre gestion des fichiers.
- Des prompts d’appel d’outil où le comportement correct est d’appeler une fonction.
- Des prompts avec schéma JSON qui testent intentionnellement des champs invalides, manquants et limites.
- Des cas d’échec pour des entrées trop volumineuses, des médias manquants, des clés API invalides et des délais d’attente.
Ne dirigez pas tout le trafic vers un nouveau modèle uniquement sur la base d’une liste de fonctionnalités. Les indicateurs de fonctionnalités vous disent ce qui est disponible ; l’évaluation vous dit si le modèle suit vos instructions, vos schémas, vos règles de sécurité et votre budget de latence sur votre charge de travail.
FAQ
Step 3.7 Flash est-il disponible via Novita AI ?
Oui. Novita liste Step 3.7 Flash comme un LLM Serverless avec l’ID de modèle API stepfun/step-3.7-flash.
Quel endpoint dois-je utiliser pour Step 3.7 Flash ?
Utilisez l’endpoint chat completions compatible OpenAI : POST https://api.novita.ai/openai/v1/chat/completions.
Step 3.7 Flash prend-il en charge les entrées image et vidéo ?
Novita liste le texte, l’image et la vidéo comme modalités d’entrée pour Step 3.7 Flash, avec le texte comme modalité de sortie. Utilisez la documentation actuelle de Novita ou des exemples de console pour vérifier la forme exacte de la charge utile image ou vidéo avant la production.
Combien coûte Step 3.7 Flash ?
Au 18 juin 2026, Novita liste stepfun/step-3.7-flash à 0,20 $ par million de tokens d’entrée, 1,15 $ par million de tokens de sortie, et 0,04 $ par million de tokens d’entrée en lecture de cache.
Step 3.7 Flash prend-il en charge l’appel de fonctions et les sorties structurées ?
Oui. Novita liste l’appel de fonctions et les sorties structurées comme fonctionnalités de Step 3.7 Flash. Utilisez tools pour l’appel de fonctions et response_format pour les sorties structurées, puis testez votre schéma et analyseur exacts avant la production.
Dois-je copier une charge utile vidéo d’un autre fournisseur ?
Non. Même lorsque les API sont compatibles OpenAI, la gestion des fichiers et URL multimodaux peut varier. Utilisez une forme de charge utile vérifiée dans la documentation actuelle de Novita, des exemples de console, ou votre propre test API réussi avec stepfun/step-3.7-flash.
