Étape 3.7 Flash API sur Novita AI : Guide de raisonnement multimodal

Table des matières

Qu'est-ce que Step 3.7 Flash sur Novita AI ?
Spécifications, disponibilité et tarification de l'API Step 3.7 Flash
À quel travail de raisonnement multimodal convient-il ?
Comment les équipes doivent-elles l'évaluer avant la production ?
En quoi la présentation du lancement diffère-t-elle du démarrage rapide ?
FAQ
Articles recommandés

L’API Step 3.7 Flash est disponible sur Novita AI pour les développeurs qui ont besoin d’un modèle de raisonnement multimodal via une API LLM sans serveur compatible OpenAI : utilisez stepfun/step-3.7-flash avec le point de terminaison de complétion de chat de Novita AI lorsque votre workflow nécessite une entrée textuelle, image ou vidéo, des appels d’outils, des sorties structurées et une fenêtre de contexte de 256K. Si vous êtes déjà prêt à envoyer des requêtes, passez au démarrage rapide de l’API Step 3.7 Flash ; si vous décidez si le modèle correspond à votre produit, commencez par les spécifications, la tarification et les conseils d’évaluation ci-dessous.

Qu’est-ce que Step 3.7 Flash sur Novita AI ?

Step 3.7 Flash est le modèle de raisonnement multimodal à haute efficacité de StepFun, hébergé sur Novita AI pour un accès LLM sans serveur. L’ID du modèle API est stepfun/step-3.7-flash, et le modèle est exposé via le point de terminaison de complétion de chat.

La réponse pratique pour les développeurs est simple : utilisez l’API Step 3.7 Flash lorsque votre workflow nécessite plus qu’une simple discussion textuelle. Il convient aux tâches agentiques qui combinent de longues instructions, un contexte visuel ou vidéo, une sortie structurée et un routage d’outils. Les exemples incluent l’analyse d’une vidéo de présentation de produit, la transformation de captures d’écran en tâches d’implémentation, la planification d’opérations en plusieurs étapes à partir d’entrées médias mixtes, ou l’utilisation d’un modèle pour décider quand une fonction d’application doit s’exécuter.

Il n’est pas destiné à remplacer tous les petits modèles de texte de votre pile. Si votre application n’a besoin que de courtes réponses FAQ, d’extraction simple ou de classification à volume élevé, commencez par comparer les modèles actuels dans la bibliothèque de modèles Novita AI et la tarification Novita AI. Step 3.7 Flash devient plus intéressant lorsque l’entrée multimodale, le contexte long ou la planification sensible aux outils fait partie de l’exigence réelle du produit.

Spécifications, disponibilité et tarification de l’API Step 3.7 Flash

Novita AI répertorie actuellement Step 3.7 Flash en tant que modèle LLM sans serveur avec les détails d’implémentation suivants. La disponibilité et la tarification du modèle peuvent changer, alors consultez la page du modèle en direct avant le routage de production et l’examen des achats.

Champ	Valeur actuelle Novita AI
Nom d’affichage	Step 3.7 Flash
ID du modèle API	`stepfun/step-3.7-flash`
Chemin d’accès	LLM sans serveur
Point de terminaison	`chat/completions`
Modalités d’entrée	Texte, image, vidéo
Modalité de sortie	Texte
Fenêtre de contexte	262 144 jetons
Jetons de sortie max	256 000 jetons
Appel de fonction	Pris en charge
Sorties structurées	Pris en charge
Raisonnement	Pris en charge
Famille de modèles	StepFun
Étiquette d’architecture	MoE

La tarification actuelle par jeton pour stepfun/step-3.7-flash est :

Type de jeton	Prix actuel
Jetons d’entrée	0,20 $ par million de jetons
Jetons d’entrée en lecture en cache	0,04 $ par million de jetons
Jetons de sortie	1,15 $ par million de jetons

La même liste de modèles montre des niveaux de taux de requête de T1 à T5. Le quota visible T1 est de 30 RPM et 50 000 000 TPM, avec des valeurs RPM plus élevées sur des niveaux supérieurs. Considérez-les comme des limites de plateforme à vérifier lors de la configuration du compte, et non comme un substitut à vos propres tests de charge.

La tarification est importante car les requêtes multimodales et à contexte long peuvent croître rapidement. Une équipe produit doit mesurer séparément la taille de l’invite, le contexte dérivé des médias, la réutilisation en cache et la longueur de la sortie. Si un workflow envoie à plusieurs reprises la même invite système, le même schéma d’outil ou le même bloc d’instructions volumineux, les lectures en cache peuvent faire partie de la conception des coûts. Si les réponses approchent régulièrement des grandes tailles de sortie, les jetons de sortie domineront la facture plus rapidement que les jetons d’entrée.

Un modèle de budgétisation utile consiste à séparer le trafic d’évaluation en trois catégories. D’abord, mesurez une ligne de base textuelle simple pour la même tâche. Ensuite, ajoutez une entrée image ou vidéo et enregistrez à quelle fréquence le contexte supplémentaire modifie la réponse. Troisièmement, testez la version à contexte long avec la politique complète, le schéma ou la documentation produit jointe. Si la troisième catégorie améliore la précision du routage ou réduit la révision manuelle, la requête plus volumineuse peut être justifiée. Si ce n’est pas le cas, gardez le chemin de production plus étroit.

À quel travail de raisonnement multimodal convient-il ?

Step 3.7 Flash est le plus intéressant lorsque le modèle doit raisonner sur différents types d’entrées, puis produire un plan, une décision ou une réponse structurée.

Pour les équipes produit et support, cela peut signifier demander au modèle d’inspecter une capture d’écran d’interface utilisateur ou un court clip vidéo, d’identifier le problème probable de l’utilisateur et de renvoyer un objet JSON qui achemine le ticket vers la bonne file d’attente. Pour les outils de développement, cela peut signifier lire un enregistrement d’écran d’un bug, le texte d’erreur associé et un extrait de source, puis produire une liste de contrôle de reproduction. Pour les workflows opérationnels, cela peut signifier combiner un long texte de politique avec des preuves visuelles et demander au modèle de produire un plan de traitement étape par étape.

La distinction importante est que Step 3.7 Flash doit recevoir les preuves nécessaires à la tâche. Ne lui demandez pas de déduire des détails qui n’ont jamais été fournis. Si le workflow dépend d’une recherche en base de données, d’un état de facturation, d’un statut de commande ou d’un enregistrement de déploiement, exposez ces données via votre couche d’application ou un appel d’outil au lieu de vous fier aux connaissances générales du modèle.

Les bonnes invites d’évaluation incluent :

Une invite de triage de support avec une capture d’écran, la description de l’utilisateur et un schéma JSON requis.
Une invite d’assurance qualité produit avec une entrée vidéo courte et un modèle de rapport de bug.
Une invite de routage d’outils où le modèle doit choisir entre create_ticket, search_docs et escalate_to_human.
Une invite d’analyse à contexte long où le même schéma d’outil et le même texte de politique peuvent bénéficier de lectures en cache.

Évitez de commencer par des invites vagues comme « analysez cette vidéo » ou « raisonnez sur cette image ». Donnez au modèle le travail, la limite de décision et le format de sortie. Cela facilite la comparaison des résultats entre les modèles et la mesure du rapport coût-bénéfice du contexte supplémentaire et de l’entrée multimodale.

Pour les workflows agents, le support d’outils du modèle est la partie à tester le plus soigneusement. Une bonne évaluation de l’appel d’outil devrait inclure des cas où la bonne réponse est d’appeler un outil, des cas où la bonne réponse est de demander plus d’informations, et des cas où aucun outil ne doit s’exécuter. Cela empêche l’évaluation de récompenser les actions trop zélées simplement parce que le modèle peut émettre un appel de fonction.

Comment les équipes doivent-elles l’évaluer avant la production ?

Commencez par un petit ensemble de tests qui ressemble à votre produit, pas à une invite de benchmark générique. Incluez des cas réussis, des cas limites et des invites qui ne devraient pas déclencher un appel d’outil. Si votre application a besoin de sorties structurées, validez la sortie par rapport à votre schéma au lieu de la vérifier manuellement.

Une requête textuelle minimale compatible OpenAI utilise l’URL de base de l’API LLM Novita AI et l’ID de modèle vérifié :

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "system",
            "content": "Vous êtes un assistant de triage d'incidents pratique. Renvoyez des recommandations concises et structurées.",
        },
        {
            "role": "user",
            "content": "Examinez ce résumé d'incident et identifiez les trois prochaines vérifications : la latence de l'API a doublé après un déploiement, le CPU de la base de données est normal, le taux d'erreur est stable.",
        },
    ],
    max_tokens=700,
    temperature=0.2,
)

print(response.choices[0].message.content)

Pour l’évaluation en production, ajoutez quatre vérifications avant d’acheminer le trafic utilisateur réel :

Vérification des coûts : enregistrez les jetons d’entrée, de lecture en cache et de sortie pour les requêtes représentatives.
Vérification du schéma : validez automatiquement les sorties structurées et réessayez ou utilisez un repli lorsque les réponses ne correspondent pas.
Vérification des outils : testez à la fois les cas d’appel d’outil et de non-appel d’outil, y compris les invites ambiguës.
Vérification des médias : évaluez les formats d’image ou de vidéo réels que votre application envoie, pas seulement les résumés textuels des médias.

Les appels de fonction et les sorties structurées sont utiles, mais ils ne suppriment pas la responsabilité de l’application. Votre service a toujours besoin de vérifications d’autorisation, de validation d’entrée, d’exécution d’outil idempotente et de journaux d’audit pour les actions qui modifient les données utilisateur.

Pour les requêtes multimodales, gardez le chemin de gestion des médias explicite. Stockez ou référencez l’actif conformément aux règles de confidentialité de votre application, conservez suffisamment de métadonnées pour déboguer les échecs et enregistrez le format de requête utilisé. Si un problème de production apparaît plus tard, vous voudrez savoir si le modèle a vu l’image ou la vidéo originale, une version compressée, un échantillon d’image ou un résumé textuel généré par un autre service.

En quoi la présentation du lancement diffère-t-elle du démarrage rapide ?

Cet article est la présentation du lancement et la source de vérité : disponibilité, ID du modèle, tarification, portée multimodale et adéquation pour les développeurs. Le démarrage rapide de l’API Step 3.7 Flash séparé approfondit les charges utiles des requêtes, les entrées image et vidéo, les exemples d’appel de fonction et les modèles de sortie structurée.

Cette séparation est utile car les lecteurs du lancement ont généralement besoin de répondre : « Devrions-nous évaluer ce modèle ? » Les lecteurs du démarrage rapide ont besoin de répondre : « Quelle requête exacte dois-je envoyer ? » Garder ces tâches séparées évite d’enterrer les faits de tarification et de capacité dans un long tutoriel, tout en laissant de la place pour les détails d’implémentation là où ils doivent être.

Pour l’instant, la meilleure prochaine étape est d’ouvrir la page du modèle Step 3.7 Flash, de confirmer la carte tarifaire et les limites actuelles pour votre compte, et d’exécuter une invite d’évaluation étroite qui utilise les mêmes médias, le même schéma d’outil ou la même sortie structurée dont votre application aura besoin.

FAQ

Step 3.7 Flash est-il disponible sur Novita AI ?

Oui. Novita AI répertorie actuellement Step 3.7 Flash comme modèle LLM sans serveur avec l’ID de modèle API stepfun/step-3.7-flash.

Quelles entrées Step 3.7 Flash prend-il en charge ?

La page du modèle Novita AI répertorie actuellement le texte, l’image et la vidéo comme modalités d’entrée prises en charge. La modalité de sortie est le texte.

Combien coûte Step 3.7 Flash sur Novita AI ?

La tarification actuelle de Novita AI pour stepfun/step-3.7-flash est de 0,20 $ par million de jetons d’entrée, 0,04 $ par million de jetons d’entrée en lecture en cache et 1,15 $ par million de jetons de sortie.

Step 3.7 Flash prend-il en charge l’appel de fonction ?

Oui. La page du modèle Novita AI répertorie actuellement l’appel de fonction, les sorties structurées et le support du raisonnement pour Step 3.7 Flash.

Quel point de terminaison les développeurs doivent-ils utiliser ?

Utilisez le point de terminaison de complétion de chat compatible OpenAI de Novita AI avec l’ID de modèle stepfun/step-3.7-flash. L’URL de base pour l’utilisation du SDK compatible OpenAI est https://api.novita.ai/openai.

Étape 3.7 Flash API sur Novita AI : Guide de raisonnement multimodal

Qu’est-ce que Step 3.7 Flash sur Novita AI ?

Spécifications, disponibilité et tarification de l’API Step 3.7 Flash

À quel travail de raisonnement multimodal convient-il ?

Comment les équipes doivent-elles l’évaluer avant la production ?

En quoi la présentation du lancement diffère-t-elle du démarrage rapide ?

FAQ

Step 3.7 Flash est-il disponible sur Novita AI ?

Quelles entrées Step 3.7 Flash prend-il en charge ?

Combien coûte Step 3.7 Flash sur Novita AI ?

Step 3.7 Flash prend-il en charge l’appel de fonction ?

Quel point de terminaison les développeurs doivent-ils utiliser ?

Articles recommandés

Product

RESOURCES

Partners

Company

Qu’est-ce que Step 3.7 Flash sur Novita AI ?

Spécifications, disponibilité et tarification de l’API Step 3.7 Flash

À quel travail de raisonnement multimodal convient-il ?

Comment les équipes doivent-elles l’évaluer avant la production ?

En quoi la présentation du lancement diffère-t-elle du démarrage rapide ?

FAQ

Step 3.7 Flash est-il disponible sur Novita AI ?

Quelles entrées Step 3.7 Flash prend-il en charge ?

Combien coûte Step 3.7 Flash sur Novita AI ?

Step 3.7 Flash prend-il en charge l’appel de fonction ?

Quel point de terminaison les développeurs doivent-ils utiliser ?

Articles recommandés

Articles associés

Product

RESOURCES

Partners

Company