Étape 3.7 Flash sur Novita AI : raisonnement multimodal, tarification et lancement

Étape 3.7 Flash sur Novita AI : raisonnement multimodal, tarification et lancement

L’étape 3.7 Flash est disponible sur Novita AI en tant qu’API LLM serverless pour les développeurs ayant besoin d’un modèle de raisonnement multimodal capable d’accepter du texte, des images et des vidéos, d’appeler des outils, de renvoyer des sorties structurées et de travailler avec une fenêtre de contexte de 256K via l’endpoint de chat completions. Utilisez-la lorsqu’un workflow nécessite un contexte multimédia et un plan d’action raisonné, et non lorsqu’un petit modèle textuel suffirait déjà à résoudre le problème.

Qu’est-ce que l’étape 3.7 Flash sur Novita AI ?

Step 3.7 Flash est le modèle de raisonnement multimodal haute efficacité de StepFun, hébergé sur Novita AI pour un accès LLM serverless. L’ID du modèle API est stepfun/step-3.7-flash, et le modèle est exposé via l’endpoint de chat completions.

La réponse pratique pour les développeurs est simple : utilisez Step 3.7 Flash lorsque votre workflow a besoin de plus qu’une simple conversation textuelle. Il convient aux tâches agentiques qui combinent de longues instructions, un contexte visuel ou vidéo, des sorties structurées et un routage d’outils. Exemples : analyser une vidéo de démonstration produit, transformer des captures d’écran en tâches d’implémentation, planifier des opérations en plusieurs étapes à partir d’entrées multimédia, ou utiliser un modèle pour décider quand une fonction applicative doit s’exécuter.

Il n’est pas destiné à remplacer tous les petits modèles textuels de votre pile. Si votre application n’a besoin que de réponses courtes à des FAQ, d’extractions simples ou de classifications à grand volume, commencez par comparer les modèles actuels dans la bibliothèque de modèles Novita AI et les tarifs Novita AI. Step 3.7 Flash devient plus intéressant lorsque l’entrée multimodale, le long contexte ou la planification consciente des outils fait partie du besoin produit réel.

Spécifications, disponibilité et tarification de Step 3.7 Flash

Novita AI liste actuellement Step 3.7 Flash comme modèle LLM serverless avec les détails d’implémentation suivants. La disponibilité et les tarifs peuvent changer, vérifiez la page du modèle en direct avant le routage en production.

Champ Valeur actuelle Novita AI
Nom d’affichage Step 3.7 Flash
ID du modèle API stepfun/step-3.7-flash
Chemin d’accès LLM serverless
Endpoint chat/completions
Modalités d’entrée Texte, image, vidéo
Modalité de sortie Texte
Fenêtre de contexte 262 144 tokens
Tokens de sortie max 256 000 tokens
Appel de fonctions Pris en charge
Sorties structurées Pris en charge
Raisonnement Pris en charge
Famille de modèles StepFun
Étiquette d’architecture MoE

La tarification actuelle par token pour stepfun/step-3.7-flash est :

Type de token Prix actuel
Tokens d’entrée 0,20 $ par million de tokens
Tokens d’entrée en lecture cache 0,04 $ par million de tokens
Tokens de sortie 1,15 $ par million de tokens

La même fiche modèle montre des paliers de taux de requêtes de T1 à T5. Le quota T1 visible est de 30 RPM et 50 000 000 TPM, avec des valeurs RPM plus élevées sur les paliers supérieurs. Traitez ces limites comme des contraintes de plateforme à vérifier lors de la configuration du compte, et non comme un substitut à vos propres tests de charge.

Les tarifs comptent car les requêtes multimodales et à long contexte peuvent rapidement grossir. Une équipe produit doit mesurer séparément la taille du prompt, le contexte dérivé des médias, la réutilisation des lectures cache et la longueur de la sortie. Si un workflow envoie à plusieurs reprises le même prompt système, le même schéma d’outil ou le même bloc d’instructions volumineux, les lectures cache peuvent faire partie de la conception des coûts. Si les réponses approchent régulièrement de grandes tailles de sortie, les tokens de sortie domineront la facture plus rapidement que les tokens d’entrée.

Un modèle de budgétisation utile consiste à séparer le trafic d’évaluation en trois catégories. D’abord, mesurez une référence textuelle simple pour la même tâche. Ensuite, ajoutez une entrée image ou vidéo et enregistrez la fréquence à laquelle le contexte supplémentaire change la réponse. Enfin, testez la version longue avec l’intégralité de la politique, du schéma ou de la documentation produit attachée. Si la troisième catégorie améliore la précision du routage ou réduit la relecture manuelle, la requête plus volumineuse peut être justifiée. Dans le cas contraire, gardez le chemin de production plus étroit.

À quel travail de raisonnement multimodal correspond-il ?

Step 3.7 Flash est le plus intéressant lorsque le modèle doit raisonner sur différents types d’entrée, puis produire un plan, une décision ou une réponse structurée.

Pour les équipes produit et support, cela peut signifier demander au modèle d’inspecter une capture d’écran d’interface ou un court clip vidéo, d’identifier le problème probable de l’utilisateur et de renvoyer un objet JSON qui aiguille le ticket vers la bonne file d’attente. Pour les outils développeur, cela peut signifier lire un enregistrement d’écran d’un bug, le texte d’erreur associé et un extrait de code source, puis produire une checklist de reproduction. Pour les workflows opérationnels, cela peut signifier combiner un long texte de politique avec une preuve visuelle et demander au modèle de produire un plan de traitement étape par étape.

La distinction importante est que Step 3.7 Flash doit recevoir les preuves nécessaires à la tâche. Ne lui demandez pas de déduire des détails qui n’ont jamais été fournis. Si le workflow dépend d’une recherche en base de données, d’un état de facturation, d’un statut de commande ou d’un enregistrement de déploiement, exposez ces données via votre couche applicative ou un appel d’outil plutôt que de vous fier aux connaissances générales du modèle.

Les bons prompts d’évaluation incluent :

  • Un prompt de triage support avec une capture d’écran, la description de l’utilisateur et un schéma JSON requis.
  • Un prompt d’assurance qualité produit avec une courte vidéo et un modèle de rapport de bug.
  • Un prompt de routage d’outil où le modèle doit choisir entre create_ticket, search_docs et escalate_to_human.
  • Un prompt d’analyse à long contexte où le même schéma d’outil et le même texte de politique peuvent bénéficier des lectures cache.

Évitez de commencer avec des prompts vagues comme « analysez cette vidéo » ou « raisonnez sur cette image ». Donnez au modèle le travail, la limite de décision et le format de sortie. Cela facilite la comparaison des résultats entre modèles et la mesure du retour sur investissement du contexte supplémentaire et de l’entrée multimodale.

Pour les workflows agentiques, le support des outils du modèle est la partie à tester le plus soigneusement. Une bonne évaluation de l’appel d’outils doit inclure des cas où la bonne réponse est d’appeler un outil, des cas où la bonne réponse est de demander plus d’informations, et des cas où aucun outil ne doit être exécuté. Cela évite de récompenser des actions trop zélées simplement parce que le modèle peut émettre un appel de fonction.

Comment les équipes doivent-elles l’évaluer avant la production ?

Commencez avec un petit ensemble de tests qui ressemble à votre produit, pas un prompt de benchmark générique. Incluez des cas réussis, des cas limites et des prompts qui ne doivent pas déclencher un appel d’outil. Si votre application a besoin de sorties structurées, validez la sortie par rapport à votre schéma au lieu de la vérifier manuellement.

Une requête textuelle minimale compatible OpenAI utilise l’URL de base Novita AI et l’ID de modèle vérifié :

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "system",
            "content": "You are a practical incident triage assistant. Return concise, structured recommendations.",
        },
        {
            "role": "user",
            "content": "Review this incident summary and identify the next three checks: API latency doubled after a deploy, database CPU is normal, error rate is flat.",
        },
    ],
    max_tokens=700,
    temperature=0.2,
)

print(response.choices[0].message.content)

Pour une évaluation en production, ajoutez quatre vérifications avant de router le trafic utilisateur réel :

  • Vérification des coûts : enregistrez les tokens d’entrée, de lecture cache et de sortie pour les requêtes représentatives.
  • Vérification du schéma : validez automatiquement les sorties structurées et réessayez ou utilisez un repli lorsque les réponses ne correspondent pas.
  • Vérification des outils : testez à la fois les cas d’appel d’outil et les cas sans appel d’outil, y compris les prompts ambigus.
  • Vérification des médias : évaluez les formats d’image ou de vidéo réels que votre application envoie, pas seulement des résumés textuels des médias.

L’appel de fonctions et les sorties structurées sont utiles, mais ils ne suppriment pas la responsabilité de l’application. Votre service a toujours besoin de contrôles d’autorisation, de validation d’entrée, d’exécution d’outil idempotente et de journaux d’audit pour les actions qui modifient les données utilisateur.

Pour les requêtes multimodales, gardez le chemin de gestion des médias explicite. Stockez ou référencez l’asset selon les règles de confidentialité de votre application, conservez suffisamment de métadonnées pour déboguer les échecs et enregistrez le format de requête utilisé. Si un problème de production apparaît plus tard, vous voudrez savoir si le modèle a vu l’image ou la vidéo originale, une version compressée, un échantillon d’image, ou un résumé textuel généré par un autre service.

En quoi Step 3.7 Flash se compare-t-il à un guide de démarrage rapide séparé ?

Cet article est le lancement et la vue d’ensemble de référence : disponibilité, ID du modèle, tarifs, portée multimodale et adéquation développeur. Un article séparé de démarrage rapide pour Step 3.7 Flash peut approfondir les charges utiles des requêtes, les entrées image et vidéo, les exemples d’appel de fonctions et les motifs de sorties structurées.

Cette séparation est utile car les lecteurs du lancement ont généralement besoin de répondre à la question : « Devrions-nous évaluer ce modèle ? » Les lecteurs du guide de démarrage rapide ont besoin de répondre à la question : « Quelle requête exacte dois-je envoyer ? » Garder ces objectifs séparés évite d’enterrer les faits de tarification et de capacités dans un long tutoriel, tout en laissant de la place aux détails d’implémentation là où ils doivent être.

Pour l’instant, la meilleure prochaine étape est d’ouvrir la page du modèle Step 3.7 Flash, de confirmer la grille tarifaire et les limites actuelles pour votre compte, et d’exécuter un prompt d’évaluation restreint qui utilise les mêmes médias, le même schéma d’outil ou la même sortie structurée dont votre application aura besoin.

FAQ

Step 3.7 Flash est-il disponible sur Novita AI ?

Oui. Novita AI liste actuellement Step 3.7 Flash comme modèle LLM serverless avec l’ID de modèle API stepfun/step-3.7-flash.

Quelles entrées Step 3.7 Flash prend-il en charge ?

La page du modèle Novita AI liste actuellement le texte, l’image et la vidéo comme modalités d’entrée prises en charge. La modalité de sortie est le texte.

Combien coûte Step 3.7 Flash sur Novita AI ?

Les tarifs actuels de Novita AI pour stepfun/step-3.7-flash sont de 0,20 $ par million de tokens d’entrée, 0,04 $ par million de tokens d’entrée en lecture cache et 1,15 $ par million de tokens de sortie.

Step 3.7 Flash prend-il en charge l’appel de fonctions ?

Oui. La page du modèle Novita AI liste actuellement l’appel de fonctions, les sorties structurées et le support du raisonnement pour Step 3.7 Flash.

Quel endpoint les développeurs doivent-ils utiliser ?

Utilisez l’endpoint de chat completions compatible OpenAI de Novita AI avec l’ID de modèle stepfun/step-3.7-flash. L’URL de base pour l’utilisation du SDK compatible OpenAI est https://api.novita.ai/openai.

Articles recommandés