- Was ist Step 3.7 Flash auf Novita AI?
- Spezifikationen, Verfügbarkeit und Preise von Step 3.7 Flash
- Für welche multimodalen Reasoning-Aufgaben eignet es sich?
- Wie sollten Teams es vor der Produktion bewerten?
- Wie schneidet Step 3.7 Flash im Vergleich zu separaten Schnellstart-Arbeiten ab?
- FAQ
- Empfohlene Artikel
Step 3.7 Flash ist auf Novita AI als Serverless-LLM-API für Entwickler verfügbar, die ein multimodales Reasoning-Modell benötigen, das Text-, Bild- und Videoeingaben akzeptieren, Tools aufrufen, strukturierte Ausgaben zurückgeben und mit einem 256K-Kontextfenster über den Chat-Completions-Endpunkt arbeiten kann. Verwenden Sie es, wenn ein Workflow gemischte Medienkontexte und einen durchdachten Aktionsplan benötigt, nicht wenn ein kleines reines Textmodell die Aufgabe bereits lösen würde.
Was ist Step 3.7 Flash auf Novita AI?
Step 3.7 Flash ist StepFuns hocheffizientes multimodales Reasoning-Modell, das auf Novita AI für den Serverless-LLM-Zugriff gehostet wird. Die API-Modell-ID ist stepfun/step-3.7-flash, und das Modell wird über den Chat-Completions-Endpunkt bereitgestellt.
Die praktische Antwort für Entwickler ist einfach: Verwenden Sie Step 3.7 Flash, wenn Ihr Workflow mehr als einen reinen Text-Chat benötigt. Es eignet sich für agentische Aufgaben, die lange Anweisungen, visuellen oder Videokontext, strukturierte Ausgaben und Tool-Routing kombinieren. Beispiele sind die Analyse eines Produktvorführungsvideos, das Umwandeln von Screenshots in Implementierungsaufgaben, das Planen mehrstufiger Operationen aus gemischten Medieneingaben oder die Verwendung eines Modells, um zu entscheiden, wann eine Anwendungsfunktion ausgeführt werden soll.
Es ist nicht dazu gedacht, jedes kleinere Textmodell in Ihrem Stack zu ersetzen. Wenn Ihre Anwendung nur kurze FAQ-Antworten, einfache Extraktion oder Klassifizierung mit hohem Volumen benötigt, vergleichen Sie zunächst aktuelle Modelle in der Novita AI Modellbibliothek und den Novita AI Preisen. Step 3.7 Flash wird umso überzeugender, wenn multimodale Eingaben, langer Kontext oder tool-bewusstes Planen Teil der tatsächlichen Produktanforderung sind.
Spezifikationen, Verfügbarkeit und Preise von Step 3.7 Flash
Novita AI listet Step 3.7 Flash derzeit als Serverless-LLM-Modell mit den folgenden Implementierungsdetails. Modellverfügbarkeit und Preise können sich ändern. Überprüfen Sie daher vor dem Produktions-Routing die aktuelle Modellseite.
| Feld | Aktueller Wert bei Novita AI |
|---|---|
| Anzeigename | Step 3.7 Flash |
| API-Modell-ID | stepfun/step-3.7-flash |
| Zugriffspfad | Serverless LLM |
| Endpunkt | chat/completions |
| Eingabemodalitäten | Text, Bild, Video |
| Ausgabemodalität | Text |
| Kontextfenster | 262.144 Token |
| Max. Ausgabe-Token | 256.000 Token |
| Funktionsaufruf | Unterstützt |
| Strukturierte Ausgaben | Unterstützt |
| Reasoning | Unterstützt |
| Modellfamilie | StepFun |
| Architektur-Label | MoE |
Die aktuellen Token-Preise für stepfun/step-3.7-flash sind:
| Tokentyp | Aktueller Preis |
|---|---|
| Eingabe-Token | 0,20 $ pro Million Token |
| Zwischengespeicherte Lese-Eingabe-Token | 0,04 $ pro Million Token |
| Ausgabe-Token | 1,15 $ pro Million Token |
Dieselbe Modellauflistung zeigt Anforderungsraten-Stufen von T1 bis T5. Das sichtbare T1-Kontingent beträgt 30 RPM und 50.000.000 TPM, mit höheren RPM-Werten auf höheren Stufen. Behandeln Sie diese als Plattformlimits, die Sie während der Kontoerstellung überprüfen sollten, und nicht als Ersatz für Ihre eigenen Lasttests.
Die Preisgestaltung ist wichtig, da multimodale und langkontextuelle Anfragen schnell wachsen können. Ein Produktteam sollte die Prompt-Größe, den aus Medien abgeleiteten Kontext, die Wiederverwendung von Caches und die Ausgabelänge separat messen. Wenn ein Workflow wiederholt denselben System-Prompt, dasselbe Tool-Schema oder denselben großen Anweisungsblock sendet, können zwischengespeicherte Lesevorgänge Teil des Kostendesigns werden. Wenn Antworten regelmäßig große Ausgabegrößen erreichen, werden Ausgabe-Token die Rechnung schneller dominieren als Eingabe-Token.
Ein nützliches Budgetierungsmuster besteht darin, den Evaluierungsverkehr in drei Eimer zu unterteilen. Messen Sie zunächst eine reine Text-Baseline für dieselbe Aufgabe. Fügen Sie zweitens Bild- oder Videoeingaben hinzu und protokollieren Sie, wie oft der zusätzliche Kontext die Antwort ändert. Testen Sie drittens die Langkontext-Version mit der vollständigen Richtlinie, dem Schema oder der Produktdokumentation. Wenn der dritte Eimer die Routing-Genauigkeit verbessert oder manuelle Überprüfungen reduziert, kann die größere Anfrage gerechtfertigt werden. Wenn nicht, halten Sie den Produktionspfad enger.
Für welche multimodalen Reasoning-Aufgaben eignet es sich?
Step 3.7 Flash ist am interessantesten, wenn das Modell über verschiedene Arten von Eingaben hinweg argumentieren und dann einen Plan, eine Entscheidung oder eine strukturierte Antwort erstellen muss.
Für Produkt- und Supportteams kann dies bedeuten, das Modell zu bitten, einen UI-Screenshot oder ein kurzes Videoclip zu überprüfen, das wahrscheinliche Problem des Benutzers zu identifizieren und ein JSON-Objekt zurückzugeben, das das Ticket in die richtige Warteschlange leitet. Für Entwicklertools kann es bedeuten, eine Bildschirmaufnahme eines Fehlers, den zugehörigen Fehlertext und einen Quellausschnitt zu lesen und dann eine Reproduktionscheckliste zu erstellen. Für Betriebsabläufe kann es bedeuten, langen Richtlinientext mit visuellen Beweisen zu kombinieren und das Modell zu bitten, einen schrittweisen Bearbeitungsplan zu erstellen.
Der wichtige Unterschied ist, dass Step 3.7 Flash die für die Aufgabe erforderlichen Beweise erhalten sollte. Bitten Sie es nicht, Details zu erschließen, die nie geliefert wurden. Wenn der Workflow von einer Datenbanksuche, einem Abrechnungsstatus, einem Bestellstatus oder einem Bereitstellungsprotokoll abhängt, legen Sie diese Daten über Ihre Anwendungsebene oder einen Tool-Aufruf offen, anstatt sich auf das allgemeine Wissen des Modells zu verlassen.
Gute Evaluierungs-Prompts umfassen:
- Einen Support-Triage-Prompt mit einem Screenshot, der Beschreibung des Benutzers und einem erforderlichen JSON-Schema.
- Einen Produkt-QA-Prompt mit einer kurzen Videoeingabe und einer Fehlerberichtsvorlage.
- Einen Tool-Routing-Prompt, bei dem das Modell zwischen
create_ticket,search_docsundescalate_to_humanwählen muss. - Einen Langkontext-Analyse-Prompt, bei dem dasselbe Tool-Schema und derselbe Richtlinientext von zwischengespeicherten Lesevorgängen profitieren können.
Vermeiden Sie es, mit vagen Prompts wie „Analysiere dieses Video“ oder „Überlege zu diesem Bild“ zu beginnen. Geben Sie dem Modell die Aufgabe, die Entscheidungsgrenze und das Ausgabeformat. Dadurch wird es einfacher, Ergebnisse modelübergreifend zu vergleichen und zu messen, ob sich der zusätzliche Kontext und die multimodale Eingabe auszahlen.
Für Agent-Workflows ist die Tool-Unterstützung des Modells der Teil, der am sorgfältigsten getestet werden sollte. Eine gute Tool-Calling-Evaluierung sollte Fälle umfassen, in denen die richtige Antwort darin besteht, ein Tool aufzurufen, Fälle, in denen die richtige Antwort darin besteht, nach weiteren Informationen zu fragen, und Fälle, in denen kein Tool ausgeführt werden sollte. Dies verhindert, dass die Evaluierung übereifrige Aktionen belohnt, nur weil das Modell einen Funktionsaufruf ausgeben kann.
Wie sollten Teams es vor der Produktion bewerten?
Beginnen Sie mit einem kleinen Testsatz, der Ihrem Produkt ähnelt, nicht mit einem generischen Benchmark-Prompt. Fügen Sie Erfolgsfälle, Randfälle und Prompts hinzu, die keinen Tool-Aufruf auslösen sollten. Wenn Ihre Anwendung strukturierte Ausgaben benötigt, validieren Sie die Ausgabe automatisch anhand Ihres Schemas, anstatt sie manuell zu überprüfen.
Eine minimale OpenAI-kompatible Textanfrage verwendet die Novita AI Basis-URL und die verifizierte Modell-ID:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai",
)
response = client.chat.completions.create(
model="stepfun/step-3.7-flash",
messages=[
{
"role": "system",
"content": "Sie sind ein praktischer Incident-Triage-Assistent. Geben Sie prägnante, strukturierte Empfehlungen zurück.",
},
{
"role": "user",
"content": "Überprüfen Sie diese Zusammenfassung eines Vorfalls und identifizieren Sie die nächsten drei Prüfungen: Die API-Latenz hat sich nach einem Deployment verdoppelt, die Datenbank-CPU ist normal, die Fehlerrate ist flach.",
},
],
max_tokens=700,
temperature=0.2,
)
print(response.choices[0].message.content)
Fügen Sie für die Produktionsevaluierung vor dem Routing von echtem Benutzerverkehr vier Prüfungen hinzu:
- Kostenprüfung: Protokollieren Sie Eingabe-, zwischengespeicherte Lese- und Ausgabe-Token für repräsentative Anfragen.
- Schema-Prüfung: Validieren Sie strukturierte Ausgaben automatisch und wiederholen Sie den Vorgang oder fallen Sie zurück, wenn Antworten nicht übereinstimmen.
- Tool-Prüfung: Testen Sie sowohl Tool-Call- als auch No-Tool-Call-Fälle, einschließlich mehrdeutiger Prompts.
- Medienprüfung: Werten Sie die tatsächlichen Bild- oder Videoformate aus, die Ihre App sendet, nicht nur Textzusammenfassungen von Medien.
Funktionsaufrufe und strukturierte Ausgaben sind nützlich, aber sie entbinden die Anwendung nicht von ihrer Verantwortung. Ihr Dienst benötigt weiterhin Autorisierungsprüfungen, Eingabevalidierung, idempotente Tool-Ausführung und Prüfprotokolle für Aktionen, die Benutzerdaten ändern.
Für multimodale Anfragen halten Sie den Medienverarbeitungspfad explizit. Speichern oder referenzieren Sie das Asset gemäß den Datenschutzregeln Ihrer Anwendung, bewahren Sie genügend Metadaten auf, um Fehler zu beheben, und protokollieren Sie, welches Anforderungsformat verwendet wurde. Wenn später ein Produktionsproblem auftritt, möchten Sie wissen, ob das Modell das Originalbild oder -video, eine komprimierte Version, einen Frame-Auszug oder eine von einem anderen Dienst generierte Textzusammenfassung gesehen hat.
Wie schneidet Step 3.7 Flash im Vergleich zu separaten Schnellstart-Arbeiten ab?
Dieser Artikel ist der Start und die maßgebliche Übersicht: Verfügbarkeit, Modell-ID, Preise, multimodaler Umfang und Eignung für Entwickler. Ein separater Schnellstart-Artikel zu Step 3.7 Flash kann tiefer auf Anforderungspayloads, Bild- und Videoeingaben, Funktionsaufrufbeispiele und strukturierte Ausgabemuster eingehen.
Diese Aufteilung ist nützlich, da Leser nach einer Ankündigung normalerweise beantworten müssen: „Sollten wir dieses Modell evaluieren?“ Leser eines Schnellstarts müssen beantworten: „Welche genaue Anfrage soll ich senden?“ Wenn diese Aufgaben getrennt werden, vermeiden Sie es, Preis- und Leistungsdaten in einem langen Tutorial zu vergraben, und lassen dennoch Raum für Implementierungsdetails, wo sie hingehören.
Vorerst ist der beste nächste Schritt, die Step 3.7 Flash Modellseite zu öffnen, die aktuelle Preisliste und Limits für Ihr Konto zu bestätigen und einen engen Evaluierungs-Prompt auszuführen, der dieselben Medien, dasselbe Tool-Schema oder dieselbe strukturierte Ausgabe verwendet, die Ihre Anwendung benötigt.
FAQ
Ist Step 3.7 Flash auf Novita AI verfügbar?
Ja. Novita AI listet Step 3.7 Flash derzeit als Serverless-LLM-Modell mit der API-Modell-ID stepfun/step-3.7-flash.
Welche Eingaben unterstützt Step 3.7 Flash?
Die Novita AI Modellseite listet derzeit Text, Bild und Video als unterstützte Eingabemodalitäten. Die Ausgabemodalität ist Text.
Wie viel kostet Step 3.7 Flash auf Novita AI?
Die aktuellen Preise von Novita AI für stepfun/step-3.7-flash betragen 0,20 $ pro Million Eingabe-Token, 0,04 $ pro Million zwischengespeicherter Lese-Eingabe-Token und 1,15 $ pro Million Ausgabe-Token.
Unterstützt Step 3.7 Flash Funktionsaufrufe?
Ja. Die Novita AI Modellseite listet derzeit Funktionsaufrufe, strukturierte Ausgaben und Reasoning-Unterstützung für Step 3.7 Flash.
Welchen Endpunkt sollten Entwickler verwenden?
Verwenden Sie den OpenAI-kompatiblen Chat-Completions-Endpunkt von Novita AI mit der Modell-ID stepfun/step-3.7-flash. Die Basis-URL für die Verwendung des OpenAI-kompatiblen SDKs lautet https://api.novita.ai/openai.
