- Was braucht man, bevor man die API aufruft?
- Welche Step‑3.7‑Flash‑Fakten sind für die Implementierung relevant?
- Wie ruft man Step 3.7 Flash mit cURL auf?
- Wie ruft man Step 3.7 Flash von Python aus auf?
- Wie sollte man multimodale Eingaben handhaben?
- Wie passen Funktionsaufrufe und strukturierte Ausgaben?
- Wie sollten Teams vor der Produktion budgetieren und testen?
- FAQ
- Empfohlene Artikel
Step 3.7 Flash ist auf Novita AI als Serverless LLM mit der Modell-ID stepfun/step-3.7-flash verfügbar und unterstützt OpenAI-kompatible chat/completions, Text‑, Bild- und Videoeingabe, Textausgabe, Funktionsaufrufe, strukturierte Ausgaben sowie Reasoning – wie auf der Modellseite aufgeführt. Dieser Schnellstart konzentriert sich auf den Entwickler-Workflow: wie man die API aufruft, welche Request-Muster heute sicher verwendet werden können, welche Preisfelder man einplanen sollte und worauf man achten muss, bevor man multimodale oder Reasoning-Funktionen in die Produktion einbindet.
Was braucht man, bevor man die API aufruft?
Starten Sie mit drei Konfigurationsstücken:
| Element | Wert |
|---|---|
| API-Key | Erstellen und speichern Sie einen Novita‑AI‑API-Key in einer Umgebungsvariable wie NOVITA_API_KEY. |
| OpenAI-kompatible Basis-URL | https://api.novita.ai/openai |
| Chat-Completions-Endpunkt | POST https://api.novita.ai/openai/v1/chat/completions |
| Modell-ID | stepfun/step-3.7-flash |
Der Novita AI Dokumentationsindex listet die OpenAI-kompatible Basis-URL auf, und die Chat-Completions-API-Referenz dokumentiert die Request- und Response-Felder für POST https://api.novita.ai/openai/v1/chat/completions.
Halten Sie den API-Key außerhalb der Versionskontrolle. In der lokalen Entwicklung exportieren Sie ihn in Ihrer Shell. In der Produktion laden Sie ihn aus Ihrem Secret Manager:
export NOVITA_API_KEY="your_api_key"
Wenn Ihre Anwendung bereits OpenAI-kompatible Chat Completions verwendet, ist der Migrationspfad meist klein: Client auf die Novita‑AI‑Basis-URL ausrichten, den Authorization-Bearer-Token setzen und die Step‑3.7‑Flash‑Modell-ID verwenden.
Welche Step‑3.7‑Flash‑Fakten sind für die Implementierung relevant?
Verwenden Sie die genaue Modell-ID im Code und den Anzeigenamen in der benutzerseitigen Oberfläche. Die aktuelle Novita-Modellseite listet Step 3.7 Flash als Chat-Modell in der StepFun-Serie.
| Feld | Aktueller Novita-Wert |
|---|---|
| Anzeigename | Step 3.7 Flash |
| API-Modell-ID | stepfun/step-3.7-flash |
| Von Novita angezeigte Modellfamilie | StepFun |
| Hosting-Typ | Serverless LLM |
| Endpunkt | chat/completions |
| Eingabe-Modalitäten | Text, Bild, Video |
| Ausgabe-Modalitäten | Text |
| Kontextfenster | 262.144 Token |
| Max. Ausgabetoken | 256.000 |
| Gelistete Features | Serverless, Funktionsaufrufe, strukturierte Ausgaben, Reasoning |
| Gelistete Labels | MoE, >100B, NEW, Featured |
| Standardmäßig gelistetes T1-Ratenlimit | 30 RPM und 50.000.000 TPM |
Stand 18. Juni 2026 listet Novita diese Token-Preise für stepfun/step-3.7-flash:
| Token-Typ | Gelisteter Preis |
|---|---|
| Eingabe-Token | 0,20 $ pro 1 Mio. Token |
| Ausgabe-Token | 1,15 $ pro 1 Mio. Token |
| Cache-Lese-Eingabe-Token | 0,04 $ pro 1 Mio. Token |
Preise, Modellverfügbarkeit, Ratenlimits und unterstützte Request-Parameter können sich ändern. Überprüfen Sie vor der Beschaffungsprüfung, dem Produktionsstart oder einer kundenorientierten Preisverpflichtung die Step‑3.7‑Flash‑Modellseite und die Novita‑AI‑Preisseite .
Wie ruft man Step 3.7 Flash mit cURL auf?
Halten Sie den Request für den ersten Rauchtest rein textbasiert. Das bestätigt Authentifizierung, Modell-Routing, Response-Parsing und grundlegende Generierung, bevor Sie Tools, Schemata, Bilder oder Video hinzufügen.
curl "https://api.novita.ai/openai/v1/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${NOVITA_API_KEY}" \
-d '{
"model": "stepfun/step-3.7-flash",
"messages": [
{
"role": "system",
"content": "You are a concise technical assistant."
},
{
"role": "user",
"content": "Erstelle eine Checkliste mit vier Schritten zum Testen eines multimodalen Support-Bots vor der Veröffentlichung."
}
],
"max_tokens": 512,
"temperature": 0.2
}'
Eine erfolgreiche Antwort folgt der von Novita AI dokumentierten Chat-Completions-Struktur: ein choices-Array, eine Nachricht mit generiertem content, created/model-Metadaten und ein usage-Objekt, wenn die Nutzung zurückgegeben wird. Bei Streaming-Antworten erscheint der Verbrauch laut API-Referenz im letzten Antwort-Chunk.
Verwenden Sie diesen Rauchtest, um Folgendes zu überprüfen:
- Der API-Key ist gültig.
- Die Modell-ID wird akzeptiert.
- Ihr Client kann
choices[0].message.contentparsen. - Ihr Logging erfasst Prompt-, Completion- und Gesamt-Tokenverbrauch, ohne Secrets zu speichern.
- Ihre Timeout- und Wiederholungsrichtlinie ist für die Größe des Prompts angemessen.
Wie ruft man Step 3.7 Flash von Python aus auf?
Das OpenAI Python SDK-Muster funktioniert mit Novita AI, wenn Sie die Novita-Basis-URL setzen. Installieren und version-pinnen Sie das SDK in Ihrem eigenen Projekt gemäß Ihrer Abhängigkeitsrichtlinie.
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key=os.environ["NOVITA_API_KEY"],
)
response = client.chat.completions.create(
model="stepfun/step-3.7-flash",
messages=[
{"role": "system", "content": "You are a concise technical assistant."},
{
"role": "user",
"content": "Fasse die Release-Risiken für einen Kundensupport-Workflow zusammen, der Screenshots und lange Text-Tickets akzeptiert.",
},
],
max_tokens=512,
temperature=0.2,
)
print(response.choices[0].message.content)
Für Anwendungscode sollten Sie dies in ein kleines Modell-Gateway einbinden, anstatt rohe API-Aufrufe über die Codebasis zu streuen. Ein Gateway ermöglicht es, Standard-Token-Limits zu erzwingen, routenspezifische Timeouts zu setzen, Fehler zu normalisieren und Modelle für Evaluierungen zu wechseln, ohne die Geschäftslogik zu ändern.
Ein praktischer Produktions-Wrapper sollte Folgendes erfassen:
model,prompt_tokens,completion_tokensundtotal_tokens.- Request-Latenz und Anzahl der Wiederholungen.
- HTTP-Status und API-Fehlerkategorie.
- Ob Tools, JSON-Schema, Bildeingabe oder Videoeingabe verwendet wurden.
- Eine geschwärzte Request-Zusammenfassung, die API-Keys und sensible Benutzerinhalte ausschließt.
Diese Telemetrie ist wichtig, denn Step 3.7 Flash hat ein großes Kontextfenster und eine hohe maximale Ausgabelimit. Diese Limits sind nützlich, aber Produktionssysteme sollten dennoch explizite max_tokens setzen, übermäßig große Benutzer-Uploads vor dem Modellaufruf ablehnen und die Ausgabelänge überwachen.
Wie sollte man multimodale Eingaben handhaben?
Novita listet Text, Bild und Video als Eingabe-Modalitäten für Step 3.7 Flash und Text als Ausgabe-Modalität. Behandeln Sie dies als die unterstützte Fähigkeitsgrenze und überprüfen Sie dann die genaue Payload-Form in den aktuellen Novita-Dokumenten oder der Konsole, bevor Sie eine multimodale Integration ausliefern.
Für einen Schnellstart verwenden Sie diese Reihenfolge:
- Führen Sie den rein textbasierten Rauchtest durch.
- Fügen Sie eine Bildeingabe mit dem derzeit dokumentierten Novita-Chat-Nachrichtenformat hinzu.
- Validieren Sie Antwortqualität und Antwortform an Ihrer realen Aufgabe.
- Fügen Sie größere Bildbatches oder Video erst hinzu, nachdem Sie Request-Format, Größenlimits, Latenz und Kostenverhalten bestätigt haben.
Gehen Sie nicht davon aus, dass jedes OpenAI-kompatible multimodale Payload-Format von jedem von Novita gehosteten Modell akzeptiert wird. Die Step‑3.7‑Flash‑Modellseite bestätigt die Unterstützung von Bild- und Videoeingaben, aber Video-Request-Beispiele sind empfindlicher in Bezug auf Dateihandling, URL-Zugriff, Dauer, Größe und modellspezifische Formatierung. Wenn die aktuellen Dokumente oder das Konsolenbeispiel nicht die genaue Video-Payload-Form zeigen, die Sie benötigen, vermeiden Sie es, eine aus den Dokumenten eines anderen Anbieters fest zu codieren.
Gute erste Bild-Anwendungsfälle sind:
- Zusammenfassung eines Support-Screenshots zusammen mit dem Benutzer-Tickettext.
- Extrahieren des UI-Zustands aus einem Produktscreenshot für einen internen Triage-Assistenten.
- Überprüfen eines visuellen QA-Bildes und Erstellen einer Text-Checkliste.
Video sollte konservativer getestet werden. Beginnen Sie mit kurzen Clips, notieren Sie die exakte Request-Form, die funktioniert, erfassen Sie Latenz und Token-Verbrauch und definieren Sie Fallback-Verhalten, wenn die Videoeingabe abgelehnt, zu groß oder für Ihre Route zu langsam ist.
Wie passen Funktionsaufrufe und strukturierte Ausgaben?
Step 3.7 Flash wird mit Funktionsaufrufen und strukturierten Ausgaben gelistet. In der Chat-Completions-API werden Funktionsaufrufe über tools und strukturierte Ausgaben über response_format bereitgestellt.
Verwenden Sie Funktionsaufrufe, wenn das Modell ein Tool auswählen und JSON-Argumente zurückgeben soll, anstatt direkt auf den Benutzer zu antworten. Die API-Referenz dokumentiert Funktionstools mit einem type von function, einem function.name, einer description, JSON-Schema-parameters und einer optionalen strict-Einstellung.
tools = [
{
"type": "function",
"function": {
"name": "create_support_ticket",
"description": "Erstelle ein internes Support-Ticket aus einem vom Benutzer gemeldeten Problem.",
"parameters": {
"type": "object",
"properties": {
"summary": {"type": "string"},
"priority": {
"type": "string",
"enum": ["low", "medium", "high"],
},
"needs_human_review": {"type": "boolean"},
},
"required": ["summary", "priority", "needs_human_review"],
},
},
}
]
response = client.chat.completions.create(
model="stepfun/step-3.7-flash",
messages=[
{
"role": "user",
"content": "Die Zahlungseinstellungsseite gibt einen 500-Fehler zurück, nachdem ich einen Screenshot hochgeladen habe.",
}
],
tools=tools,
temperature=0.1,
)
Verwenden Sie strukturierte Ausgaben, wenn Ihre Anwendung eine validierte JSON-Antwort benötigt und kein externer Tool-Aufruf erforderlich ist. Novitas Chat-Completions-API-Referenz dokumentiert response_format mit json_schema und weist darauf hin, dass der strikte Modus eine Teilmenge von JSON Schema unterstützt. Halten Sie frühe Schemata klein, vermeiden Sie exotische Schema-Features und schließen Sie fehl, wenn die Modellantwort nicht validiert.
Beim Reasoning unterscheiden Sie zwischen Modellfähigkeit und Request-Verhalten. Die Step‑3.7‑Flash‑Modellseite listet Reasoning als Feature, während die Chat-Completions-API-Referenz Reasoning-bezogene Parameter mit modellspezifischen Unterstützungshinweisen dokumentiert. Bevor Sie sich in einem Produktionsparser auf ein Reasoning-Feld verlassen, führen Sie einen API-Test mit stepfun/step-3.7-flash durch und verarbeiten Sie die genaue Antwortform, die Ihr Konto erhält.
Wie sollten Teams vor der Produktion budgetieren und testen?
Verwenden Sie die gelisteten Token-Preise, um das erste Budget zu schätzen, und validieren Sie dann mit echten Nutzungslogs. Step 3.7 Flash wird unterschiedlich für Eingabe, Ausgabe und Cache-Lesevorgänge bepreist, daher haben lange Prompts, ausführliche Ausgaben und wiederholter Kontext unterschiedliche Kostenprofile.
Zum Beispiel könnte eine Anwendung, die große Support-Transkripte sendet, den Großteil ihres Budgets für Eingabe-Token ausgeben. Ein Agent, der lange Pläne anfordert, könnte mehr für Ausgabe-Token ausgeben. Ein Retrieval- oder Memory-Workflow, der Kontext wiederverwendet, könnte von Cache-Lese-Preisen profitieren, wenn das Cache-Verhalten auf das bereitgestellte Request-Muster zutrifft.
Führen Sie vor der Produktion ein Evaluierungsset durch, das Folgendes enthält:
- Kurze rein textbasierte Prompts für Latenz und grundlegende Antwortqualität.
- Langkontext-Prompts nahe Ihrer erwarteten Obergrenze, nicht dem maximalen Kontextfenster.
- Bild-Prompts, die Ihrer echten Upload-Quelle und Dateiverarbeitung entsprechen.
- Tool-Call-Prompts, bei denen das korrekte Verhalten das Aufrufen einer Funktion ist.
- JSON-Schema-Prompts, die absichtlich ungültige, fehlende und Randfall-Felder testen.
- Fehlerfälle für übermäßig große Eingaben, fehlende Medien, ungültige API-Keys und Timeouts.
Leiten Sie nicht den gesamten Traffic basierend auf einer Feature-Liste an ein neues Modell weiter. Feature-Flags sagen Ihnen, was verfügbar ist; Evaluierung sagt Ihnen, ob das Modell Ihren Anweisungen, Schemata, Sicherheitsregeln und Latenzbudget in Ihrer Arbeitslast folgt.
FAQ
Ist Step 3.7 Flash über Novita AI verfügbar?
Ja. Novita listet Step 3.7 Flash als Serverless LLM mit der API-Modell-ID stepfun/step-3.7-flash.
Welchen Endpunkt sollte ich für Step 3.7 Flash verwenden?
Verwenden Sie den OpenAI-kompatiblen Chat-Completions-Endpunkt: POST https://api.novita.ai/openai/v1/chat/completions.
Unterstützt Step 3.7 Flash Bild- und Videoeingabe?
Novita listet Text, Bild und Video als Eingabe-Modalitäten für Step 3.7 Flash, mit Text als Ausgabe-Modalität. Verwenden Sie aktuelle Novita-Dokumente oder Konsolenbeispiele, um die genaue Bild- oder Video-Payload-Form vor der Produktion zu überprüfen.
Wie viel kostet Step 3.7 Flash?
Stand 18. Juni 2026 listet Novita stepfun/step-3.7-flash mit 0,20 $ pro 1 Mio. Eingabe-Token, 1,15 $ pro 1 Mio. Ausgabe-Token und 0,04 $ pro 1 Mio. Cache-Lese-Eingabe-Token.
Unterstützt Step 3.7 Flash Funktionsaufrufe und strukturierte Ausgaben?
Ja. Novita listet Funktionsaufrufe und strukturierte Ausgaben als Features von Step 3.7 Flash. Verwenden Sie tools für Funktionsaufrufe und response_format für strukturierte Ausgaben, und testen Sie dann Ihr genaues Schema und Ihren Parser vor der Produktion.
Sollte ich eine Video-Payload von einem anderen Anbieter kopieren?
Nein. Selbst wenn APIs OpenAI-kompatibel sind, können multimodale Datei- und URL-Handhabungen variieren. Verwenden Sie eine Payload-Form, die in aktuellen Novita-Dokumenten, Konsolenbeispielen oder Ihrem eigenen erfolgreichen API-Test für stepfun/step-3.7-flash verifiziert wurde.
