Schritt 3.7 Flash API auf Novita AI: Multimodaler Schnellstart

Inhaltsverzeichnis

Was benötigen Sie, bevor Sie die API aufrufen?
Welche Step 3.7 Flash Fakten sind für die Implementierung wichtig?
Wie rufen Sie Step 3.7 Flash mit cURL auf?
Wie rufen Sie Step 3.7 Flash aus Python auf?
Wie sollten Sie multimodale Eingaben handhaben?
Wie passen Function Calling und strukturierte Ausgaben?
Wie sollten Teams budgetieren und vor der Produktion testen?
FAQ
Empfohlene Artikel

Step 3.7 Flash ist auf Novita AI als Serverless LLM mit der Modell-ID stepfun/step-3.7-flash verfügbar, bietet eine OpenAI-kompatible chat/completions-Schnittstelle, unterstützt Text-, Bild- und Videoeingaben, Textausgaben, Function Calling, strukturierte Ausgaben und Reasoning – wie auf der Modellseite aufgeführt. Dieser Schnellstart konzentriert sich auf den Entwickler-Workflow: wie man die API aufruft, welche Request-Muster heute sicher verwendet werden können, welche Preisfelder eingeplant werden müssen und worauf man achten sollte, bevor man multimodales oder Reasoning-Verhalten in die Produktion einbindet. Für einen breiteren Überblick über die Funktionen und die Positionierung des Modells siehe die Step 3.7 Flash API-Übersicht.

Was benötigen Sie, bevor Sie die API aufrufen?

Beginnen Sie mit drei Konfigurationselementen:

Element	Wert
API-Schlüssel	Erstellen und speichern Sie einen Novita AI API-Schlüssel in einer Umgebungsvariable wie `NOVITA_API_KEY`.
OpenAI-kompatible Basis-URL	`https://api.novita.ai/openai`
Chat-Completions-Endpunkt	`POST https://api.novita.ai/openai/v1/chat/completions`
Modell-ID	`stepfun/step-3.7-flash`

Das Novita AI Dokumentationsverzeichnis listet die OpenAI-kompatible Basis-URL auf, und die Chat-Completions-API-Referenz dokumentiert die Request- und Response-Felder für POST https://api.novita.ai/openai/v1/chat/completions.

Halten Sie den API-Schlüssel außerhalb der Versionskontrolle. Exportieren Sie ihn in Ihrer Shell während der lokalen Entwicklung. In der Produktion laden Sie ihn aus Ihrem Secret Manager:

export NOVITA_API_KEY="your_api_key"

Wenn Ihre Anwendung bereits OpenAI-kompatible Chat-Completions verwendet, ist der Migrationspfad in der Regel klein: Richten Sie den Client auf die Basis-URL von Novita AI, setzen Sie den Authorization-Bearer-Token und verwenden Sie die Step 3.7 Flash Modell-ID.

Welche Step 3.7 Flash Fakten sind für die Implementierung wichtig?

Verwenden Sie die genaue Modell-ID im Code und den Anzeigenamen in der benutzerseitigen Oberfläche. Die aktuelle Novita-Modellseite listet Step 3.7 Flash als Chat-Modell in der StepFun-Serie.

Feld	Aktueller Novita-Wert
Anzeigename	Step 3.7 Flash
API-Modell-ID	`stepfun/step-3.7-flash`
Von Novita angezeigte Modellfamilie	StepFun
Hosting-Typ	Serverless LLM
Endpunkt	`chat/completions`
Eingabemodalitäten	Text, Bild, Video
Ausgabemodalitäten	Text
Kontextfenster	262.144 Token
Maximale Ausgabetoken	256.000
Gelistete Funktionen	Serverless, Function Calling, strukturierte Ausgaben, Reasoning
Gelistete Labels	MoE, >100B, NEW, Featured
Standardmäßiges T1-Ratenlimit	30 RPM und 50.000.000 TPM

Stand 18. Juni 2026 listet Novita diese Token-Preise für stepfun/step-3.7-flash:

Tokentyp	Gelisteter Preis
Eingabetoken	$0,20 pro 1 Mio. Token
Ausgabetoken	$1,15 pro 1 Mio. Token
Cache-Lese-Eingabetoken	$0,04 pro 1 Mio. Token

Preise, Modellverfügbarkeit, Ratenlimits und unterstützte Request-Parameter können sich ändern. Prüfen Sie die Step 3.7 Flash Modellseite und die Novita AI Preisseite vor der Beschaffungsprüfung, dem Produktionsstart oder einer kundenorientierten Preisverpflichtung.

Wie rufen Sie Step 3.7 Flash mit cURL auf?

Halten Sie den Request für den ersten Smoke-Test reine Textform. Dies bestätigt Authentifizierung, Modell-Routing, Antwort-Parsing und grundlegende Generierung, bevor Sie Tools, Schemata, Bilder oder Videos hinzufügen.

curl "https://api.novita.ai/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${NOVITA_API_KEY}" \
  -d '{
    "model": "stepfun/step-3.7-flash",
    "messages": [
      {
        "role": "system",
        "content": "You are a concise technical assistant."
      },
      {
        "role": "user",
        "content": "Create a four-step checklist for testing a multimodal support bot before release."
      }
    ],
    "max_tokens": 512,
    "temperature": 0.2
  }'

Eine erfolgreiche Antwort folgt der von Novita AI dokumentierten Chat-Completions-Struktur: ein choices-Array, eine Nachricht mit generiertem content, erstellte/Modell-Metadaten und ein usage-Objekt, wenn die Nutzung zurückgegeben wird. Für Streaming-Antworten stellt die API-Referenz fest, dass die Nutzung im letzten Antwort-Chunk erscheint.

Verwenden Sie diesen Smoke-Test, um Folgendes zu überprüfen:

Der API-Schlüssel ist gültig.
Die Modell-ID wird akzeptiert.
Ihr Client kann choices[0].message.content parsen.
Ihr Logging erfasst Prompt-, Completion- und Gesamt-Token-Nutzung, ohne Geheimnisse zu speichern.
Ihre Timeout- und Wiederholungsrichtlinie ist für die Größe des Prompts angemessen.

Wie rufen Sie Step 3.7 Flash aus Python auf?

Das OpenAI Python SDK-Muster funktioniert mit Novita AI, wenn Sie die Novita-Basis-URL festlegen. Installieren und versionieren Sie das SDK in Ihrem eigenen Projekt gemäß Ihrer Abhängigkeitsrichtlinie.

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key=os.environ["NOVITA_API_KEY"],
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {"role": "system", "content": "You are a concise technical assistant."},
        {
            "role": "user",
            "content": "Summarize the release risks for a customer support workflow that accepts screenshots and long text tickets.",
        },
    ],
    max_tokens=512,
    temperature=0.2,
)

print(response.choices[0].message.content)

Für Anwendungscode umschließen Sie dies mit einem kleinen Modell-Gateway, anstatt rohe API-Aufrufe über die gesamte Codebasis zu streuen. Ein Gateway ermöglicht es Ihnen, Standard-Token-Limits durchzusetzen, pro-Route-Timeouts festzulegen, Fehler zu normalisieren und Modelle für Evaluierungen zu wechseln, ohne die Geschäftslogik zu ändern.

Ein praktischer Produktions-Wrapper sollte Folgendes erfassen:

model, prompt_tokens, completion_tokens und total_tokens.
Request-Latenz und Anzahl der Wiederholungen.
HTTP-Status und API-Fehlerkategorie.
Ob Tools, JSON-Schema, Bildeingabe oder Videoeingabe verwendet wurden.
Eine geschwärzte Request-Zusammenfassung, die API-Schlüssel und sensible Benutzerinhalte ausschließt.

Diese Telemetrie ist wichtig, da Step 3.7 Flash ein großes Kontextfenster und ein hohes maximales Ausgabelimit hat. Diese Limits sind nützlich, aber Produktionssysteme sollten dennoch explizite max_tokens setzen, überdimensionierte Benutzer-Uploads vor dem Modellaufruf ablehnen und die Ausgabelänge überwachen.

Wie sollten Sie multimodale Eingaben handhaben?

Novita listet Text, Bild und Video als Eingabemodalitäten für Step 3.7 Flash und Text als Ausgabemodalität auf. Behandeln Sie dies als die unterstützte Fähigkeitsgrenze und überprüfen Sie dann die genaue Payload-Form in der aktuellen Novita-Dokumentation oder -Konsole, bevor Sie eine multimodale Integration ausliefern.

Für einen Schnellstart verwenden Sie diese Reihenfolge:

Führen Sie den reinen Text-Smoke-Test durch.
Fügen Sie eine einzelne Bildeingabe mit dem aktuell dokumentierten Novita-Chat-Nachrichtenformat hinzu.
Validieren Sie die Antwortqualität und -form für Ihre reale Aufgabe.
Fügen Sie größere Bildstapel oder Video erst hinzu, nachdem Sie das Request-Format, die Größenlimits, die Latenz und das Kostenverhalten bestätigt haben.

Gehen Sie nicht davon aus, dass jede OpenAI-kompatible multimodale Payload-Form von jedem Novita-gehosteten Modell akzeptiert wird. Die Step 3.7 Flash Modellseite bestätigt die Bild- und Videoeingabeunterstützung, aber Video-Request-Beispiele sind empfindlicher in Bezug auf Dateihandhabung, URL-Zugriff, Dauer, Größe und modellspezifische Formatierung. Wenn die aktuelle Dokumentation oder das Konsolenbeispiel nicht die genaue Video-Payload-Form zeigt, die Sie benötigen, vermeiden Sie es, eine aus der Dokumentation eines anderen Anbieters fest zu codieren.

Gute erste Bild-Anwendungsfälle sind:

Zusammenfassen eines Support-Screenshots zusammen mit dem Tickettext des Benutzers.
Extrahieren des UI-Zustands aus einem Produkt-Screenshot für einen internen Triage-Assistenten.
Überprüfen eines visuellen QA-Bildes und Erstellen einer Text-Checkliste.

Video sollte konservativer getestet werden. Beginnen Sie mit kurzen Clips, notieren Sie die genaue Request-Form, die funktioniert, erfassen Sie Latenz und Token-Nutzung und definieren Sie Fallback-Verhalten, wenn die Videoeingabe abgelehnt, zu groß oder für Ihre Route zu langsam ist.

Wie passen Function Calling und strukturierte Ausgaben?

Step 3.7 Flash ist mit Function Calling und strukturierten Ausgaben gelistet. In der Chat-Completions-API wird Function Calling durch tools und strukturierte Ausgaben durch response_format bereitgestellt.

Verwenden Sie Function Calling, wenn das Modell ein Tool auswählen und JSON-Argumente zurückgeben soll, anstatt direkt auf den Benutzer zu antworten. Die API-Referenz dokumentiert Funktionstools mit einem type von function, einem function.name, einer description, JSON-Schema-parameters und einer optionalen strict-Einstellung.

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_support_ticket",
            "description": "Create an internal support ticket from a user-reported issue.",
            "parameters": {
                "type": "object",
                "properties": {
                    "summary": {"type": "string"},
                    "priority": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "needs_human_review": {"type": "boolean"},
                },
                "required": ["summary", "priority", "needs_human_review"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "user",
            "content": "The payment settings page returns a 500 error after I upload a screenshot.",
        }
    ],
    tools=tools,
    temperature=0.1,
)

Verwenden Sie strukturierte Ausgaben, wenn Ihre Anwendung eine validierte JSON-Antwort benötigt und kein externer Tool-Aufruf erforderlich ist. Die Chat-Completions-API-Referenz von Novita dokumentiert response_format mit json_schema und weist darauf hin, dass der strikte Modus eine Teilmenge von JSON Schema unterstützt. Halten Sie frühe Schemata klein, vermeiden Sie exotische Schema-Features und schlagen Sie fehl, wenn die Modellantwort nicht validiert.

Unterscheiden Sie beim Reasoning zwischen Modellfähigkeit und Request-Verhalten. Die Step 3.7 Flash Modellseite listet Reasoning als Funktion, während die Chat-Completions-API-Referenz reasoning-bezogene Parameter mit modellspezifischen Unterstützungshinweisen dokumentiert. Bevor Sie sich in einem Produktionsparser auf ein Reasoning-Feld verlassen, führen Sie einen API-Test mit stepfun/step-3.7-flash durch und verarbeiten Sie die genaue Antwortform, die Ihr Konto erhält.

Wie sollten Teams budgetieren und vor der Produktion testen?

Verwenden Sie die gelisteten Token-Preise, um das erste Budget zu schätzen, und validieren Sie dann mit echten Nutzungslogs. Step 3.7 Flash wird unterschiedlich für Eingabe, Ausgabe und Cache-Lesevorgänge bepreist, daher haben lange Prompts, ausführliche Ausgaben und wiederholter Kontext unterschiedliche Kostenprofile. Wenn Sie Novita AI mit anderen LLM-API-Anbietern vergleichen, deckt der Leitfaden Beste LLM-API-Anbieter 2026 Preisebenen, Ratenlimits und Anbieterabwägungen ab. Für Teams, die noch evaluieren, welcher Inferenzanbieter für einen Agenten-Workload geeignet ist, führt Inferenzanbieter für KI-Agenten wählen durch die wichtigsten Bewertungskriterien.

Beispielsweise könnte eine Anwendung, die große Support-Transkripte sendet, den Großteil ihres Budgets für Eingabe-Token ausgeben. Ein Agent, der lange Pläne anfordert, könnte mehr für Ausgabe-Token ausgeben. Ein Retrieval- oder Memory-Workflow, der Kontext wiederverwendet, könnte von Cache-Read-Preisen profitieren, wenn das Cache-Verhalten auf das bereitgestellte Request-Muster zutrifft.

Führen Sie vor der Produktion eine Evaluierungsreihe durch, die Folgendes umfasst:

Kurze, reine Text-Prompts für Latenz und grundlegende Antwortqualität.
Langkontext-Prompts in der Nähe Ihrer erwarteten Obergrenze, nicht des maximalen Kontextfensters.
Bild-Prompts, die Ihrer echten Upload-Quelle und Dateiverwaltung entsprechen.
Tool-Call-Prompts, bei denen das korrekte Verhalten darin besteht, eine Funktion aufzurufen.
JSON-Schema-Prompts, die absichtlich ungültige, fehlende und Grenzfallfelder testen.
Fehlerfälle für überdimensionierte Eingaben, fehlende Medien, ungültige API-Schlüssel und Timeouts.

Leiten Sie nicht den gesamten Datenverkehr basierend auf einer Funktionsliste zu einem neuen Modell. Feature-Flags sagen Ihnen, was verfügbar ist; Evaluierung sagt Ihnen, ob das Modell Ihre Anweisungen, Schemata, Sicherheitsregeln und Ihr Latenzbudget in Ihrem Workload einhält.

FAQ

Ist Step 3.7 Flash über Novita AI verfügbar?

Ja. Novita listet Step 3.7 Flash als Serverless LLM mit der API-Modell-ID stepfun/step-3.7-flash.

Welchen Endpunkt sollte ich für Step 3.7 Flash verwenden?

Verwenden Sie den OpenAI-kompatiblen Chat-Completions-Endpunkt: POST https://api.novita.ai/openai/v1/chat/completions.

Unterstützt Step 3.7 Flash Bild- und Videoeingabe?

Novita listet Text, Bild und Video als Eingabemodalitäten für Step 3.7 Flash und Text als Ausgabemodalität. Verwenden Sie die aktuellen Novita-Dokumente oder Konsolenbeispiele, um die genaue Bild- oder Video-Payload-Form vor der Produktion zu überprüfen.

Wie viel kostet Step 3.7 Flash?

Stand 18. Juni 2026 listet Novita stepfun/step-3.7-flash mit $0,20 pro 1 Mio. Eingabe-Token, $1,15 pro 1 Mio. Ausgabe-Token und $0,04 pro 1 Mio. Cache-Lese-Eingabe-Token.

Unterstützt Step 3.7 Flash Function Calling und strukturierte Ausgaben?

Ja. Novita listet Function Calling und strukturierte Ausgaben als Funktionen von Step 3.7 Flash. Verwenden Sie tools für Function Calling und response_format für strukturierte Ausgaben und testen Sie dann Ihr genaues Schema und Ihren Parser vor der Produktion.

Sollte ich eine Video-Payload von einem anderen Anbieter kopieren?

Nein. Auch wenn APIs OpenAI-kompatibel sind, können multimodale Datei- und URL-Handhabung variieren. Verwenden Sie eine Payload-Form, die in der aktuellen Novita-Dokumentation, Konsolenbeispielen oder Ihrem eigenen erfolgreichen API-Test für stepfun/step-3.7-flash verifiziert wurde.

Schritt 3.7 Flash API auf Novita AI: Multimodaler Schnellstart

Was benötigen Sie, bevor Sie die API aufrufen?

Welche Step 3.7 Flash Fakten sind für die Implementierung wichtig?

Wie rufen Sie Step 3.7 Flash mit cURL auf?

Wie rufen Sie Step 3.7 Flash aus Python auf?

Wie sollten Sie multimodale Eingaben handhaben?

Wie passen Function Calling und strukturierte Ausgaben?

Wie sollten Teams budgetieren und vor der Produktion testen?

FAQ

Ist Step 3.7 Flash über Novita AI verfügbar?

Welchen Endpunkt sollte ich für Step 3.7 Flash verwenden?

Unterstützt Step 3.7 Flash Bild- und Videoeingabe?

Wie viel kostet Step 3.7 Flash?

Unterstützt Step 3.7 Flash Function Calling und strukturierte Ausgaben?

Sollte ich eine Video-Payload von einem anderen Anbieter kopieren?

Empfohlene Artikel

Product

RESOURCES

Partners

Company

Was benötigen Sie, bevor Sie die API aufrufen?

Welche Step 3.7 Flash Fakten sind für die Implementierung wichtig?

Wie rufen Sie Step 3.7 Flash mit cURL auf?

Wie rufen Sie Step 3.7 Flash aus Python auf?

Wie sollten Sie multimodale Eingaben handhaben?

Wie passen Function Calling und strukturierte Ausgaben?

Wie sollten Teams budgetieren und vor der Produktion testen?

FAQ

Ist Step 3.7 Flash über Novita AI verfügbar?

Welchen Endpunkt sollte ich für Step 3.7 Flash verwenden?

Unterstützt Step 3.7 Flash Bild- und Videoeingabe?

Wie viel kostet Step 3.7 Flash?

Unterstützt Step 3.7 Flash Function Calling und strukturierte Ausgaben?

Sollte ich eine Video-Payload von einem anderen Anbieter kopieren?

Empfohlene Artikel

Ähnliche Beiträge

Product

RESOURCES

Partners

Company