API Step 3.7 Flash en Novita AI: Guía de razonamiento multimodal

Tabla de contenido

¿Qué es Step 3.7 Flash en Novita AI?
Especificaciones, disponibilidad y precios de la API Step 3.7 Flash
¿Qué trabajo de razonamiento multimodal se adapta?
¿Cómo deberían los equipos evaluarlo antes de producción?
¿Cómo se compara la visión general del lanzamiento con la guía de inicio rápido?
Preguntas frecuentes
Artículos recomendados

La API Step 3.7 Flash está disponible en Novita AI para desarrolladores que necesitan un modelo de razonamiento multimodal a través de una API LLM sin servidor compatible con OpenAI: usa stepfun/step-3.7-flash con el endpoint de completaciones de chat de Novita AI cuando tu flujo de trabajo necesite entrada de texto, imagen o video, llamadas a herramientas, salidas estructuradas y una ventana de contexto de 256K. Si ya estás listo para enviar solicitudes, salta a la guía de inicio rápido de la API Step 3.7 Flash; si estás decidiendo si el modelo se ajusta a tu producto, comienza con las especificaciones, precios y la guía de evaluación a continuación.

¿Qué es Step 3.7 Flash en Novita AI?

Step 3.7 Flash es el modelo de razonamiento multimodal de alta eficiencia de StepFun, alojado en Novita AI para acceso LLM sin servidor. El ID del modelo API es stepfun/step-3.7-flash, y el modelo se expone a través del endpoint de completaciones de chat.

La respuesta práctica para los desarrolladores es directa: usa la API Step 3.7 Flash cuando tu flujo de trabajo necesite más que un chat de texto plano. Es adecuada para tareas de agente que combinan instrucciones largas, contexto visual o de video, salida estructurada y enrutamiento de herramientas. Los ejemplos incluyen analizar un video de demostración de un producto, convertir capturas de pantalla en tareas de implementación, planificar operaciones de varios pasos a partir de entradas multimedia mixtas, o usar un modelo para decidir cuándo debe ejecutarse una función de la aplicación.

No está destinado a reemplazar todos los modelos de texto más pequeños en tu pila. Si tu aplicación solo necesita respuestas cortas de preguntas frecuentes, extracción simple o clasificación de alto volumen, comienza comparando los modelos actuales en la biblioteca de modelos de Novita AI y los precios de Novita AI. Step 3.7 Flash se vuelve más atractivo cuando la entrada multimodal, el contexto largo o la planificación consciente de herramientas forman parte del requisito real del producto.

Especificaciones, disponibilidad y precios de la API Step 3.7 Flash

Novita AI muestra actualmente Step 3.7 Flash como un modelo LLM sin servidor con los siguientes detalles de implementación. La disponibilidad y los precios del modelo pueden cambiar, así que verifica la página del modelo en vivo antes del enrutamiento de producción y la revisión de adquisiciones.

Campo	Valor actual en Novita AI
Nombre mostrado	Step 3.7 Flash
ID del modelo API	`stepfun/step-3.7-flash`
Ruta de acceso	LLM sin servidor
Endpoint	`chat/completions`
Modalidades de entrada	Texto, imagen, video
Modalidad de salida	Texto
Ventana de contexto	262,144 tokens
Máx. tokens de salida	256,000 tokens
Llamada a funciones	Compatible
Salidas estructuradas	Compatible
Razonamiento	Compatible
Familia de modelos	StepFun
Etiqueta de arquitectura	MoE

Los precios actuales por token que se muestran para stepfun/step-3.7-flash son:

Tipo de token	Precio actual
Tokens de entrada	$0.20 por millón de tokens
Tokens de entrada de lectura en caché	$0.04 por millón de tokens
Tokens de salida	$1.15 por millón de tokens

La misma lista de modelos muestra niveles de tasa de solicitud desde T1 hasta T5. La cuota visible de T1 es de 30 RPM y 50,000,000 TPM, con valores de RPM más altos en niveles superiores. Trata esos límites como límites de plataforma para verificar durante la configuración de la cuenta, no como un sustituto de tus propias pruebas de carga.

Los precios importan porque las solicitudes multimodales y de contexto largo pueden crecer rápidamente. Un equipo de producto debe medir el tamaño del mensaje, el contexto derivado de los medios, la reutilización de lecturas en caché y la longitud de la salida por separado. Si un flujo de trabajo envía repetidamente el mismo mensaje del sistema, esquema de herramientas o bloque de instrucciones grande, las lecturas en caché pueden formar parte del diseño de costos. Si las respuestas se acercan regularmente a tamaños de salida grandes, los tokens de salida dominarán la factura más rápido que los tokens de entrada.

Un patrón útil de presupuesto es separar el tráfico de evaluación en tres grupos. Primero, mide una línea base de texto plano para la misma tarea. Segundo, agrega entrada de imagen o video y registra con qué frecuencia el contexto adicional cambia la respuesta. Tercero, prueba la versión de contexto largo con la política completa, el esquema o la documentación del producto adjunta. Si el tercer grupo mejora la precisión del enrutamiento o reduce la revisión manual, la solicitud más grande puede justificarse. Si no lo hace, mantén la ruta de producción más estrecha.

¿Qué trabajo de razonamiento multimodal se adapta?

Step 3.7 Flash es más interesante cuando el modelo tiene que razonar a través de diferentes tipos de entrada y luego producir un plan, decisión o respuesta estructurada.

Para los equipos de producto y soporte, eso puede significar pedirle al modelo que inspeccione una captura de pantalla de la interfaz de usuario o un clip de video corto, identifique el probable problema del usuario y devuelva un objeto JSON que enrute el ticket a la cola correcta. Para las herramientas de desarrollador, puede significar leer una grabación de pantalla de un error, el texto de error relacionado y un fragmento de código fuente, y luego producir una lista de verificación de reproducción. Para los flujos de trabajo de operaciones, puede significar combinar texto de política largo con evidencia visual y pedirle al modelo que produzca un plan de manejo paso a paso.

La distinción importante es que Step 3.7 Flash debe recibir la evidencia necesaria para la tarea. No le pidas que infiera detalles que nunca se proporcionaron. Si el flujo de trabajo depende de una consulta de base de datos, estado de facturación, estado del pedido o registro de implementación, expón esos datos a través de tu capa de aplicación o una llamada a herramienta en lugar de confiar en el conocimiento general del modelo.

Los buenos mensajes de evaluación incluyen:

Un mensaje de triaje de soporte con una captura de pantalla, la descripción del usuario y un esquema JSON requerido.
Un mensaje de control de calidad del producto con una entrada de video corta y una plantilla de informe de error.
Un mensaje de enrutamiento de herramientas donde el modelo debe elegir entre create_ticket, search_docs y escalate_to_human.
Un mensaje de análisis de contexto largo donde el mismo esquema de herramienta y texto de política pueden beneficiarse de lecturas en caché.

Evita comenzar con mensajes vagos como “analiza este video” o “razona sobre esta imagen”. Dale al modelo el trabajo, el límite de decisión y el formato de salida. Eso facilita comparar resultados entre modelos y medir si el contexto adicional y la entrada multimodal están dando sus frutos.

Para los flujos de trabajo de agentes, el soporte de herramientas del modelo es la parte que debes probar con más cuidado. Una buena evaluación de llamada a herramientas debe incluir casos donde la respuesta correcta es llamar a una herramienta, casos donde la respuesta correcta es pedir más información y casos donde no se debe ejecutar ninguna herramienta. Eso evita que la evaluación recompense acciones demasiado entusiastas solo porque el modelo puede emitir una llamada a función.

¿Cómo deberían los equipos evaluarlo antes de producción?

Comienza con un pequeño conjunto de pruebas que se asemeje a tu producto, no con un mensaje de referencia genérico. Incluye casos exitosos, casos límite y mensajes que no deberían desencadenar una llamada a herramienta. Si tu aplicación necesita salida estructurada, valida la salida contra tu esquema automáticamente en lugar de verificarla manualmente.

Una solicitud de texto mínima compatible con OpenAI utiliza la URL base de la API LLM de Novita AI y el ID de modelo verificado:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "system",
            "content": "You are a practical incident triage assistant. Return concise, structured recommendations.",
        },
        {
            "role": "user",
            "content": "Review this incident summary and identify the next three checks: API latency doubled after a deploy, database CPU is normal, error rate is flat.",
        },
    ],
    max_tokens=700,
    temperature=0.2,
)

print(response.choices[0].message.content)

Para la evaluación de producción, agrega cuatro verificaciones antes de enrutar el tráfico real de usuarios:

Verificación de costo: registra los tokens de entrada, lectura en caché y salida para solicitudes representativas.
Verificación de esquema: valida las salidas estructuradas automáticamente y reintenta o recurre a un plan de respaldo cuando las respuestas no coinciden.
Verificación de herramientas: prueba tanto los casos de llamada a herramienta como los de no llamada, incluidos mensajes ambiguos.
Verificación de medios: evalúa los formatos de imagen o video reales que envía tu aplicación, no solo resúmenes de texto de los medios.

La llamada a funciones y las salidas estructuradas son útiles, pero no eliminan la responsabilidad de la aplicación. Tu servicio aún necesita verificaciones de autorización, validación de entrada, ejecución idempotente de herramientas y registros de auditoría para acciones que cambien los datos del usuario.

Para las solicitudes multimodales, mantén la ruta de manejo de medios explícita. Almacena o referencia el activo de acuerdo con las reglas de privacidad de tu aplicación, conserva suficientes metadatos para depurar fallas y registra qué formato de solicitud se utilizó. Si aparece un problema de producción más adelante, querrás saber si el modelo vio la imagen o el video original, una versión comprimida, una muestra de fotograma o un resumen de texto generado por otro servicio.

¿Cómo se compara la visión general del lanzamiento con la guía de inicio rápido?

Este artículo es la visión general del lanzamiento y la fuente de verdad: disponibilidad, ID del modelo, precios, alcance multimodal y adecuación para desarrolladores. La guía de inicio rápido de la API Step 3.7 Flash separada profundiza en los payloads de las solicitudes, las entradas de imagen y video, ejemplos de llamadas a funciones y patrones de salida estructurada.

Esa separación es útil porque los lectores del lanzamiento generalmente necesitan responder: “¿Deberíamos evaluar este modelo?” Los lectores de la guía de inicio rápido necesitan responder: “¿Qué solicitud exacta debo enviar?” Mantener esos trabajos separados evita enterrar los hechos sobre precios y capacidades dentro de un tutorial largo, al mismo tiempo que deja espacio para los detalles de implementación donde corresponde.

Por ahora, el mejor siguiente paso es abrir la página del modelo Step 3.7 Flash, confirmar la tarifa actual y los límites para tu cuenta, y ejecutar un mensaje de evaluación estrecho que use los mismos medios, esquema de herramientas o salida estructurada que tu aplicación necesitará.

Preguntas frecuentes

¿Está disponible Step 3.7 Flash en Novita AI?

Sí. Novita AI actualmente lista Step 3.7 Flash como un modelo LLM sin servidor con el ID de modelo API stepfun/step-3.7-flash.

¿Qué entradas admite Step 3.7 Flash?

La página del modelo de Novita AI actualmente lista texto, imagen y video como modalidades de entrada compatibles. La modalidad de salida es texto.

¿Cuánto cuesta Step 3.7 Flash en Novita AI?

El precio actual en Novita AI para stepfun/step-3.7-flash es de $0.20 por millón de tokens de entrada, $0.04 por millón de tokens de entrada de lectura en caché y $1.15 por millón de tokens de salida.

¿Admite Step 3.7 Flash llamada a funciones?

Sí. La página del modelo de Novita AI actualmente lista llamada a funciones, salidas estructuradas y soporte de razonamiento para Step 3.7 Flash.

¿Qué endpoint deben usar los desarrolladores?

Usa el endpoint de completaciones de chat compatible con OpenAI de Novita AI con el ID de modelo stepfun/step-3.7-flash. La URL base para el uso del SDK compatible con OpenAI es https://api.novita.ai/openai.

API Step 3.7 Flash en Novita AI: Guía de razonamiento multimodal

¿Qué es Step 3.7 Flash en Novita AI?

Especificaciones, disponibilidad y precios de la API Step 3.7 Flash

¿Qué trabajo de razonamiento multimodal se adapta?

¿Cómo deberían los equipos evaluarlo antes de producción?

¿Cómo se compara la visión general del lanzamiento con la guía de inicio rápido?

Preguntas frecuentes

¿Está disponible Step 3.7 Flash en Novita AI?

¿Qué entradas admite Step 3.7 Flash?

¿Cuánto cuesta Step 3.7 Flash en Novita AI?

¿Admite Step 3.7 Flash llamada a funciones?

¿Qué endpoint deben usar los desarrolladores?

Artículos recomendados

Product

RESOURCES

Partners

Company

¿Qué es Step 3.7 Flash en Novita AI?

Especificaciones, disponibilidad y precios de la API Step 3.7 Flash

¿Qué trabajo de razonamiento multimodal se adapta?

¿Cómo deberían los equipos evaluarlo antes de producción?

¿Cómo se compara la visión general del lanzamiento con la guía de inicio rápido?

Preguntas frecuentes

¿Está disponible Step 3.7 Flash en Novita AI?

¿Qué entradas admite Step 3.7 Flash?

¿Cuánto cuesta Step 3.7 Flash en Novita AI?

¿Admite Step 3.7 Flash llamada a funciones?

¿Qué endpoint deben usar los desarrolladores?

Artículos recomendados

Publicaciones relacionadas

Product

RESOURCES

Partners

Company