- ¿Qué es Step 3.7 Flash en Novita AI?
- Especificaciones, disponibilidad y precios de Step 3.7 Flash
- ¿Qué trabajo de razonamiento multimodal encaja?
- ¿Cómo deben evaluarlo los equipos antes de producción?
- ¿Cómo se compara Step 3.7 Flash con un trabajo de inicio rápido separado?
- Preguntas frecuentes
- Artículos recomendados
Step 3.7 Flash está disponible en Novita AI como una API LLM sin servidor para desarrolladores que necesitan un modelo de razonamiento multimodal capaz de aceptar texto, imagen y video, llamar herramientas, devolver salidas estructuradas y trabajar con una ventana de contexto de 256K a través del endpoint de chat completions. Úsalo cuando un flujo de trabajo necesite contexto multimedia mixto y un plan de acción razonado, no cuando un modelo pequeño solo de texto ya resuelva el trabajo.
¿Qué es Step 3.7 Flash en Novita AI?
Step 3.7 Flash es el modelo de razonamiento multimodal de alta eficiencia de StepFun, alojado en Novita AI para acceso LLM sin servidor. El ID del modelo API es stepfun/step-3.7-flash y el modelo se expone a través del endpoint de chat completions.
La respuesta práctica para los desarrolladores es directa: usa Step 3.7 Flash cuando tu flujo de trabajo necesite más que un chat de texto simple. Es adecuado para tareas agénticas que combinan instrucciones largas, contexto visual o de video, salida estructurada y enrutamiento de herramientas. Algunos ejemplos incluyen analizar un video de demostración de producto, convertir capturas de pantalla en tareas de implementación, planificar operaciones de múltiples pasos a partir de entradas multimedia mixtas, o usar un modelo para decidir cuándo debe ejecutarse una función de la aplicación.
No está pensado para reemplazar todos los modelos de texto más pequeños en tu pila. Si tu aplicación solo necesita respuestas cortas de preguntas frecuentes, extracción simple o clasificación de alto volumen, comienza comparando los modelos actuales en la biblioteca de modelos de Novita AI y los precios de Novita AI. Step 3.7 Flash se vuelve más atractivo cuando la entrada multimodal, el contexto largo o la planificación consciente de herramientas son parte del requisito real del producto.
Especificaciones, disponibilidad y precios de Step 3.7 Flash
Novita AI actualmente lista Step 3.7 Flash como un modelo LLM sin servidor con los siguientes detalles de implementación. La disponibilidad y los precios del modelo pueden cambiar, así que verifica la página del modelo en vivo antes de enrutar en producción.
| Campo | Valor actual en Novita AI |
|---|---|
| Nombre mostrado | Step 3.7 Flash |
| ID del modelo API | stepfun/step-3.7-flash |
| Ruta de acceso | LLM sin servidor |
| Endpoint | chat/completions |
| Modalidades de entrada | Texto, imagen, video |
| Modalidad de salida | Texto |
| Ventana de contexto | 262,144 tokens |
| Máximo de tokens de salida | 256,000 tokens |
| Llamada a funciones | Compatible |
| Salidas estructuradas | Compatible |
| Razonamiento | Compatible |
| Familia de modelos | StepFun |
| Etiqueta de arquitectura | MoE |
Los precios por token actuales mostrados para stepfun/step-3.7-flash son:
| Tipo de token | Precio actual |
|---|---|
| Tokens de entrada | $0.20 por millón de tokens |
| Tokens de entrada en caché leídos | $0.04 por millón de tokens |
| Tokens de salida | $1.15 por millón de tokens |
La misma lista de modelos muestra niveles de tasa de solicitudes desde T1 hasta T5. La cuota visible de T1 es 30 RPM y 50,000,000 TPM, con valores de RPM más altos en niveles superiores. Trátalos como límites de plataforma que debes verificar durante la configuración de la cuenta, no como un sustituto de tus propias pruebas de carga.
Los precios importan porque las solicitudes multimodales y de contexto largo pueden aumentar rápidamente. Un equipo de producto debe medir por separado el tamaño del prompt, el contexto derivado de los medios, la reutilización de lecturas en caché y la longitud de la salida. Si un flujo de trabajo envía repetidamente el mismo prompt del sistema, esquema de herramientas o bloque de instrucciones grande, las lecturas en caché pueden convertirse en parte del diseño de costos. Si las respuestas se acercan regularmente a tamaños de salida grandes, los tokens de salida dominarán la factura más rápido que los tokens de entrada.
Un patrón útil para presupuestar es separar el tráfico de evaluación en tres grupos. Primero, mide una línea base de solo texto para la misma tarea. Segundo, agrega entrada de imagen o video y registra con qué frecuencia el contexto adicional cambia la respuesta. Tercero, prueba la versión de contexto largo con la política completa, el esquema o la documentación del producto adjunta. Si el tercer grupo mejora la precisión del enrutamiento o reduce la revisión manual, la solicitud más grande puede justificarse. Si no es así, mantén la ruta de producción más estrecha.
¿Qué trabajo de razonamiento multimodal encaja?
Step 3.7 Flash es más interesante cuando el modelo tiene que razonar a través de diferentes tipos de entrada y luego producir un plan, una decisión o una respuesta estructurada.
Para equipos de producto y soporte, esto puede significar pedirle al modelo que inspeccione una captura de pantalla de la interfaz de usuario o un clip de video corto, identifique el posible problema del usuario y devuelva un objeto JSON que enrute el ticket a la cola correcta. Para herramientas de desarrollador, puede significar leer una grabación de pantalla de un error, el texto de error relacionado y un fragmento de código fuente, y luego producir una lista de verificación de reproducción. Para flujos de trabajo operativos, puede significar combinar texto de política largo con evidencia visual y pedirle al modelo que produzca un plan de manejo paso a paso.
La distinción importante es que Step 3.7 Flash debe recibir la evidencia necesaria para la tarea. No le pidas que infiera detalles que nunca se proporcionaron. Si el flujo de trabajo depende de una consulta a base de datos, estado de facturación, estado del pedido o registro de implementación, expón esos datos a través de tu capa de aplicación o una llamada a herramienta en lugar de depender del conocimiento general del modelo.
Algunos prompts de evaluación buenos incluyen:
- Un prompt de triaje de soporte con una captura de pantalla, la descripción del usuario y un esquema JSON requerido.
- Un prompt de aseguramiento de calidad de producto con una entrada de video corta y una plantilla de informe de errores.
- Un prompt de enrutamiento de herramientas donde el modelo debe elegir entre
create_ticket,search_docsyescalate_to_human. - Un prompt de análisis de contexto largo donde el mismo esquema de herramientas y texto de política pueden beneficiarse de lecturas en caché.
Evita comenzar con prompts vagos como “analiza este video” o “razona sobre esta imagen”. Dale al modelo el trabajo, el límite de decisión y el formato de salida. Eso facilita comparar resultados entre modelos y medir si el contexto adicional y la entrada multimodal están dando resultados.
Para flujos de trabajo de agentes, el soporte de herramientas del modelo es la parte que debes probar con más cuidado. Una buena evaluación de llamada a funciones debe incluir casos donde la respuesta correcta es llamar a una herramienta, casos donde la respuesta correcta es pedir más información y casos donde no debería ejecutarse ninguna herramienta. Eso evita que la evaluación recompense acciones demasiado entusiastas solo porque el modelo puede emitir una llamada de función.
¿Cómo deben evaluarlo los equipos antes de producción?
Comienza con un conjunto de prueba pequeño que se asemeje a tu producto, no con un prompt de benchmark genérico. Incluye casos exitosos, casos límite y prompts que no deberían activar una llamada a herramienta. Si tu aplicación necesita salida estructurada, valida la salida contra tu esquema en lugar de verificarla manualmente.
Una solicitud de texto mínima compatible con OpenAI usa la URL base de Novita AI y el ID de modelo verificado:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai",
)
response = client.chat.completions.create(
model="stepfun/step-3.7-flash",
messages=[
{
"role": "system",
"content": "Eres un asistente práctico de triaje de incidentes. Devuelve recomendaciones estructuradas y concisas.",
},
{
"role": "user",
"content": "Revisa este resumen de incidente e identifica las siguientes tres comprobaciones: la latencia de la API se duplicó después de un despliegue, la CPU de la base de datos es normal, la tasa de error es plana.",
},
],
max_tokens=700,
temperature=0.2,
)
print(response.choices[0].message.content)
Para evaluación en producción, agrega cuatro comprobaciones antes de enrutar tráfico real de usuarios:
- Comprobación de costos: registra tokens de entrada, lectura en caché y salida para solicitudes representativas.
- Comprobación de esquema: valida automáticamente las salidas estructuradas y reintenta o recurre a un plan alternativo cuando las respuestas no coinciden.
- Comprobación de herramientas: prueba tanto casos con llamada a función como sin ella, incluyendo prompts ambiguos.
- Comprobación de medios: evalúa los formatos de imagen o video reales que tu aplicación envía, no solo resúmenes de texto de los medios.
El llamado a funciones y las salidas estructuradas son útiles, pero no eliminan la responsabilidad de la aplicación. Tu servicio aún necesita comprobaciones de autorización, validación de entrada, ejecución idempotente de herramientas y registros de auditoría para acciones que cambian datos de usuario.
Para solicitudes multimodales, mantén explícita la ruta de manejo de medios. Almacena o referencia el activo de acuerdo con las reglas de privacidad de tu aplicación, conserva suficientes metadatos para depurar fallos y registra el formato de solicitud utilizado. Si aparece un problema de producción más tarde, querrás saber si el modelo vio la imagen o el video original, una versión comprimida, una muestra de fotogramas o un resumen de texto generado por otro servicio.
¿Cómo se compara Step 3.7 Flash con un trabajo de inicio rápido separado?
Este artículo es la descripción general de lanzamiento y fuente de referencia: disponibilidad, ID del modelo, precios, alcance multimodal e idoneidad para desarrolladores. Un artículo separado de inicio rápido de Step 3.7 Flash puede profundizar en las cargas útiles de solicitud, las entradas de imagen y video, los ejemplos de llamado a funciones y los patrones de salida estructurada.
Esa división es útil porque los lectores de lanzamiento generalmente necesitan responder: “¿Deberíamos evaluar este modelo?” Los lectores de inicio rápido necesitan responder: “¿Qué solicitud exacta debo enviar?” Mantener esos trabajos separados evita enterrar los hechos de precios y capacidades dentro de un tutorial largo, mientras que aún deja espacio para detalles de implementación donde corresponde.
Por ahora, el mejor siguiente paso es abrir la página del modelo Step 3.7 Flash, confirmar la tarifa actual y los límites para tu cuenta, y ejecutar un prompt de evaluación estrecho que use los mismos medios, esquema de herramientas o salida estructurada que tu aplicación necesitará.
Preguntas frecuentes
¿Step 3.7 Flash está disponible en Novita AI?
Sí. Novita AI actualmente lista Step 3.7 Flash como un modelo LLM sin servidor con el ID de modelo API stepfun/step-3.7-flash.
¿Qué entradas soporta Step 3.7 Flash?
La página del modelo de Novita AI actualmente lista texto, imagen y video como modalidades de entrada compatibles. La modalidad de salida es texto.
¿Cuánto cuesta Step 3.7 Flash en Novita AI?
Los precios actuales de Novita AI para stepfun/step-3.7-flash son $0.20 por millón de tokens de entrada, $0.04 por millón de tokens de entrada en caché leídos y $1.15 por millón de tokens de salida.
¿Step 3.7 Flash es compatible con llamado a funciones?
Sí. La página del modelo de Novita AI actualmente lista soporte de llamado a funciones, salidas estructuradas y razonamiento para Step 3.7 Flash.
¿Qué endpoint deben usar los desarrolladores?
Usa el endpoint de chat completions compatible con OpenAI de Novita AI con el ID de modelo stepfun/step-3.7-flash. La URL base para el uso del SDK compatible con OpenAI es https://api.novita.ai/openai.
