API Step 3.7 Flash en Novita AI: Inicio rápido multimodal

API Step 3.7 Flash en Novita AI: Inicio rápido multimodal

Step 3.7 Flash está disponible en Novita AI como un LLM sin servidor con el ID de modelo stepfun/step-3.7-flash, compatible con OpenAI para chat/completions, soporte de entrada de texto, imagen y video, salida de texto, llamada a funciones, salidas estructuradas y razonamiento listados en la página del modelo. Esta guía de inicio rápido se centra en el flujo de trabajo del desarrollador: cómo llamar a la API, qué patrones de solicitud son seguros de usar hoy, qué campos de precios debes presupuestar y dónde tener cuidado antes de integrar comportamiento multimodal o de razonamiento en producción.

¿Qué necesitas antes de llamar a la API?

Comienza con tres elementos de configuración:

Elemento Valor
Clave API Crea y almacena una clave API de Novita AI en una variable de entorno como NOVITA_API_KEY.
URL base compatible con OpenAI https://api.novita.ai/openai
Endpoint de completaciones de chat POST https://api.novita.ai/openai/v1/chat/completions
ID del modelo stepfun/step-3.7-flash

El índice de documentación de Novita AI lista la URL base compatible con OpenAI, y la referencia de la API de completaciones de chat documenta los campos de solicitud y respuesta para POST https://api.novita.ai/openai/v1/chat/completions.

Mantén la clave API fuera del control de versiones. En desarrollo local, expórtala en tu shell. En producción, cárgala desde tu gestor de secretos:

export NOVITA_API_KEY="tu_clave_api"

Si tu aplicación ya usa completaciones de chat compatibles con OpenAI, el camino de migración suele ser pequeño: apunta el cliente a la URL base de Novita AI, establece el token de autorización Bearer y usa el ID de modelo de Step 3.7 Flash.

¿Qué datos de Step 3.7 Flash importan para la implementación?

Usa el ID de modelo exacto en el código y el nombre visible en la interfaz de usuario. La página actual del modelo Novita lista Step 3.7 Flash como un modelo Chat en la serie StepFun.

Campo Valor actual en Novita
Nombre visible Step 3.7 Flash
ID de modelo API stepfun/step-3.7-flash
Familia de modelos mostrada por Novita StepFun
Tipo de alojamiento LLM sin servidor
Endpoint chat/completions
Modalidades de entrada Texto, imagen, video
Modalidades de salida Texto
Ventana de contexto 262,144 tokens
Máximo de tokens de salida 256,000
Características listadas Sin servidor, llamada a funciones, salidas estructuradas, razonamiento
Etiquetas listadas MoE, >100B, NUEVO, Destacado
Límite de tasa T1 por defecto 30 RPM y 50,000,000 TPM

A fecha de 18 de junio de 2026, Novita lista estos precios por token para stepfun/step-3.7-flash:

Tipo de token Precio listado
Tokens de entrada $0.20 por 1M de tokens
Tokens de salida $1.15 por 1M de tokens
Tokens de entrada leídos de caché $0.04 por 1M de tokens

Los precios, la disponibilidad del modelo, los límites de tasa y los parámetros de solicitud admitidos pueden cambiar. Consulta la página del modelo Step 3.7 Flash y la página de precios de Novita AI antes de la revisión de adquisiciones, el lanzamiento a producción o cualquier compromiso de precios orientado al cliente.

¿Cómo llamas a Step 3.7 Flash con cURL?

Para la primera prueba de humo, mantén la solicitud solo de texto. Esto confirma la autenticación, el enrutamiento del modelo, el análisis de la respuesta y la generación básica antes de agregar herramientas, esquemas, imágenes o video.

curl "https://api.novita.ai/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${NOVITA_API_KEY}" \
  -d '{
    "model": "stepfun/step-3.7-flash",
    "messages": [
      {
        "role": "system",
        "content": "Eres un asistente técnico conciso."
      },
      {
        "role": "user",
        "content": "Crea una lista de cuatro pasos para probar un bot de soporte multimodal antes del lanzamiento."
      }
    ],
    "max_tokens": 512,
    "temperature": 0.2
  }'

Una respuesta exitosa sigue la forma de completaciones de chat documentada por Novita AI: un array choices, un mensaje con content generado, metadatos de created/model y un objeto usage cuando se devuelve el uso. Para respuestas en streaming, la referencia de la API indica que el uso aparece en el último fragmento de la respuesta.

Usa esta prueba de humo para verificar:

  • La clave API es válida.
  • El ID del modelo es aceptado.
  • Tu cliente puede analizar choices[0].message.content.
  • Tu registro captura el uso de tokens de prompt, completación y total sin almacenar secretos.
  • Tu política de tiempo de espera y reintento es adecuada para el tamaño del prompt.

¿Cómo llamas a Step 3.7 Flash desde Python?

El patrón del SDK de OpenAI para Python funciona con Novita AI cuando configuras la URL base de Novita. Instala y fija la versión del SDK en tu propio proyecto según tu política de dependencias.

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key=os.environ["NOVITA_API_KEY"],
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {"role": "system", "content": "Eres un asistente técnico conciso."},
        {
            "role": "user",
            "content": "Resume los riesgos de lanzamiento para un flujo de trabajo de soporte al cliente que acepta capturas de pantalla y tickets de texto largos.",
        },
    ],
    max_tokens=512,
    temperature=0.2,
)

print(response.choices[0].message.content)

Para código de aplicación, envuelve esto en un pequeño gateway de modelo en lugar de dispersar llamadas API directas por todo el código base. Un gateway te permite imponer límites de tokens predeterminados, establecer tiempos de espera por ruta, normalizar errores y cambiar modelos para evaluación sin modificar la lógica de negocio.

Un wrapper de producción práctico debería capturar:

  • model, prompt_tokens, completion_tokens y total_tokens.
  • Latencia de solicitud y número de reintentos.
  • Estado HTTP y categoría de error de la API.
  • Si se usaron herramientas, esquema JSON, entrada de imagen o entrada de video.
  • Un resumen de solicitud anonimizado que excluya claves API y contenido sensible del usuario.

Esa telemetría importa porque Step 3.7 Flash tiene una gran ventana de contexto y un alto límite máximo de salida. Esos límites son útiles, pero los sistemas en producción deben establecer max_tokens explícito, rechazar cargas de usuario sobredimensionadas antes de la llamada al modelo y monitorear la longitud de la salida.

¿Cómo debes manejar la entrada multimodal?

Novita lista texto, imagen y video como modalidades de entrada para Step 3.7 Flash y texto como modalidad de salida. Trata eso como el límite de capacidad soportado, luego verifica la forma exacta del payload en la documentación o consola actual de Novita antes de enviar una integración multimodal a producción.

Para un inicio rápido, usa este orden:

  1. Ejecuta la prueba de humo solo de texto.
  2. Agrega una entrada de imagen usando el formato de mensaje de chat de Novita actualmente documentado.
  3. Valida la calidad de la respuesta y la forma de la respuesta en tu tarea real.
  4. Agrega lotes de imágenes más grandes o video solo después de haber confirmado el formato de solicitud, los límites de tamaño, la latencia y el comportamiento de costos.

No asumas que toda forma de payload multimodal compatible con OpenAI es aceptada por cualquier modelo alojado en Novita. La página del modelo Step 3.7 Flash verifica el soporte de entrada de imagen y video, pero los ejemplos de solicitudes de video son más sensibles al manejo de archivos, acceso a URL, duración, tamaño y formato específico del modelo. Si la documentación actual o el ejemplo de consola no muestran la forma de payload de video exacta que necesitas, evita codificar una basada en la documentación de otro proveedor.

Buenos primeros casos de uso de imagen incluyen:

  • Resumir una captura de pantalla de soporte junto con el texto del ticket del usuario.
  • Extraer el estado de la interfaz de usuario de una captura de pantalla de producto para un asistente de triaje interno.
  • Revisar una imagen de control de calidad visual y producir una lista de verificación de texto.

El video debe probarse de manera más conservadora. Comienza con clips cortos, registra la forma exacta de solicitud que funciona, captura la latencia y el uso de tokens, y define un comportamiento de respaldo cuando la entrada de video sea rechazada, demasiado grande o demasiado lenta para tu ruta.

¿Cómo encajan la llamada a funciones y las salidas estructuradas?

Step 3.7 Flash está listado con llamada a funciones y salidas estructuradas. En la API de completaciones de chat, la llamada a funciones se expone a través de tools, y las salidas estructuradas se exponen a través de response_format.

Usa la llamada a funciones cuando el modelo deba elegir una herramienta y devolver argumentos JSON en lugar de responder directamente al usuario. La referencia de la API documenta las herramientas de función con un type de function, un function.name, una description, parámetros de esquema JSON parameters y un ajuste opcional strict.

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_support_ticket",
            "description": "Crea un ticket de soporte interno a partir de un problema reportado por el usuario.",
            "parameters": {
                "type": "object",
                "properties": {
                    "summary": {"type": "string"},
                    "priority": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "needs_human_review": {"type": "boolean"},
                },
                "required": ["summary", "priority", "needs_human_review"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "user",
            "content": "La página de configuración de pagos devuelve un error 500 después de que subo una captura de pantalla.",
        }
    ],
    tools=tools,
    temperature=0.1,
)

Usa salidas estructuradas cuando tu aplicación necesite una respuesta JSON validada y no se requiera una llamada a herramienta externa. La referencia de la API de completaciones de chat de Novita documenta response_format con json_schema y señala que el modo estricto soporta un subconjunto de JSON Schema. Mantén los primeros esquemas pequeños, evita características de esquema exóticas y falla de manera controlada cuando la respuesta del modelo no se valide.

Para el razonamiento, distingue la capacidad del modelo del comportamiento de la solicitud. La página del modelo Step 3.7 Flash lista el razonamiento como una característica, mientras que la referencia de la API de completaciones de chat documenta parámetros relacionados con el razonamiento con notas de soporte específicas del modelo. Antes de confiar en un campo de razonamiento en un analizador de producción, ejecuta una prueba API con stepfun/step-3.7-flash y maneja la forma exacta de respuesta que recibe tu cuenta.

¿Cómo deben los equipos presupuestar y probar antes de producción?

Usa los precios de tokens listados para estimar el primer presupuesto, luego valida con registros de uso reales. Step 3.7 Flash tiene un precio diferente para entrada, salida y lecturas de caché, por lo que los prompts largos, las salidas verbosas y el contexto repetido tienen diferentes perfiles de costo.

Por ejemplo, una aplicación que envía grandes transcripciones de soporte puede gastar la mayor parte de su presupuesto en tokens de entrada. Un agente que pide planes largos puede gastar más en tokens de salida. Un flujo de trabajo de recuperación o memoria que reutiliza contexto puede beneficiarse del precio de lectura de caché si el comportamiento de caché se aplica al patrón de solicitud desplegado.

Antes de producción, ejecuta un conjunto de evaluación que incluya:

  • Prompts cortos solo de texto para latencia y calidad de respuesta base.
  • Prompts de contexto largo cerca de tu límite superior esperado, no la ventana de contexto máxima.
  • Prompts de imagen que coincidan con tu fuente de carga real y manejo de archivos.
  • Prompts de llamada a herramientas donde el comportamiento correcto sea llamar a una función.
  • Prompts de esquema JSON que prueben intencionalmente campos inválidos, faltantes y casos límite.
  • Casos de fallo para entrada sobredimensionada, medios faltantes, claves API inválidas y tiempos de espera.

No dirijas todo el tráfico a un nuevo modelo basándote solo en una lista de características. Las banderas de funciones te dicen qué está disponible; la evaluación te dice si el modelo sigue tus instrucciones, esquemas, reglas de seguridad y presupuesto de latencia en tu carga de trabajo.

Preguntas frecuentes

¿Está Step 3.7 Flash disponible a través de Novita AI?

Sí. Novita lista Step 3.7 Flash como un LLM sin servidor con el ID de modelo API stepfun/step-3.7-flash.

¿Qué endpoint debo usar para Step 3.7 Flash?

Usa el endpoint de completaciones de chat compatible con OpenAI: POST https://api.novita.ai/openai/v1/chat/completions.

¿Step 3.7 Flash soporta entrada de imagen y video?

Novita lista texto, imagen y video como modalidades de entrada para Step 3.7 Flash, con texto como modalidad de salida. Usa la documentación actual de Novita o ejemplos de consola para verificar la forma exacta del payload de imagen o video antes de producción.

¿Cuánto cuesta Step 3.7 Flash?

A fecha de 18 de junio de 2026, Novita lista stepfun/step-3.7-flash a $0.20 por 1M de tokens de entrada, $1.15 por 1M de tokens de salida y $0.04 por 1M de tokens de entrada leídos de caché.

¿Step 3.7 Flash soporta llamada a funciones y salidas estructuradas?

Sí. Novita lista la llamada a funciones y las salidas estructuradas como características de Step 3.7 Flash. Usa tools para llamada a funciones y response_format para salidas estructuradas, luego prueba tu esquema y analizador exactos antes de producción.

¿Debo copiar un payload de video de otro proveedor?

No. Incluso cuando las APIs son compatibles con OpenAI, el manejo de archivos y URLs multimodales puede variar. Usa una forma de payload verificada en la documentación actual de Novita, ejemplos de consola o tu propia prueba API exitosa para stepfun/step-3.7-flash.

Artículos recomendados