API de Step 3.7 Flash en Novita AI: Inicio rápido multimodal

Tabla de contenido

¿Qué necesitas antes de llamar a la API?
¿Qué datos de Step 3.7 Flash son importantes para la implementación?
¿Cómo llamar a Step 3.7 Flash con cURL?
¿Cómo llamar a Step 3.7 Flash desde Python?
¿Cómo manejar la entrada multimodal?
¿Cómo encajan function calling y salidas estructuradas?
¿Cómo deberían los equipos presupuestar y probar antes de producción?
Preguntas frecuentes
Artículos recomendados

Step 3.7 Flash está disponible en Novita AI como un LLM serverless con el ID de modelo stepfun/step-3.7-flash, chat/completions compatible con OpenAI, soporte para entrada de texto, imagen y video, salida de texto, function calling, salidas estructuradas y razonamiento listados en la página del modelo. Este inicio rápido se centra en el flujo de trabajo del desarrollador: cómo llamar a la API, qué patrones de solicitud son seguros de usar hoy, qué campos de precios considerar en el presupuesto y dónde tener cuidado antes de integrar comportamiento multimodal o de razonamiento en producción. Para una visión más amplia de las características y el posicionamiento del modelo, consulta la Descripción general de la API de Step 3.7 Flash.

¿Qué necesitas antes de llamar a la API?

Comienza con tres elementos de configuración:

Elemento	Valor
Clave API	Crea y almacena una clave API de Novita AI en una variable de entorno como `NOVITA_API_KEY`.
URL base compatible con OpenAI	`https://api.novita.ai/openai`
Endpoint de chat completions	`POST https://api.novita.ai/openai/v1/chat/completions`
ID del modelo	`stepfun/step-3.7-flash`

El índice de documentación de Novita AI lista la URL base compatible con OpenAI, y la referencia de la API de chat completions documenta los campos de solicitud y respuesta para POST https://api.novita.ai/openai/v1/chat/completions.

Mantén la clave API fuera del control de versiones. En el desarrollo local, expórtala en tu terminal. En producción, cárgala desde tu gestor de secretos:

export NOVITA_API_KEY="tu_clave_api"

Si tu aplicación ya usa chat completions compatible con OpenAI, el camino de migración suele ser pequeño: apunta el cliente a la URL base de Novita AI, establece el token bearer de Authorization y usa el ID del modelo Step 3.7 Flash.

¿Qué datos de Step 3.7 Flash son importantes para la implementación?

Usa el ID de modelo exacto en el código y el nombre mostrado en la interfaz de usuario. La página actual del modelo en Novita lista Step 3.7 Flash como un modelo de Chat en la serie StepFun.

Campo	Valor actual en Novita
Nombre mostrado	Step 3.7 Flash
ID del modelo en la API	`stepfun/step-3.7-flash`
Familia de modelo mostrada por Novita	StepFun
Tipo de alojamiento	LLM serverless
Endpoint	`chat/completions`
Modalidades de entrada	Texto, imagen, video
Modalidades de salida	Texto
Ventana de contexto	262,144 tokens
Máximo de tokens de salida	256,000
Características listadas	Serverless, function calling, salidas estructuradas, razonamiento
Etiquetas listadas	MoE, >100B, NEW, Destacado
Límite de tasa T1 predeterminado listado	30 RPM y 50,000,000 TPM

Al 18 de junio de 2026, Novita lista estos precios por token para stepfun/step-3.7-flash:

Tipo de token	Precio listado
Tokens de entrada	$0.20 por 1M de tokens
Tokens de salida	$1.15 por 1M de tokens
Tokens de entrada de lectura de caché	$0.04 por 1M de tokens

Los precios, la disponibilidad del modelo, los límites de tasa y los parámetros de solicitud compatibles pueden cambiar. Consulta la página del modelo Step 3.7 Flash y la página de precios de Novita AI antes de la revisión de adquisiciones, el lanzamiento a producción o cualquier compromiso de precios dirigido al cliente.

¿Cómo llamar a Step 3.7 Flash con cURL?

Para la primera prueba de humo, mantén la solicitud solo de texto. Esto confirma la autenticación, el enrutamiento del modelo, el análisis de la respuesta y la generación básica antes de agregar herramientas, esquemas, imágenes o video.

curl "https://api.novita.ai/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${NOVITA_API_KEY}" \
  -d '{
    "model": "stepfun/step-3.7-flash",
    "messages": [
      {
        "role": "system",
        "content": "Eres un asistente técnico conciso."
      },
      {
        "role": "user",
        "content": "Crea una lista de verificación de cuatro pasos para probar un bot de soporte multimodal antes del lanzamiento."
      }
    ],
    "max_tokens": 512,
    "temperature": 0.2
  }'

Una respuesta exitosa sigue la forma de chat completions documentada por Novita AI: un arreglo choices, un mensaje con content generado, metadatos de created/model y un objeto usage cuando se devuelve el uso. Para respuestas en streaming, la referencia de la API indica que el uso aparece en el fragmento final de la respuesta.

Usa esta prueba de humo para verificar:

La clave API es válida.
El ID del modelo es aceptado.
Tu cliente puede analizar choices[0].message.content.
Tu registro captura el uso de tokens del prompt, la finalización y el total sin almacenar secretos.
Tu política de tiempo de espera y reintento es adecuada para el tamaño del prompt.

¿Cómo llamar a Step 3.7 Flash desde Python?

El patrón del SDK de Python de OpenAI funciona con Novita AI cuando estableces la URL base de Novita. Instala y fija la versión del SDK en tu propio proyecto según tu política de dependencias.

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key=os.environ["NOVITA_API_KEY"],
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {"role": "system", "content": "Eres un asistente técnico conciso."},
        {
            "role": "user",
            "content": "Resume los riesgos de lanzamiento para un flujo de trabajo de atención al cliente que acepta capturas de pantalla y tickets de texto largo.",
        },
    ],
    max_tokens=512,
    temperature=0.2,
)

print(response.choices[0].message.content)

Para el código de aplicación, envuelve esto en una pequeña puerta de enlace de modelos en lugar de dispersar llamadas API sin procesar por todo el código base. Una puerta de enlace te permite aplicar límites de token predeterminados, establecer tiempos de espera por ruta, normalizar errores y cambiar modelos para evaluación sin alterar la lógica de negocio.

Un wrapper de producción práctico debería capturar:

model, prompt_tokens, completion_tokens y total_tokens.
Latencia de la solicitud y recuento de reintentos.
Estado HTTP y categoría de error de la API.
Si se usaron herramientas, esquema JSON, entrada de imagen o entrada de video.
Un resumen de solicitud depurado que excluya claves API y contenido sensible del usuario.

Esa telemetría es importante porque Step 3.7 Flash tiene una ventana de contexto grande y un límite de salida máximo alto. Esos límites son útiles, pero los sistemas de producción aún deben establecer un max_tokens explícito, rechazar cargas de usuario sobredimensionadas antes de la llamada al modelo y monitorear la longitud de la salida.

¿Cómo manejar la entrada multimodal?

Novita lista texto, imagen y video como modalidades de entrada para Step 3.7 Flash y texto como modalidad de salida. Trata eso como el límite de capacidad compatible, luego verifica la forma exacta de la carga útil en la documentación actual de Novita o en la consola antes de enviar una integración multimodal.

Para un inicio rápido, usa este orden:

Ejecuta la prueba de humo solo de texto.
Agrega una entrada de imagen usando el formato de mensaje de chat de Novita actualmente documentado.
Valida la calidad de la respuesta y la forma de la respuesta en tu tarea real.
Agrega lotes de imágenes más grandes o video solo después de haber confirmado el formato de solicitud, los límites de tamaño, la latencia y el comportamiento de costos.

No asumas que cada forma de carga útil multimodal compatible con OpenAI es aceptada por cada modelo alojado en Novita. La página del modelo Step 3.7 Flash verifica el soporte de entrada de imagen y video, pero los ejemplos de solicitudes de video son más sensibles al manejo de archivos, acceso a URL, duración, tamaño y formato específico del modelo. Si la documentación actual o el ejemplo de la consola no muestran la forma exacta de carga útil de video que necesitas, evita codificar una de la documentación de otro proveedor.

Los buenos primeros casos de uso de imágenes incluyen:

Resumir una captura de pantalla de soporte junto con el texto del ticket del usuario.
Extraer el estado de la interfaz de usuario de una captura de pantalla del producto para un asistente de triaje interno.
Revisar una imagen de control de calidad visual y producir una lista de verificación de texto.

El video debe probarse de manera más conservadora. Comienza con clips cortos, registra la forma exacta de solicitud que funciona, captura la latencia y el uso de tokens, y define un comportamiento de respaldo cuando la entrada de video sea rechazada, demasiado grande o demasiado lenta para tu ruta.

¿Cómo encajan function calling y salidas estructuradas?

Step 3.7 Flash está listado con function calling y salidas estructuradas. En la API de chat completions, function calling se expone a través de tools, y las salidas estructuradas se exponen a través de response_format.

Usa function calling cuando el modelo deba elegir una herramienta y devolver argumentos JSON en lugar de responder directamente al usuario. La referencia de la API documenta las herramientas de función con un type de function, un function.name, una description, parameters de JSON Schema y una configuración strict opcional.

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_support_ticket",
            "description": "Crea un ticket de soporte interno a partir de un problema reportado por el usuario.",
            "parameters": {
                "type": "object",
                "properties": {
                    "summary": {"type": "string"},
                    "priority": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "needs_human_review": {"type": "boolean"},
                },
                "required": ["summary", "priority", "needs_human_review"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "user",
            "content": "La página de configuración de pagos devuelve un error 500 después de que subo una captura de pantalla.",
        }
    ],
    tools=tools,
    temperature=0.1,
)

Usa salidas estructuradas cuando tu aplicación necesite una respuesta JSON validada y no se requiera una llamada a herramienta externa. La referencia de la API de chat completions de Novita documenta response_format con json_schema y señala que el modo estricto admite un subconjunto de JSON Schema. Mantén los esquemas iniciales pequeños, evita características de esquema exóticas y falla de forma controlada cuando la respuesta del modelo no valide.

Para el razonamiento, distingue la capacidad del modelo del comportamiento de la solicitud. La página del modelo Step 3.7 Flash lista el razonamiento como una característica, mientras que la referencia de la API de chat completions documenta parámetros relacionados con el razonamiento con notas de compatibilidad específicas del modelo. Antes de depender de un campo de razonamiento en un analizador de producción, ejecuta una prueba de API con stepfun/step-3.7-flash y maneja la forma exacta de respuesta que recibe tu cuenta.

¿Cómo deberían los equipos presupuestar y probar antes de producción?

Usa los precios de token listados para estimar el primer presupuesto, luego valida con registros de uso reales. Step 3.7 Flash tiene precios diferentes para entrada, salida y lecturas de caché, por lo que los prompts largos, las salidas verbose y el contexto repetido tienen diferentes perfiles de costo. Si estás comparando Novita AI con otros proveedores de API LLM, la guía mejores proveedores de API LLM 2026 cubre niveles de precios, límites de tasa y compensaciones entre proveedores. Para equipos que aún evalúan qué proveedor de inferencia se adapta a una carga de trabajo de agente, elegir un proveedor de inferencia para agentes de IA recorre los criterios de evaluación clave.

Por ejemplo, una aplicación que envía transcripciones de soporte grandes puede gastar la mayor parte de su presupuesto en tokens de entrada. Un agente que solicita planes largos puede gastar más en tokens de salida. Un flujo de trabajo de recuperación o memoria que reutiliza contexto puede beneficiarse del precio de lectura de caché si el comportamiento de caché se aplica al patrón de solicitud implementado.

Antes de producción, ejecuta un conjunto de evaluación que incluya:

Prompts cortos solo de texto para latencia y calidad de respuesta base.
Prompts de contexto largo cerca de tu límite superior esperado, no la ventana de contexto máxima.
Prompts de imagen que coincidan con tu fuente de carga real y manejo de archivos.
Prompts de llamada a herramienta donde el comportamiento correcto sea llamar a una función.
Prompts de esquema JSON que prueben intencionalmente campos inválidos, faltantes y casos límite.
Casos de fallo para entrada sobredimensionada, medios faltantes, claves API inválidas y tiempos de espera.

No enrutes todo el tráfico a un nuevo modelo basándose solo en una lista de características. Las banderas de características te dicen lo que está disponible; la evaluación te dice si el modelo sigue tus instrucciones, esquemas, reglas de seguridad y presupuesto de latencia en tu carga de trabajo.

Preguntas frecuentes

¿Está Step 3.7 Flash disponible a través de Novita AI?

Sí. Novita lista Step 3.7 Flash como un LLM serverless con el ID de modelo de API stepfun/step-3.7-flash.

¿Qué endpoint debo usar para Step 3.7 Flash?

Usa el endpoint de chat completions compatible con OpenAI: POST https://api.novita.ai/openai/v1/chat/completions.

¿Step 3.7 Flash admite entrada de imagen y video?

Novita lista texto, imagen y video como modalidades de entrada para Step 3.7 Flash, con texto como modalidad de salida. Usa la documentación actual de Novita o ejemplos de la consola para verificar la forma exacta de la carga útil de imagen o video antes de producción.

¿Cuánto cuesta Step 3.7 Flash?

Al 18 de junio de 2026, Novita lista stepfun/step-3.7-flash a $0.20 por 1M de tokens de entrada, $1.15 por 1M de tokens de salida y $0.04 por 1M de tokens de entrada de lectura de caché.

¿Step 3.7 Flash admite function calling y salidas estructuradas?

Sí. Novita lista function calling y salidas estructuradas como características de Step 3.7 Flash. Usa tools para function calling y response_format para salidas estructuradas, luego prueba tu esquema y analizador exactos antes de producción.

¿Debería copiar una carga útil de video de otro proveedor?

No. Incluso cuando las APIs son compatibles con OpenAI, el manejo de archivos y URL multimodales puede variar. Usa una forma de carga útil verificada en la documentación actual de Novita, ejemplos de la consola o tu propia prueba de API exitosa para stepfun/step-3.7-flash.

API de Step 3.7 Flash en Novita AI: Inicio rápido multimodal

¿Qué necesitas antes de llamar a la API?

¿Qué datos de Step 3.7 Flash son importantes para la implementación?

¿Cómo llamar a Step 3.7 Flash con cURL?

¿Cómo llamar a Step 3.7 Flash desde Python?

¿Cómo manejar la entrada multimodal?

¿Cómo encajan function calling y salidas estructuradas?

¿Cómo deberían los equipos presupuestar y probar antes de producción?

Preguntas frecuentes

¿Está Step 3.7 Flash disponible a través de Novita AI?

¿Qué endpoint debo usar para Step 3.7 Flash?

¿Step 3.7 Flash admite entrada de imagen y video?

¿Cuánto cuesta Step 3.7 Flash?

¿Step 3.7 Flash admite function calling y salidas estructuradas?

¿Debería copiar una carga útil de video de otro proveedor?

Artículos recomendados

Product

RESOURCES

Partners

Company

¿Qué necesitas antes de llamar a la API?

¿Qué datos de Step 3.7 Flash son importantes para la implementación?

¿Cómo llamar a Step 3.7 Flash con cURL?

¿Cómo llamar a Step 3.7 Flash desde Python?

¿Cómo manejar la entrada multimodal?

¿Cómo encajan function calling y salidas estructuradas?

¿Cómo deberían los equipos presupuestar y probar antes de producción?

Preguntas frecuentes

¿Está Step 3.7 Flash disponible a través de Novita AI?

¿Qué endpoint debo usar para Step 3.7 Flash?

¿Step 3.7 Flash admite entrada de imagen y video?

¿Cuánto cuesta Step 3.7 Flash?

¿Step 3.7 Flash admite function calling y salidas estructuradas?

¿Debería copiar una carga útil de video de otro proveedor?

Artículos recomendados

Publicaciones relacionadas

Product

RESOURCES

Partners

Company