Step 3.7 Flash API no Novita AI: Guia de Raciocínio Multimodal

Índice

O que é Step 3.7 Flash no Novita AI?
Especificações da API Step 3.7 Flash, disponibilidade e preços
Para qual trabalho de raciocínio multimodal ele é adequado?
Como as equipes devem avaliá-lo antes da produção?
Como a visão geral de lançamento se compara com o início rápido?
FAQ
Artigos recomendados

A API Step 3.7 Flash está disponível no Novita AI para desenvolvedores que precisam de um modelo de raciocínio multimodal através de uma API LLM Serverless compatível com OpenAI: use stepfun/step-3.7-flash com o endpoint de chat completions do Novita AI quando seu fluxo de trabalho precisar de entrada de texto, imagem ou vídeo, chamadas de ferramentas, saídas estruturadas e uma janela de contexto de 256K. Se você já está pronto para enviar requisições, vá direto para o início rápido da API Step 3.7 Flash; se você está decidindo se o modelo se encaixa no seu produto, comece com as especificações, preços e orientação de avaliação abaixo.

O que é Step 3.7 Flash no Novita AI?

Step 3.7 Flash é o modelo de raciocínio multimodal de alta eficiência da StepFun, hospedado no Novita AI para acesso LLM Serverless. O ID do modelo na API é stepfun/step-3.7-flash, e o modelo é exposto através do endpoint de chat completions.

A resposta prática para desenvolvedores é direta: use a API Step 3.7 Flash quando seu fluxo de trabalho precisar de mais do que chat de texto simples. Ele é adequado para tarefas de agente que combinam instruções longas, contexto visual ou de vídeo, saída estruturada e roteamento de ferramentas. Exemplos incluem analisar um vídeo de demonstração de produto, transformar capturas de tela em tarefas de implementação, planejar operações de múltiplas etapas a partir de entradas de mídia mista, ou usar um modelo para decidir quando uma função do aplicativo deve ser executada.

Ele não pretende substituir todos os modelos de texto menores em sua pilha. Se seu aplicativo só precisa de respostas curtas de FAQ, extração simples ou classificação de alto volume, comece comparando os modelos atuais na biblioteca de modelos do Novita AI e nos preços do Novita AI. O Step 3.7 Flash se torna mais interessante quando entrada multimodal, contexto longo ou planejamento com consciência de ferramenta fazem parte do requisito real do produto.

Especificações da API Step 3.7 Flash, disponibilidade e preços

Atualmente, o Novita AI lista o Step 3.7 Flash como um modelo LLM Serverless com os seguintes detalhes de implementação. A disponibilidade e os preços do modelo podem mudar, então verifique a página do modelo ativo antes do roteamento de produção e da revisão de aquisição.

Campo	Valor atual no Novita AI
Nome de exibição	Step 3.7 Flash
ID do modelo na API	`stepfun/step-3.7-flash`
Caminho de acesso	LLM Serverless
Endpoint	`chat/completions`
Modalidades de entrada	Texto, imagem, vídeo
Modalidade de saída	Texto
Janela de contexto	262.144 tokens
Máximo de tokens de saída	256.000 tokens
Chamada de função	Suportado
Saídas estruturadas	Suportado
Raciocínio	Suportado
Família do modelo	StepFun
Rótulo de arquitetura	MoE

Os preços atuais por token mostrados para stepfun/step-3.7-flash são:

Tipo de token	Preço atual
Tokens de entrada	US$ 0,20 por milhão de tokens
Tokens de entrada lidos em cache	US$ 0,04 por milhão de tokens
Tokens de saída	US$ 1,15 por milhão de tokens

A mesma listagem do modelo mostra níveis de taxa de requisição de T1 a T5. A cota visível T1 é de 30 RPM e 50.000.000 TPM, com valores de RPM mais altos em níveis superiores. Trate esses como limites da plataforma a serem verificados durante a configuração da conta, não como substitutos para seus próprios testes de carga.

Os preços importam porque requisições multimodais e de contexto longo podem crescer rapidamente. Uma equipe de produto deve medir o tamanho do prompt, o contexto derivado da mídia, a reutilização de leitura em cache e o comprimento da saída separadamente. Se um fluxo de trabalho envia repetidamente o mesmo prompt de sistema, esquema de ferramenta ou bloco de instrução grande, as leituras em cache podem se tornar parte do design de custo. Se as respostas regularmente se aproximam de tamanhos de saída grandes, os tokens de saída dominarão a fatura mais rapidamente do que os tokens de entrada.

Um padrão útil de orçamento é separar o tráfego de avaliação em três baldes. Primeiro, meça uma linha de base de texto simples para a mesma tarefa. Segundo, adicione entrada de imagem ou vídeo e registre com que frequência o contexto extra altera a resposta. Terceiro, teste a versão de contexto longo com a política, esquema ou documentação do produto completa anexada. Se o terceiro balde melhorar a precisão do roteamento ou reduzir a revisão manual, a requisição maior pode ser justificada. Se não, mantenha o caminho de produção mais estreito.

Para qual trabalho de raciocínio multimodal ele é adequado?

Step 3.7 Flash é mais interessante quando o modelo precisa raciocinar sobre diferentes tipos de entrada e então produzir um plano, decisão ou resposta estruturada.

Para equipes de produto e suporte, isso pode significar pedir ao modelo para inspecionar uma captura de tela da interface ou um clipe de vídeo curto, identificar o provável problema do usuário e retornar um objeto JSON que encaminha o ticket para a fila correta. Para ferramentas de desenvolvedor, pode significar ler uma gravação de tela de um bug, o texto de erro relacionado e um trecho de código-fonte, e então produzir uma lista de verificação de reprodução. Para fluxos de trabalho operacionais, pode significar combinar texto de política longo com evidências visuais e pedir ao modelo para produzir um plano de tratamento passo a passo.

A distinção importante é que o Step 3.7 Flash deve receber a evidência necessária para a tarefa. Não peça a ele para inferir detalhes que nunca foram fornecidos. Se o fluxo de trabalho depende de uma consulta a banco de dados, estado de cobrança, status de pedido ou registro de implantação, exponha esses dados através da sua camada de aplicação ou de uma chamada de ferramenta, em vez de confiar no conhecimento geral do modelo.

Bons prompts de avaliação incluem:

Um prompt de triagem de suporte com uma captura de tela, a descrição do usuário e um esquema JSON obrigatório.
Um prompt de QA de produto com uma entrada de vídeo curta e um modelo de relatório de bug.
Um prompt de roteamento de ferramenta onde o modelo deve escolher entre create_ticket, search_docs e escalate_to_human.
Um prompt de análise de contexto longo onde o mesmo esquema de ferramenta e texto de política podem se beneficiar de leituras em cache.

Evite começar com prompts vagos como “analise este vídeo” ou “raciocine sobre esta imagem”. Dê ao modelo o trabalho, o limite de decisão e o formato de saída. Isso facilita a comparação de resultados entre modelos e medir se o contexto extra e a entrada multimodal estão se pagando.

Para fluxos de trabalho de agente, o suporte a ferramentas do modelo é a parte a ser testada com mais cuidado. Uma boa avaliação de chamada de ferramenta deve incluir casos onde a resposta correta é chamar uma ferramenta, casos onde a resposta correta é pedir mais informações e casos onde nenhuma ferramenta deve ser executada. Isso evita que a avaliação recompense ações excessivamente ansiosas só porque o modelo pode emitir uma chamada de função.

Como as equipes devem avaliá-lo antes da produção?

Comece com um pequeno conjunto de teste que se assemelhe ao seu produto, não com um prompt de benchmark genérico. Inclua casos de sucesso, casos extremos e prompts que não devem acionar uma chamada de ferramenta. Se seu aplicativo precisa de saída estruturada, valide a saída contra seu esquema em vez de verificá-la manualmente.

Uma requisição de texto mínima compatível com OpenAI usa a URL base da API LLM do Novita AI e o ID de modelo verificado:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "system",
            "content": "Você é um assistente prático de triagem de incidentes. Retorne recomendações concisas e estruturadas.",
        },
        {
            "role": "user",
            "content": "Revise este resumo de incidente e identifique as próximas três verificações: a latência da API dobrou após uma implantação, a CPU do banco de dados está normal, a taxa de erro está estável.",
        },
    ],
    max_tokens=700,
    temperature=0.2,
)

print(response.choices[0].message.content)

Para avaliação em produção, adicione quatro verificações antes de rotear o tráfego real de usuários:

Verificação de custo: registre tokens de entrada, leitura em cache e saída para requisições representativas.
Verificação de esquema: valide saídas estruturadas automaticamente e tente novamente ou recorra quando as respostas não corresponderem.
Verificação de ferramenta: teste tanto casos com chamada de ferramenta quanto sem, incluindo prompts ambíguos.
Verificação de mídia: avalie os formatos reais de imagem ou vídeo que seu aplicativo envia, não apenas resumos de texto da mídia.

Chamada de função e saídas estruturadas são úteis, mas não removem a responsabilidade do aplicativo. Seu serviço ainda precisa de verificações de autorização, validação de entrada, execução de ferramenta idempotente e logs de auditoria para ações que alteram dados do usuário.

Para requisições multimodais, mantenha o caminho de tratamento de mídia explícito. Armazene ou referencie o ativo de acordo com as regras de privacidade do seu aplicativo, preserve metadados suficientes para depurar falhas e registre qual formato de requisição foi usado. Se um problema de produção aparecer mais tarde, você vai querer saber se o modelo viu a imagem ou vídeo original, uma versão comprimida, uma amostra de quadro ou um resumo de texto gerado por outro serviço.

Como a visão geral de lançamento se compara com o início rápido?

Este artigo é a visão geral de lançamento e fonte da verdade: disponibilidade, ID do modelo, preços, escopo multimodal e adequação para desenvolvedores. O início rápido da API Step 3.7 Flash separado se aprofunda em payloads de requisição, entradas de imagem e vídeo, exemplos de chamada de função e padrões de saída estruturada.

Essa divisão é útil porque leitores de lançamento geralmente precisam responder: “Devemos avaliar este modelo?” Leitores de início rápido precisam responder: “Qual requisição exata devo enviar?” Manter esses trabalhos separados evita enterrar fatos de preços e capacidades dentro de um tutorial longo, enquanto ainda deixa espaço para detalhes de implementação onde eles pertencem.

Por enquanto, o melhor próximo passo é abrir a página do modelo Step 3.7 Flash, confirmar a tabela de preços e limites atuais para sua conta, e executar um prompt de avaliação restrito que use a mesma mídia, esquema de ferramenta ou saída estruturada que seu aplicativo precisará.

FAQ

O Step 3.7 Flash está disponível no Novita AI?

Sim. O Novita AI atualmente lista o Step 3.7 Flash como um modelo LLM Serverless com o ID de modelo de API stepfun/step-3.7-flash.

Quais entradas o Step 3.7 Flash suporta?

A página do modelo Novita AI lista atualmente texto, imagem e vídeo como modalidades de entrada suportadas. A modalidade de saída é texto.

Quanto custa o Step 3.7 Flash no Novita AI?

Os preços atuais do Novita AI para stepfun/step-3.7-flash são US$ 0,20 por milhão de tokens de entrada, US$ 0,04 por milhão de tokens de entrada lidos em cache e US$ 1,15 por milhão de tokens de saída.

O Step 3.7 Flash suporta chamada de função?

Sim. A página do modelo Novita AI lista atualmente suporte a chamada de função, saídas estruturadas e raciocínio para o Step 3.7 Flash.

Qual endpoint os desenvolvedores devem usar?

Use o endpoint de chat completions compatível com OpenAI do Novita AI com o ID de modelo stepfun/step-3.7-flash. A URL base para uso do SDK compatível com OpenAI é https://api.novita.ai/openai.

Step 3.7 Flash API no Novita AI: Guia de Raciocínio Multimodal

O que é Step 3.7 Flash no Novita AI?

Especificações da API Step 3.7 Flash, disponibilidade e preços

Para qual trabalho de raciocínio multimodal ele é adequado?

Como as equipes devem avaliá-lo antes da produção?

Como a visão geral de lançamento se compara com o início rápido?

FAQ

O Step 3.7 Flash está disponível no Novita AI?

Quais entradas o Step 3.7 Flash suporta?

Quanto custa o Step 3.7 Flash no Novita AI?

O Step 3.7 Flash suporta chamada de função?

Qual endpoint os desenvolvedores devem usar?

Artigos recomendados

Product

RESOURCES

Partners

Company

O que é Step 3.7 Flash no Novita AI?

Especificações da API Step 3.7 Flash, disponibilidade e preços

Para qual trabalho de raciocínio multimodal ele é adequado?

Como as equipes devem avaliá-lo antes da produção?

Como a visão geral de lançamento se compara com o início rápido?

FAQ

O Step 3.7 Flash está disponível no Novita AI?

Quais entradas o Step 3.7 Flash suporta?

Quanto custa o Step 3.7 Flash no Novita AI?

O Step 3.7 Flash suporta chamada de função?

Qual endpoint os desenvolvedores devem usar?

Artigos recomendados

Posts relacionados

Product

RESOURCES

Partners

Company