Passo 3.7 Flash API na Novita AI: Raciocínio Multimodal, Preços e Lançamento

Passo 3.7 Flash API na Novita AI: Raciocínio Multimodal, Preços e Lançamento

O Step 3.7 Flash está disponível na Novita AI como uma API LLM Serverless para desenvolvedores que precisam de um modelo de raciocínio multimodal capaz de aceitar entradas de texto, imagem e vídeo, chamar ferramentas, retornar saídas estruturadas e trabalhar com uma janela de contexto de 256K por meio do endpoint de chat completions. Use-o quando um fluxo de trabalho exigir contexto de mídia mista e um plano de ação fundamentado, não quando um pequeno modelo somente texto já resolveria o problema.

O que é o Step 3.7 Flash na Novita AI?

O Step 3.7 Flash é o modelo multimodal de raciocínio de alta eficiência da StepFun, hospedado na Novita AI para acesso LLM Serverless. O ID do modelo na API é stepfun/step-3.7-flash e o modelo é exposto pelo endpoint de chat completions.

A resposta prática para desenvolvedores é direta: use o Step 3.7 Flash quando seu fluxo de trabalho precisar de mais que chat de texto simples. Ele é adequado para tarefas de agente que combinam instruções longas, contexto visual ou de vídeo, saída estruturada e roteamento de ferramentas. Exemplos incluem analisar um vídeo de demonstração de produto, transformar capturas de tela em tarefas de implementação, planejar operações em várias etapas a partir de entradas de mídia mista ou usar um modelo para decidir quando uma função de aplicação deve ser executada.

Ele não substitui todos os modelos de texto menores em sua pilha. Se sua aplicação precisa apenas de respostas curtas de FAQ, extração simples ou classificação em alto volume, comece comparando os modelos atuais na biblioteca de modelos da Novita AI e nos preços da Novita AI. O Step 3.7 Flash se torna mais atraente quando entrada multimodal, contexto longo ou planejamento com consciência de ferramentas fazem parte do requisito real do produto.

Especificações, disponibilidade e preços do Step 3.7 Flash

Atualmente, a Novita AI lista o Step 3.7 Flash como um modelo LLM Serverless com os seguintes detalhes de implementação. A disponibilidade e os preços podem mudar; portanto, verifique a página do modelo ativa antes do roteamento em produção.

Campo Valor atual na Novita AI
Nome de exibição Step 3.7 Flash
ID do modelo na API stepfun/step-3.7-flash
Caminho de acesso LLM Serverless
Endpoint chat/completions
Modalidades de entrada Texto, imagem, vídeo
Modalidade de saída Texto
Janela de contexto 262.144 tokens
Máx. tokens de saída 256.000 tokens
Chamada de função Suportado
Saídas estruturadas Suportado
Raciocínio Suportado
Família de modelos StepFun
Rótulo de arquitetura MoE

A precificação atual por token mostrada para stepfun/step-3.7-flash é:

Tipo de token Preço atual
Tokens de entrada $0,20 por milhão de tokens
Tokens de entrada em leitura em cache $0,04 por milhão de tokens
Tokens de saída $1,15 por milhão de tokens

A mesma listagem do modelo mostra níveis de taxa de solicitação de T1 a T5. A cota visível T1 é de 30 RPM e 50.000.000 TPM, com valores maiores de RPM nos níveis superiores. Trate-os como limites da plataforma a serem verificados durante a configuração da conta, não como substitutos para seus próprios testes de carga.

A precificação é importante porque as solicitações multimodais e de contexto longo podem crescer rapidamente. Uma equipe de produto deve medir separadamente o tamanho do prompt, o contexto derivado da mídia, a reutilização da leitura em cache e o comprimento da saída. Se um fluxo de trabalho envia repetidamente o mesmo prompt do sistema, esquema de ferramenta ou bloco de instrução grande, as leituras em cache podem se tornar parte do design de custo. Se as respostas se aproximam regularmente de grandes tamanhos de saída, os tokens de saída dominarão a fatura mais rápido que os tokens de entrada.

Um padrão útil de orçamento é separar o tráfego de avaliação em três grupos. Primeiro, meça uma linha de base de texto simples para a mesma tarefa. Segundo, adicione entrada de imagem ou vídeo e registre com que frequência o contexto extra altera a resposta. Terceiro, teste a versão de contexto longo com a política completa, esquema ou documentação do produto anexada. Se o terceiro grupo melhorar a precisão do roteamento ou reduzir a revisão manual, a solicitação maior pode ser justificada. Se não, mantenha o caminho de produção mais restrito.

Para que tipo de trabalho de raciocínio multimodal ele é adequado?

O Step 3.7 Flash é mais interessante quando o modelo precisa raciocinar sobre diferentes tipos de entrada e, em seguida, produzir um plano, decisão ou resposta estruturada.

Para equipes de produto e suporte, isso pode significar pedir ao modelo para inspecionar uma captura de tela da interface ou um pequeno clipe de vídeo, identificar o provável problema do usuário e retornar um objeto JSON que encaminhe o chamado para a fila correta. Para ferramentas de desenvolvedor, pode significar ler uma gravação de tela de um bug, o texto de erro relacionado e um trecho de código-fonte e, em seguida, produzir uma lista de verificação de reprodução. Para fluxos de trabalho operacionais, pode significar combinar texto longo de política com evidências visuais e pedir ao modelo para produzir um plano de tratamento passo a passo.

A distinção importante é que o Step 3.7 Flash deve receber as evidências necessárias para a tarefa. Não peça para ele inferir detalhes que nunca foram fornecidos. Se o fluxo de trabalho depende de uma consulta a banco de dados, estado de faturamento, status de pedido ou registro de implantação, exponha esses dados por meio de sua camada de aplicação ou de uma chamada de ferramenta em vez de confiar no conhecimento geral do modelo.

Bons prompts de avaliação incluem:

  • Um prompt de triagem de suporte com uma captura de tela, a descrição do usuário e um esquema JSON obrigatório.
  • Um prompt de QA de produto com uma entrada de vídeo curta e um template de relatório de bug.
  • Um prompt de roteamento de ferramenta onde o modelo deve escolher entre create_ticket, search_docs e escalate_to_human.
  • Um prompt de análise de contexto longo onde o mesmo esquema de ferramenta e texto de política podem se beneficiar de leituras em cache.

Evite começar com prompts vagos como “analise este vídeo” ou “raciocine sobre esta imagem”. Dê ao modelo a tarefa, o limite de decisão e o formato de saída. Isso facilita a comparação de resultados entre modelos e a medição se o contexto extra e a entrada multimodal estão se pagando.

Para fluxos de trabalho de agente, o suporte a ferramentas do modelo é a parte a ser testada com mais cuidado. Uma boa avaliação de chamada de ferramenta deve incluir casos onde a resposta correta é chamar uma ferramenta, casos onde a resposta correta é pedir mais informações e casos onde nenhuma ferramenta deve ser executada. Isso impede que a avaliação recompense ações excessivamente entusiasmadas apenas porque o modelo pode emitir uma chamada de função.

Como as equipes devem avaliá-lo antes da produção?

Comece com um pequeno conjunto de teste que se assemelhe ao seu produto, não a um prompt de benchmark genérico. Inclua casos de sucesso, casos de borda e prompts que não devem acionar uma chamada de ferramenta. Se sua aplicação precisar de saída estruturada, valide a saída contra seu esquema em vez de verificá-la manualmente.

Uma solicitação de texto mínima compatível com OpenAI usa a URL base da Novita AI e o ID de modelo verificado:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="stepfun/step-3.7-flash",
    messages=[
        {
            "role": "system",
            "content": "Você é um assistente prático de triagem de incidentes. Retorne recomendações concisas e estruturadas.",
        },
        {
            "role": "user",
            "content": "Revise este resumo de incidente e identifique as próximas três verificações: a latência da API dobrou após uma implantação, a CPU do banco de dados está normal, a taxa de erro está estável.",
        },
    ],
    max_tokens=700,
    temperature=0.2,
)

print(response.choices[0].message.content)

Para avaliação em produção, adicione quatro verificações antes de rotear tráfego real de usuários:

  • Verificação de custo: registre tokens de entrada, leitura em cache e saída para solicitações representativas.
  • Verificação de esquema: valide saídas estruturadas automaticamente e tente novamente ou recorra quando as respostas não coincidirem.
  • Verificação de ferramenta: teste tanto casos com chamada de ferramenta quanto sem chamada de ferramenta, incluindo prompts ambíguos.
  • Verificação de mídia: avalie os formatos reais de imagem ou vídeo que seu aplicativo envia, não apenas resumos de texto da mídia.

Chamadas de função e saídas estruturadas são úteis, mas não removem a responsabilidade do aplicativo. Seu serviço ainda precisa de verificações de autorização, validação de entrada, execução de ferramentas idempotentes e logs de auditoria para ações que alteram dados do usuário.

Para solicitações multimodais, mantenha o caminho de manipulação de mídia explícito. Armazene ou faça referência ao ativo de acordo com as regras de privacidade do seu aplicativo, preserve metadados suficientes para depurar falhas e registre qual formato de solicitação foi usado. Se um problema de produção aparecer mais tarde, você vai querer saber se o modelo viu a imagem ou vídeo original, uma versão comprimida, uma amostra de quadro ou um resumo de texto gerado por outro serviço.

Como o Step 3.7 Flash se compara a um artigo separado de início rápido?

Este artigo é a visão geral de lançamento e fonte da verdade: disponibilidade, ID do modelo, preços, escopo multimodal e adequação para desenvolvedores. Um artigo separado de início rápido do Step 3.7 Flash pode aprofundar cargas de solicitação, entradas de imagem e vídeo, exemplos de chamada de função e padrões de saída estruturada.

Essa separação é útil porque leitores de lançamento geralmente precisam responder: “Devemos avaliar este modelo?” Leitores de início rápido precisam responder: “Qual solicitação exata devo enviar?” Manter esses trabalhos separados evita enterrar fatos de preços e capacidades dentro de um longo tutorial, ao mesmo tempo que deixa espaço para detalhes de implementação onde eles pertencem.

Por enquanto, o melhor próximo passo é abrir a página do modelo Step 3.7 Flash, confirmar a tabela de preços e limites atuais para sua conta e executar um prompt de avaliação restrito que use a mesma mídia, esquema de ferramenta ou saída estruturada que seu aplicativo precisará.

FAQ

O Step 3.7 Flash está disponível na Novita AI?

Sim. A Novita AI atualmente lista o Step 3.7 Flash como um modelo LLM Serverless com o ID de API stepfun/step-3.7-flash.

Quais entradas o Step 3.7 Flash suporta?

A página do modelo na Novita AI atualmente lista texto, imagem e vídeo como modalidades de entrada suportadas. A modalidade de saída é texto.

Quanto custa o Step 3.7 Flash na Novita AI?

O preço atual na Novita AI para stepfun/step-3.7-flash é $0,20 por milhão de tokens de entrada, $0,04 por milhão de tokens de entrada em leitura em cache e $1,15 por milhão de tokens de saída.

O Step 3.7 Flash suporta chamada de função?

Sim. A página do modelo na Novita AI atualmente lista suporte a chamada de função, saídas estruturadas e raciocínio para o Step 3.7 Flash.

Qual endpoint os desenvolvedores devem usar?

Use o endpoint de chat completions compatível com OpenAI da Novita AI com o ID de modelo stepfun/step-3.7-flash. A URL base para uso do SDK compatível com OpenAI é https://api.novita.ai/openai.

Artigos recomendados