Modelos de precificação de sandbox de agente de IA: por sessão, computação, armazenamento e egresso

Modelos de precificação de sandbox de agente de IA: por sessão, computação, armazenamento e egresso

Antes de se comprometer com uma plataforma de sandbox para agentes de IA, entenda como seu modelo de precificação se ajusta à sua carga de trabalho real. Os custos de sandbox não são apenas taxas de computação — eles são uma combinação de taxas de sessão, níveis de recursos, armazenamento, egresso, comportamento de cache de pacotes e gerenciamento de tempo ocioso. Se você errar em uma dimensão, sua estimativa de custo para um agente de codificação real ou um fluxo de automação de navegador pode ficar errada por uma ordem de grandeza.

Este guia detalha cada eixo de precificação, mostra como eles interagem em cargas de trabalho comuns e oferece uma estrutura de comparação para avaliar fornecedores quanto ao custo antes de se inscrever.

Como a precificação de sandbox realmente funciona

A maioria dos provedores de sandbox gerenciados cobra alguma combinação de:

  • Tempo de computação: CPU e RAM consumidos por segundo (ou por minuto) enquanto o sandbox está em execução
  • Custo adicional de sessão: uma taxa fixa por inicialização de sessão, ou uma unidade mínima de faturamento que se aplica mesmo para execuções curtas
  • Armazenamento: espaço em volume persistente acima do nível gratuito incluído
  • Egresso: transferência de dados de saída, geralmente medida em GB
  • Nível de assinatura: um mínimo mensal que desbloqueia maior concorrência, sessões mais longas ou configurações de recursos personalizadas

Nenhum provedor ganha dinheiro com sandboxes ociosos que podem ser pausados automaticamente — mas nem todos os provedores implementam a pausa automática da mesma forma. Os casos extremos do modelo de faturamento importam tanto quanto a taxa principal.

Taxas por sessão

Alguns provedores cobram uma taxa fixa para cada sandbox que inicia, independentemente de quanto tempo ele executa ou quais recursos utiliza. Outros cobram apenas o tempo de computação, sem custo adicional por sessão.

Uma cobrança por sessão é mais relevante quando você tem cargas de trabalho de alta frequência e curta duração — por exemplo, um interpretador de código que cria e destrói um sandbox para cada interação do usuário em uma sessão de chat. Se uma sessão custa $0,001 para iniciar e sua aplicação executa 10.000 sessões por dia, isso dá $10/dia em taxas de sessão antes mesmo de qualquer computação ser contabilizada.

O que perguntar: O provedor cobra uma taxa mínima por sessão ou apenas pelo tempo de computação real? Qual é a unidade mínima de faturamento (por segundo, por minuto, a cada 5 minutos)?

Para o Novita Agent Sandbox, o faturamento é por segundo com base no uso real de vCPU e memória, sem taxa adicional de inicialização por sessão. Preços em meados de 2026: 1 vCPU a US$ 0,0000098/s, com memória a US$ 0,0000016/GiB/s. Uma tarefa curta de 5 minutos em 1 vCPU + 512 MiB de RAM custa aproximadamente US$ 0,0032 no total. (Fonte: página de preços da Novita AI, verificada na documentação publicada da Novita.)

Para E2B Pro (conforme documentado nos artigos de comparação publicados pela Novita), 1 vCPU custa US$ 0,0000140/s com memória a US$ 0,0000045/GiB/s, além de uma assinatura mensal de US$ 150 para acessar configurações personalizadas de CPU/RAM e sessões de 24 horas.

Sempre verifique as taxas atuais na página de preços de cada provedor antes de se comprometer — a precificação de sandbox está mudando ativamente neste mercado.

Níveis de computação: vCPU e memória

A computação é o custo dominante para a maioria das cargas de trabalho em sandbox. As variáveis são:

  • Quantidade de vCPU: a maioria dos provedores cobra linearmente por vCPU
  • Memória: cobrada por GiB/s, geralmente a uma taxa menor que a da computação
  • Configurabilidade: alguns provedores oferecem níveis fixos (ex.: 1/2/4/8 vCPU), outros permitem alocação arbitrária

Para cargas de trabalho de agente em lote — executando muitas tarefas curtas em paralelo — a proporção entre memória e vCPU é importante. Uma tarefa de análise de dados que carrega um CSV grande pode precisar de 4 GiB de RAM, mas apenas 1 vCPU. Pagar por um nível fixo de 4 vCPU + 4 GiB quando você só precisa de 1 vCPU + 4 GiB desperdiça o tempo de faturamento de três CPUs por tarefa.

O que perguntar: Posso configurar vCPU e memória independentemente? Existe uma alocação mínima? Quais níveis de GPU estão disponíveis se eu precisar de inferência de modelo dentro do sandbox?

A implicação prática: um provedor com faturamento flexível por recurso dá às equipes que executam cargas de trabalho mistas (algumas com uso intenso de CPU, outras de memória) melhor controle de custos do que um que oferece pacotes fixos de computação.

Armazenamento: efêmero vs. persistente

O armazenamento do sandbox vem em duas formas com comportamentos de faturamento diferentes:

Armazenamento efêmero é o sistema de arquivos local do sandbox durante uma sessão. Ele desaparece quando o sandbox é encerrado. A maioria dos provedores inclui uma alocação gratuita (10–20 GB é comum) e não cobra extra dentro desse limite.

Armazenamento persistente sobrevive entre sessões. É onde os agentes armazenam pontos de verificação, arquivos gerados, artefatos em cache ou estado do workspace que precisa estar disponível na próxima vez. Volumes persistentes geralmente são cobrados por GB por mês, semelhante à precificação de armazenamento em bloco na nuvem.

A armadilha de custo: se seu agente gera arquivos intermediários grandes (logs, saídas de modelo, dados brutos) e eles se acumulam no armazenamento persistente sem limpeza, os custos de armazenamento aumentam com o tempo. Um agente que gera 1 GB de saída por dia e retém tudo por 30 dias acumula 30 GB de armazenamento antes que você perceba.

O que perguntar: Qual é a alocação gratuita de armazenamento efêmero por sandbox? O armazenamento persistente/workspace está disponível e como é precificado? Existe um tamanho máximo de disco para o sandbox? Há taxas de armazenamento de snapshots ou templates?

O Novita Agent Sandbox inclui 20 GB de armazenamento gratuito. A precificação do armazenamento persistente além do nível gratuito deve ser verificada na página de preços atual.

Egresso e taxas de rede

As taxas de egresso surpreendem os desenvolvedores porque são invisíveis durante o desenvolvimento, mas se tornam significativas na escala de produção.

A maioria dos provedores de nuvem gerenciados cobra por:

  • Transferência de dados de saída do sandbox para a internet pública
  • Transferência de dados entre regiões se a região do sandbox for diferente dos servidores da sua aplicação
  • Downloads de arquivos grandes dentro dos sandboxes (ex.: baixar conjuntos de dados, pesos de modelos, pacotes npm)

Cargas de trabalho em sandbox que puxam dados externos — agentes de automação de navegador buscando páginas, agentes de dados baixando conjuntos de dados, agentes de codificação clonando repositórios — podem gerar egresso significativo em escala. Um agente de codificação que clona um repositório de 500 MB em cada sessão e executa 1.000 sessões por dia transfere 500 GB/dia de egresso.

O que perguntar: O provedor cobra pelo egresso de saída? A que taxa? Os dados de entrada (uploads para o sandbox) também são cobrados? Existem limites de egresso ou throttling em níveis de plano mais baixos?

Muitos provedores de sandbox não publicam precificação explícita de egresso e, em vez disso, a incluem em resumos de custos de rede da plataforma. Obtenha uma resposta clara antes de escalar.

Economia do cache de pacotes

Instalar pacotes Python, dependências npm ou pacotes do sistema dentro de um sandbox em cada execução é caro em tempo, não apenas em custo. Um pip install torch novo pode levar minutos e adicionar faturamento significativo de computação a cada sessão.

Os provedores lidam com isso de maneiras diferentes:

Sem cache: cada sandbox começa de uma imagem base e instala pacotes do zero a cada vez. A latência de inicialização é alta; o faturamento da computação inclui o tempo de instalação.

Cache de template/snapshot: você cria um template de sandbox pré-construído com os pacotes instalados. As sessões começam a partir desse snapshot. A inicialização é rápida; a computação da instalação de pacotes é paga uma vez quando o template é construído, não por sessão.

Cache implícito de camadas: alguns provedores armazenam em cache camadas de pacotes automaticamente entre sandboxes da mesma imagem, semelhante ao cache de camadas do Docker, de modo que pacotes usados com frequência são obtidos do cache em vez de baixados novamente.

A economia: se uma tarefa de agente de 5 minutos requer 2 minutos de instalação de pacotes por execução, você está pagando 40% da sua conta de computação pela configuração, não pelo trabalho. Templates ou snapshots eliminam essa sobrecarga ao custo de armazenamento de template e complexidade de gerenciamento.

O que perguntar: O provedor suporta templates ou snapshots de sandbox? Os templates são cobrados por template ou apenas quando as sessões são iniciadas a partir deles? Com que frequência as imagens de template precisam ser reconstruídas (ex.: quando pacotes base são atualizados)?

O Novita Agent Sandbox suporta templates para ambientes pré-construídos. Equipes que executam tarefas de alta frequência contra um conjunto consistente de pacotes devem avaliar o custo de armazenamento do template em relação à economia de tempo de instalação de pacotes por sessão — para a maioria das cargas de trabalho, os templates se pagam rapidamente.

Tempo ocioso e pausa automática

Sandboxes que ficam ociosos entre etapas do agente desperdiçam dinheiro. Um agente que pausa por 30 segundos enquanto espera uma resposta de LLM ainda está consumindo faturamento de computação se o sandbox estiver em execução.

Pausa automática / retomada automática (às vezes chamada de pause/resume ou snapshot-on-idle) significa que o sandbox é congelado quando nenhum código está em execução e é cobrado apenas pela computação ativa. Isso pode reduzir drasticamente os custos para fluxos de trabalho com longos intervalos de espera por LLM — por exemplo, um agente de codificação de múltiplas etapas onde o LLM leva 10 segundos para gerar cada trecho de código e o sandbox fica ocioso durante esses 10 segundos.

O que perguntar: O provedor suporta pausa automática? O que desencadeia uma pausa (limite de tempo ocioso, chamada explícita de API)? Quão rápida é a retomada — abaixo de 1 segundo, ou mais próxima de uma partida a frio completa? Há diferença de faturamento entre um sandbox pausado e um em execução?

A compensação: pausa automática com retomada lenta adiciona latência a cada etapa do agente. Para cargas de trabalho interativas sensíveis à latência, manter o sandbox aquecido (e pagar pelo tempo ocioso) pode ser a decisão correta. Para cargas de trabalho em lote executadas durante a noite, a pausa automática quase sempre vale a pena.

Auto-hospedado: o modelo de custo oculto

As implantações de sandbox auto-hospedadas ou traga-sua-própria-nuvem (BYOC) têm uma estrutura de custos fundamentalmente diferente dos serviços de nuvem gerenciados. A conta de infraestrutura é menor por unidade de computação, mas a sobrecarga operacional é real.

Pelo que você paga no auto-hospedado:

  • Custos de VM ou bare-metal (normalmente a taxas spot/reservadas da nuvem, que são mais baixas que as taxas de sandbox gerenciado)
  • Armazenamento: volumes EBS/persistentes, armazenamento de snapshots e egresso de saída da sua conta de nuvem
  • Tempo de engenharia de operações: provisionamento, escalonamento, patch, hardening de segurança e resposta a incidentes
  • Infraestrutura de observabilidade: logging, métricas, rastreamento para eventos do ciclo de vida do sandbox
  • Trabalho de conformidade: se você precisar de controles SOC 2, HIPAA ou similares, o trabalho recai sobre sua equipe

O erro comum é comparar as taxas de computação auto-hospedadas com as taxas de sandbox gerenciado e concluir que a opção auto-hospedada é mais barata. A sobrecarga de operações e conformidade muitas vezes custa mais do que a economia em infraestrutura, especialmente para equipes com menos de três engenheiros de plataforma que possam se dedicar integralmente à infraestrutura de sandbox.

Onde o auto-hospedado faz sentido:

  • Equipes com infraestrutura de nuvem existente e capacidade de engenharia de plataforma
  • Ambientes regulatórios onde os dados não podem sair de uma conta ou região de nuvem específica
  • Cargas de trabalho de volume muito alto onde o delta de custo entre gerenciado e auto-hospedado em escala excede a sobrecarga de operações

O Novita Agent Sandbox suporta implantação BYOC em contas AWS ou GCP para equipes que precisam de sandboxes executados dentro de sua própria VPC por motivos de conformidade ou política de rede. A E2B não documenta atualmente BYOC como uma opção disponível para planos Pro padrão, embora isso possa mudar — verifique com cada provedor no momento de sua avaliação.

Estimativas de custo para três cargas de trabalho comuns

Estas estimativas usam a precificação documentada da Novita como ponto de referência. Escalone as estimativas para a vCPU, memória, duração da sessão e número diário de sessões da sua carga de trabalho real. Sempre verifique as taxas atuais antes de usar esses números para planejamento orçamentário.

Carga de trabalho 1: Agente de codificação (interativo, sessões curtas)

  • Perfil: 1 vCPU, 1 GiB RAM, sessão média de 10 minutos, 500 sessões/dia
  • Computação: (0,0000098 × 600s) + (0,0000016 × 1 × 600s) = US$ 0,00588 + US$ 0,00096 = ~US$ 0,007 por sessão
  • Diário: ~US$ 3,50/dia, ~US$ 105/mês para 500 sessões/dia
  • Variável chave: cache de pacotes — sem templates, adicione 2–3 minutos de tempo de instalação por sessão

Carga de trabalho 2: Agente de análise de dados (sessões médias, mais memória)

  • Perfil: 2 vCPU, 4 GiB RAM, sessão média de 30 minutos, 100 sessões/dia
  • Computação: (0,0000196 × 1800s) + (0,0000016 × 4 × 1800s) = US$ 0,03528 + US$ 0,01152 = ~US$ 0,047 por sessão
  • Diário: ~US$ 4,70/dia, ~US$ 141/mês para 100 sessões/dia
  • Variável chave: retenção de arquivos de saída — se cada sessão gera 100 MB de saída armazenada, 100 sessões/dia = 10 GB/dia de acúmulo de armazenamento

Carga de trabalho 3: Agente de automação de navegador (sessões longas, uso intenso de rede)

  • Perfil: 2 vCPU, 2 GiB RAM, sessão média de 60 minutos, 50 sessões/dia
  • Computação: (0,0000196 × 3600s) + (0,0000016 × 2 × 3600s) = US$ 0,07056 + US$ 0,01152 = ~US$ 0,082 por sessão
  • Diário: ~US$ 4,10/dia, ~US$ 123/mês para 50 sessões/dia
  • Variável chave: egresso — agentes de navegador buscando 10 MB de dados de página por sessão × 50 sessões = 500 MB/dia de potenciais cobranças de egresso

Estas estimativas excluem taxas de assinatura, egresso e armazenamento persistente. Para provedores com um mínimo mensal de assinatura, adicione esse custo fixo antes de comparar.

Perguntas a fazer a qualquer fornecedor de sandbox

Use esta lista ao avaliar provedores de sandbox quanto ao custo:

Modelo de faturamento

  • O faturamento é por segundo, por minuto ou em unidades maiores?
  • Há uma cobrança mínima por sessão ou taxa de inicialização?
  • É necessária uma assinatura mensal para acessar configurações personalizadas de recursos ou sessões longas?

Computação

  • vCPU e memória podem ser configurados independentemente?
  • Quais são as alocações mínimas e máximas de vCPU/memória?
  • Sandboxes com GPU estão disponíveis e como são cobrados?

Armazenamento

  • Quanto armazenamento efêmero está incluído por sandbox?
  • O armazenamento persistente/workspace está disponível? A que preço por GB/mês?
  • Há taxas de armazenamento de snapshots ou templates?

Egresso

  • O egresso de rede de saída é cobrado? A que taxa?
  • Existem níveis de egresso gratuito?

Tempo ocioso

  • A pausa automática é suportada? O que a desencadeia?
  • Quão rápida é a retomada do estado pausado?
  • Um sandbox pausado é faturado de forma diferente de um em execução?

Limites de sessão

  • Qual é a duração máxima da sessão em cada nível de plano?
  • O que acontece com uma sessão quando ela excede o limite — término gracioso ou interrupção forçada?
  • Quais limites de concorrência se aplicam em cada nível?

Cache de pacotes

  • Templates ou snapshots são suportados?
  • Como as construções de template são faturadas?

Auto-hospedado / BYOC

  • A implantação BYOC é suportada?
  • Quais provedores de nuvem (AWS, GCP, Azure)?
  • Que suporte operacional é fornecido?

Estabilidade de preços

  • Quando as taxas atuais foram atualizadas pela última vez?
  • Há desconto por uso comprometido ou por volume?

Conclusão

A precificação de sandbox é mais do que uma taxa por segundo. O custo real de executar agentes de IA na nuvem depende de como mínimos de sessão, configurabilidade de computação, retenção de armazenamento, egresso, cache de pacotes e gerenciamento de tempo ocioso se combinam para o perfil específico da sua carga de trabalho.

Acertar isso antes de se comprometer é importante. Um provedor que parece barato na taxa de vCPU pode se tornar caro quando você adiciona uma assinatura mensal de US$ 150 para desbloquear configurações personalizadas de recursos, ou cobranças de egresso em um agente de navegador que busca megabytes de dados de página por sessão. Por outro lado, um provedor com pausa automática e templates de snapshot pode custar significativamente menos em escala do que a taxa principal sugere.

Use as estimativas e a estrutura de perguntas deste guia como ponto de partida. Insira a duração real da sua sessão, perfil de vCPU/memória, frequência de sessão e crescimento esperado de armazenamento — e então compare com a página de preços atual de cada provedor, não com resumos de marketing. A precificação de sandbox neste mercado está mudando ativamente, e o número que se aplica hoje pode não se aplicar em seis meses.

Para equipes já familiarizadas com o SDK da E2B, o Novita Agent Sandbox vale a avaliação: ele usa a mesma interface compatível com E2B, fatura por segundo sem exigência de assinatura mensal e suporta implantação BYOC para equipes com restrições de VPC ou conformidade. Se ele se ajusta à sua carga de trabalho depende das variáveis acima.

FAQ

Qual é a maneira mais barata de executar sandboxes de agentes de IA em escala?

O menor custo total depende da sua combinação de cargas de trabalho. Para sessões curtas e de alta frequência, minimize os custos adicionais por sessão e use templates para evitar pagar pelo tempo de instalação de pacotes. Para sessões longas com intervalos de espera por LLM, a pausa automática reduz significativamente o faturamento de computação ociosa. Compare provedores quanto ao perfil específico de vCPU, memória e duração de sessão que corresponde ao seu caso de uso — as taxas principais não refletem seu custo real sem inserir essas variáveis.

Auto-hospedado é sempre mais barato que serviços de sandbox gerenciados?

Não necessariamente. A infraestrutura auto-hospedada tem custos de computação por unidade mais baixos, mas adiciona sobrecarga operacional real: provisionamento, escalonamento, patch, observabilidade e trabalho de conformidade. Para equipes sem capacidade dedicada de engenharia de plataforma, o custo de operações muitas vezes excede a economia em infraestrutura em comparação com um serviço gerenciado. Avalie o custo total de propriedade, não apenas a conta de nuvem.

Como o cache de pacotes afeta a precificação do sandbox?

Sem cache, cada inicialização de sandbox inclui tempo de instalação de pacotes faturado como computação. Para cargas de trabalho Python que instalam bibliotecas comuns de ciência de dados ou ML, a instalação pode adicionar 2–5 minutos de faturamento de computação por sessão. Templates ou snapshots permitem pagar pela instalação de pacotes uma vez e reutilizar esse ambiente em muitas sessões. Para qualquer carga de trabalho executando mais de algumas centenas de sessões por dia contra um conjunto consistente de pacotes, os templates geralmente se pagam rapidamente.

O que devo observar com relação à precificação de egresso em cargas de trabalho de sandbox?

Agentes de automação de navegador, agentes de ingestão de dados e cargas de trabalho que baixam arquivos grandes (conjuntos de dados, pesos de modelos, pacotes de registros externos) podem gerar transferência significativa de dados de saída. Esclareça se seu provedor de sandbox cobra pelo egresso e a que taxa antes de escalar essas cargas de trabalho. Em alguns casos, usar mirrors de pacotes, templates pré-construídos ou fontes de dados regionais dentro do mesmo provedor de nuvem pode reduzir substancialmente as cobranças de egresso.

Como avalio o custo do tempo ocioso para agentes com respostas lentas de LLM?

Estime a proporção entre tempo de espera por LLM e tempo de execução ativa em sua carga de trabalho. Se um agente espera 10 segundos por uma resposta de LLM entre cada etapa de execução de código de 2 segundos, aproximadamente 83% do tempo de sessão é ocioso. Um provedor com pausa automática que fatura apenas pela computação ativa economiza a maior parte desse custo. Compare a latência de pausa/retomada com a tolerância da sua carga de trabalho — se os usuários estão esperando pelos resultados de forma interativa, a retomada lenta adiciona atraso perceptível.

Artigos Recomendados