Execute Avaliações de Agentes Harbor no Novita Agent Sandbox

Execute Avaliações de Agentes Harbor no Novita Agent Sandbox

Harbor é um framework para avaliar e otimizar agentes e modelos de linguagem. Ele é projetado em torno de tarefas de benchmark, ambientes conteinerizados, execuções paralelas e geração de rollouts para fluxos de otimização. Para equipes que avaliam agentes de codificação ou agentes que usam ferramentas, o ambiente de execução não é um detalhe secundário: ele determina como as tarefas são construídas, como os comandos são executados, como os arquivos entram e saem e como os logs do verificador são coletados.

Este post analisa o caminho do código do ambiente Novita no Harbor e como ele se mapeia para o Novita Agent Sandbox. O escopo é intencionalmente restrito: esta é uma visão geral orientada à implementação, não um anúncio de parceria, nem um benchmark, nem uma comparação de custos.

O que o Harbor precisa de um Sandbox em Nuvem

As tarefas do Harbor definem uma instrução, testes, lógica de solução opcional e um ambiente. O ambiente geralmente é representado por arquivos em um diretório environment/. A documentação de tarefas do Harbor explica que os arquivos necessários dependem do tipo de ambiente selecionado. O Docker pode usar um Dockerfile ou arquivo Compose, enquanto a maioria dos provedores de sandbox em nuvem suporta ambientes definidos por Dockerfile, em vez de Docker Compose.

Esse modelo é importante para avaliações de agentes. Uma execução do Harbor precisa criar um ambiente de tarefa isolado, executar comandos do agente e do verificador, transferir arquivos como testes e artefatos e, em seguida, limpar o runtime. Quando uma execução escala de algumas execuções locais para muitas execuções remotas, o provedor de sandbox se torna parte do harness de avaliação.

Onde o Novita Agent Sandbox se encaixa

O Novita Agent Sandbox é um runtime de sandbox em nuvem para agentes de IA que executam código gerado. A documentação do produto descreve um ambiente de sandbox seguro e isolado, suporte a execução em múltiplas linguagens, pausa/retomada, execução em segundo plano e gerenciamento via SDK/CLI. Em um contexto do Harbor, a superfície de runtime relevante é prática: criar um sandbox, executar comandos, mover arquivos e gerenciar o ciclo de vida do sandbox.

A árvore de fontes do Harbor inclui o código/ caminho do ambiente Novita no main, incluindo um tipo de ambiente novita, a fiação da fábrica para harbor.environments.novita.NovitaEnvironment e a fiação de dependência opcional em nível de código-fonte para o Novita Agent Sandbox. Isso deve ser descrito como estado da árvore de fontes, não como suporte PyPI lançado.

Forma da Integração

Em alto nível, o caminho do ambiente Novita no Harbor mapeia um ambiente de tarefa do Harbor para um template de sandbox Novita e uma sessão de runtime:

  • O Harbor lê a definição do ambiente da tarefa, geralmente de um environment/Dockerfile.
  • A implementação do ambiente Novita constrói ou reutiliza um template de sandbox Novita para esse ambiente.
  • O Harbor cria um sandbox a partir do template para a execução da avaliação.
  • Os comandos do agente, verificador e configuração são executados dentro do sandbox.
  • Os arquivos são enviados e baixados do sandbox conforme exigido pelo ciclo de vida da tarefa do Harbor.
  • O sandbox é interrompido ou limpo quando a execução é concluída.

Isso é útil porque mantém a abstração de avaliação do Harbor intacta. Os autores de tarefas ainda raciocinam em termos do Harbor: instruções, testes, arquivos de recompensa, artefatos e arquivos de ambiente. O provedor de sandbox lida com o ambiente de execução remota por trás dessa interface.

Status Atual da Versão

A árvore de fontes do Harbor inclui o código/ caminho do ambiente Novita no main. Isso inclui código-fonte para um tipo de ambiente novita, uma implementação NovitaEnvironment e a fiação de dependência opcional em nível de código-fonte para o Novita Agent Sandbox. Trate isso como orientação da árvore de fontes por enquanto, não como um quickstart PyPI executável.

No momento da verificação atual da publicação, a versão PyPI do Harbor 0.7.0 não inclui o extra novita, não instala novita-sandbox através de um extra Novita do Harbor e não expõe novita como um valor de ambiente CLI válido. Não publique comandos que peçam aos leitores para instalar um extra Novita do Harbor ou executar o Harbor com um ambiente CLI Novita contra o pacote PyPI até que uma versão do Harbor contendo essa interface esteja disponível.

A orientação segura para os leitores é: a árvore de fontes do Harbor inclui o código/ caminho do ambiente Novita no main, enquanto o pacote PyPI lançado ainda não enviou essa interface. Assim que o Harbor publicar uma versão que inclua o extra Novita e o ambiente CLI, este artigo poderá ser atualizado com comandos de instalação e execução testados.

Um Modelo Mental de Tarefa Mínima

Uma tarefa do Harbor geralmente inclui:

  • instruction.md para a tarefa voltada ao agente.
  • task.toml para metadados da tarefa e configuração de runtime.
  • environment/ para a definição do ambiente conteinerizado.
  • tests/ para a lógica do verificador.
  • Um diretório opcional solution/ para fluxos de oráculo ou verificação de sanidade.

Para um provedor de sandbox em nuvem, mantenha a definição do ambiente portátil. A documentação do Harbor observa que a maioria dos provedores de sandbox em nuvem só suporta ambientes definidos por Dockerfile, portanto, uma tarefa baseada em Docker Compose deve ser revisada antes de assumir que pode ser executada remotamente.

O Que Isso Não Está Afirmando

Este caminho de integração deve ser descrito com precisão. As afirmações atuais com suporte público no código-fonte são sobre o estado do código no main do Harbor e as capacidades do produto Novita Agent Sandbox, não afirmações comerciais ou de benchmark. Evite dizer que Novita e Harbor anunciaram uma parceria oficial, a menos que exista um anúncio público. Evite dizer que o caminho Novita é mais rápido, mais acessível ou mais confiável do que outros provedores de ambiente do Harbor, a menos que haja um benchmark ou comparação de preços para citar. Evite sugerir que a documentação pública do Harbor atualmente recomenda o Novita como o provedor de nuvem padrão.

A afirmação mais forte publicável é mais restrita e mais útil: a árvore de fontes do Harbor inclui o código/ caminho do ambiente Novita no main, e o Novita Agent Sandbox fornece primitivas de runtime de sandbox que um ambiente de avaliação do Harbor precisa: execução isolada, execução de comandos, operações de arquivo, configuração baseada em template e gerenciamento de ciclo de vida.

Como Usar Isso Hoje

Use este artigo como uma visão geral arquitetônica e uma nota sobre o status da versão, não como um quickstart de copiar e colar. Se você está avaliando o Harbor hoje a partir do pacote PyPI atual, verifique a versão instalada do Harbor e a ajuda da CLI antes de assumir que o ambiente Novita está disponível. Se a versão instalada não expuser o extra Novita ou o ambiente CLI, aguarde uma versão do Harbor que envie essa interface antes de publicar comandos executáveis ou adicionar o caminho à documentação de avaliação de produção.

Para a publicação final do Novita, blocos de comandos testados podem ser adicionados depois que o Harbor publicar uma versão contendo o extra Novita e o ambiente CLI. Até lá, o artigo deve manter o limite claro: o main do Harbor contém o caminho do código do ambiente Novita, enquanto os usuários atuais do PyPI não devem ser direcionados para executar comandos específicos do Novita no Harbor.

FAQ

O Harbor suporta o Novita Agent Sandbox?

O branch main do Harbor inclui um caminho de ambiente Novita que mapeia ambientes de avaliação do Harbor para o Novita Agent Sandbox. Trate como suporte na árvore de fontes até que uma versão do Harbor envie o extra Novita e o ambiente CLI.

Posso instalar o Harbor com suporte Novita do PyPI hoje?

Não a partir da versão PyPI verificada atualmente. O pacote Harbor mais recente verificado, harbor 0.7.0, não inclui o extra Novita nem a implementação do ambiente Novita, portanto, este post não o apresenta como um caminho de instalação pronto para uso.

Por que não há comandos Harbor executáveis neste post?

Comandos executáveis implicariam que o caminho Novita está disponível no pacote Harbor lançado. Até que o pacote e a superfície CLI sejam lançados e testados, a orientação mais segura é explicar a forma da integração e o limite atual da versão.

O que muda depois que o Harbor lançar o suporte Novita?

Depois que o Harbor publicar uma versão com o extra Novita e o ambiente CLI, este artigo deve ser atualizado para um quickstart prático com etapas de instalação verificadas, variáveis de ambiente, um exemplo de tarefa baseada em Dockerfile e saída de validação esperada.

Fontes