Modelos de código aberto como o Deepseek V3 e o Qwen3 Coder não estão apenas alcançando seus equivalentes de código fechado; eles oferecem desempenho de última geração com uma vantagem de custo de 6 a 10 vezes. Mas esse potencial incrível traz um desafio oculto: modelos de código aberto raramente são hospedados, enquanto modelos fechados quase sempre são.
Para a maioria das equipes, implantar esses modelos na própria empresa é desafiador por três motivos principais.
- Caro: Para executar um modelo como o Llama 3.3 70B, você provavelmente precisará de duas GPUs H100, um gasto inicial enorme. Para piorar, esse hardware caro costuma ficar ocioso em períodos de baixa demanda, levando a uma utilização deficiente e investimento desperdiçado.
- Complexo: Implantar e manter LLMs requer profunda expertise em otimização de inferência e operações de GPU, e contratar uma equipe inteira de MLOps não é viável para a maioria das empresas.
- Trabalhoso: Novos modelos são lançados com frequência, mas configurações internas são rígidas, o que torna lento e difícil testar novos modelos ou escalar para atender a picos repentinos de demanda.
Na Novita AI, acreditamos que você não precisa escolher entre o poder do código aberto e a qualidade de um serviço gerenciado. Nossa plataforma foi projetada para entregar a estabilidade, o desempenho e a experiência do desenvolvedor que você espera de um modelo fechado premium, com os benefícios de custo do ecossistema aberto. Oferecemos hospedagem de nível de produção para LLMs de código aberto.
Aqui está uma olhada nos bastidores do que fazemos para tornar isso possível.
Nos Bastidores da Hospedagem de Modelos
Quando você hospeda um modelo personalizado na Novita AI ou chama nossa API de LLM de código aberto, muita coisa acontece nos bastidores. Hospedar modelos em escala envolve um processo complexo de orquestração, otimização e monitoramento contínuo para garantir que cada solicitação seja rápida e confiável.
Armazenamento de Modelos e Hardware
Mantemos uma biblioteca ativa de modelos de código aberto populares (ex: Llama, Qwen, DeepSeek), o que envolve armazenar esses modelos com bilhões de parâmetros. Como executar esses LLMs requer hardware especializado, fazemos parceria com data centers em todo o mundo para garantir um serviço rápido e confiável para usuários em todas as localizações, gerenciando:
- Servidores poderosos o suficiente para lidar com cargas de trabalho de inferência
- Rede para mover solicitações e respostas rapidamente
- Energia para manter tudo funcionando 24 horas por dia, 7 dias por semana
Nós absorvemos os custos de hardware e oferecemos:
- Biblioteca de Modelos Ativos: Mantemos centenas de modelos pré-inicializados. Isso permite que você teste e valide instantaneamente os LLMs mais recentes para seu caso de uso.
- Endpoints Serverless Pagos por Uso: Você paga apenas pelos tokens que usa. Esse modelo de preço baseado em tokens é perfeito para aplicações com demanda variável, como chatbots e geração de texto, garantindo que você nunca pague por capacidade ociosa.
- Implantações Personalizadas Sob Demanda: Quando você precisa de mais controle, pode alugar GPUs poderosas como a NVIDIA H100 por apenas US$ 1,85 por hora. Isso permite que você escale seus recursos de acordo com suas necessidades, transformando um grande gasto de capital em um custo operacional previsível.
- Integração Amigável para Desenvolvedores: Preparamos uma API unificada que abstrai a complexidade subjacente. Essas APIs são projetadas para serem compatíveis com frameworks populares como a API OpenAI, facilitando a troca de provedores: basta alterar a URL base e a chave, e você terá acesso a todos os modelos abertos da nossa biblioteca. Também nos integramos perfeitamente com frameworks como LangChain, LiteLLM e LlamaIndex, para que trocar ou experimentar novos modelos não quebre seus fluxos de trabalho existentes.
Otimização de Inferência
A execução bruta do modelo é apenas o começo. Para oferecer o melhor desempenho com o menor custo, usamos várias técnicas para otimizar a inferência:
- Quantização: reduzir a precisão dos pesos do modelo, tornando-os menores e mais rápidos de executar, mantendo o desempenho
- Agrupamento em Lote (Batching): processar várias solicitações de usuários simultaneamente para maximizar o uso da GPU
- Balanceamento de Carga: distribuir solicitações por vários servidores para que nenhum servidor fique sobrecarregado, mantendo a latência baixa
Nós lidamos com a complexidade subjacente para oferecer uma experiência polida e amigável para desenvolvedores, tornando a IA de código aberto acessível para todos.
- Oferecemos suporte nativo para recursos essenciais como Chamada de Funções, Saídas Estruturadas e Inferência em Lote. Isso elimina a necessidade de você construir esses sistemas complexos sozinho, acelerando seu tempo de lançamento no mercado.
- Escalonamento Elástico para Qualquer Carga de Trabalho: Nossa infraestrutura foi projetada para ser totalmente elástica. Os Endpoints Serverless escalam automaticamente para lidar com alta concorrência, com um Tempo até o Primeiro Token (TTFT) inferior a 300ms. Implantações Personalizadas e Empresariais oferecem escalonamento automático de GPU para atender a qualquer demanda, garantindo desempenho e isolamento de dados.
Para aplicações de missão crítica, oferecemos uma solução “Zero-Ops”. Envie seus requisitos (nome do modelo, comprimento de entrada/saída, SLA de desempenho) e nosso Mecanismo Otimizador de LLM projetará a solução mais econômica personalizada para você. Nossa equipe de especialistas também implantará e gerenciará o modelo para você, com suporte de um SLA de 99,5%, desempenho garantido e suporte técnico direto.
Hospedagem Própria vs Uso de Modelos Hospedados
Alguns desenvolvedores preferem hospedar seus próprios modelos para ter controle máximo. Se esse é o seu caso, estamos aqui para apoiar: alugue GPUs por hora pela Novita AI e ajuste sua stack exatamente como desejar.
No entanto, a hospedagem própria traz desvantagens significativas: configuração e manutenção exigem tempo e expertise, escalonar pode ser complicado e equilibrar as trocas entre custo e desempenho pode ser um desafio constante.
Usar APIs de LLM de código aberto hospedadas como a Novita elimina essa sobrecarga, oferecendo uma solução pronta para produção com desempenho previsível e carga operacional mínima. Otimizamos a infraestrutura da Novita AI para oferecer a melhor experiência com o menor custo. Ao executar modelos em escala, podemos oferecer preços mais baixos do que um indivíduo ou pequena empresa conseguiria com hospedagem própria. Cobramos pelo número de tokens processados, então você paga apenas pelo que usa.
Projetamos três camadas de serviço para oferecer um ajuste perfeito para cada estágio da sua jornada com IA.
| Endpoints Serverless | Implantações Personalizadas | Implantações Empresariais | |
| Suporte a Modelos | LLMs atualizados como Qwen3, DeepSeek, LLaMA3 | Centenas de Modelos Pré-Inicializados + Upload de Modelo Personalizado | Centenas de Modelos Pré-Inicializados + Upload de Modelo Personalizado |
| Precificação | Pago por Uso Baseado em Tokens | Sob Demanda por Hora de GPU | Precificação Baseada em Desempenho por Token |
| Integração | Autoatendimento, Integração em Uma Linha | Implantação de GPU por Autoatendimento, Integração em Uma Linha | Implantação por Especialistas e Serviços Empresariais |
| Escalonamento Elástico | Escalonamento Elástico Dentro dos Limites de Taxa | Endpoints Dedicados: Escalonamento Automático de GPUs com Base no Uso | Escalonamento Elástico Baseado em Desempenho |
| Melhor Caso de Uso | Acesso rápido a novos modelos sem gerenciar infraestrutura | Necessidade de maior controle do modelo e configurações personalizadas | Implantações totalmente gerenciadas com desempenho garantido |
Nota: O número máximo de GPUs para Endpoints Dedicados é 8. Se você precisar de mais GPUs, entre em contato com as vendas para o serviço empresarial.
Considerações Finais
Seja você executando um modelo ajustado para um caso de uso de nicho ou experimentando o LLM de código aberto mais recente, a Novita AI oferece a conveniência de um modelo fechado com preços de código aberto. Se você está interessado em uma solução personalizada ou quer conversar sobre sua configuração, agende um bate-papo com nossos engenheiros aqui.
Agradecimento: Agradecimento especial a Charles, Gerente de Projeto de LLM da Novita, por suas contribuições e insights para este artigo.
