Entre bastidores: Cómo alojamos modelos en Novita AI

Tabla de contenido

Alojamiento de modelos entre bastidores
Alojamiento propio frente a uso de modelos alojados

Los modelos de código abierto como Deepseek V3 y Qwen3 Coder no solo se están poniendo al día con sus contrapartes de código cerrado; ofrecen un rendimiento de última generación con una ventaja de costos de 6 a 10 veces. Pero este potencial increíble conlleva un desafío oculto: los modelos de código abierto rara vez están alojados, mientras que los modelos cerrados casi siempre lo están.

Para la mayoría de los equipos, implementar estos modelos de forma interna es un desafío por tres razones principales:

Costoso: Para ejecutar un modelo como Llama 3.3 70B, probablemente necesites dos GPU H100, un gasto inicial enorme. Para empeorar las cosas, este hardware caro a menudo permanece inactivo durante períodos de baja demanda, lo que genera una baja utilización y una inversión desperdiciada.
Complejo: Implementar y mantener LLM requiere experiencia profunda en optimización de inferencia y operaciones de GPU, y contratar un equipo completo de MLOps no es lógico para la mayoría de las empresas.
Engorroso: Se lanzan nuevos modelos con frecuencia, pero las configuraciones internas son rígidas, lo que hace que probar nuevos modelos o escalar para satisfacer cambios repentinos en la demanda sea lento y difícil.

En Novita AI, creemos que no deberías tener que elegir entre el poder del código abierto y la pulidez de un servicio gestionado. Nuestra plataforma está diseñada para ofrecer la estabilidad, el rendimiento y la experiencia de desarrollador que esperas de un modelo cerrado premium, junto con los beneficios de costos del ecosistema abierto. Ofrecemos alojamiento de grado de producción para LLM de código abierto.

Aquí tienes un vistazo entre bastidores de lo que hacemos para que esto sea posible.

Alojamiento de modelos entre bastidores

Cuando alojas un modelo personalizado en Novita AI o llamas a nuestra API de LLM de código abierto, ocurren muchas cosas entre bastidores. Alojar modelos a gran escala implica un proceso complejo de orquestación, optimización y monitoreo continuo para garantizar que cada solicitud sea rápida y confiable.

Almacenamiento de modelos y hardware

Mantenemos una biblioteca activa de modelos de código abierto populares (por ejemplo, Llama, Qwen, DeepSeek), lo que implica almacenar estos modelos con miles de millones de parámetros. Dado que ejecutar estos LLM requiere hardware especializado, colaboramos con centros de datos de todo el mundo para garantizar un servicio rápido y confiable para usuarios en todas las ubicaciones, gestionando:

Servidores lo suficientemente potentes para manejar cargas de trabajo de inferencia
Redes para mover solicitudes y respuestas rápidamente
Energía para mantener todo funcionando las 24 horas del día, los 7 días de la semana

Absorbemos los costos de hardware y ofrecemos:

Biblioteca de modelos activos: Mantenemos cientos de modelos iniciados previamente. Esto te permite probar y validar instantáneamente los últimos LLM para tu caso de uso.
Puntos de acceso sin servidor de pago por uso: Solo pagas por los tokens que usas. Este modelo de precios basado en tokens es perfecto para aplicaciones con demanda variable, como chatbots y generación de texto, garantizando que nunca pagues por capacidad inactiva.
Implementaciones personalizadas bajo demanda: Cuando necesites más control, puedes alquilar GPU potentes como la NVIDIA H100 por tan solo 1,85 USD por hora. Esto te permite escalar tus recursos según tus necesidades, transformando un gasto de capital elevado en un costo operativo predecible.
Integración amigable para desarrolladores: Hemos preparado una API unificada que abstrae la complejidad subyacente. Estas API están diseñadas para ser compatibles con marcos de trabajo populares como la API de OpenAI, lo que facilita el cambio de proveedor: solo cambia la URL base y la clave, y tendrás acceso a todos los modelos abiertos de nuestra biblioteca. También nos integramos de forma fluida con marcos de trabajo como LangChain, LiteLLM y LlamaIndex, por lo que cambiar o experimentar con nuevos modelos no romperá tus flujos de trabajo existentes.

Optimización de inferencia

La ejecución sin procesar del modelo es solo el principio. Para ofrecer el mejor rendimiento al menor costo, usamos varias técnicas para optimizar la inferencia:

Cuantificación: Reducir la precisión de los pesos del modelo, haciéndolos más pequeños y rápidos de ejecutar sin sacrificar el rendimiento
Procesamiento por lotes: Procesar múltiples solicitudes de usuario simultáneamente para maximizar el uso de la GPU
Balanceo de carga: Distribuir las solicitudes entre varios servidores para que ningún servidor individual esté sobrecargado, manteniendo una latencia baja

Nos encargamos de la complejidad subyacente para ofrecer una experiencia pulida y amigable para desarrolladores que hace que la IA de código abierto sea accesible para todos.

Ofrecemos soporte integrado para funciones críticas como llamadas a funciones, salidas estructuradas e inferencia por lotes. Esto elimina la necesidad de que construyas estos sistemas complejos tú mismo, acelerando tu tiempo de salida al mercado.
Escalado elástico para cualquier carga de trabajo: Nuestra infraestructura está diseñada para ser completamente elástica. Los puntos de acceso sin servidor se escalan automáticamente para manejar alta concurrencia con un Tiempo hasta el primer token (TTFT) inferior a 300 ms. Las implementaciones personalizadas y empresariales ofrecen escalado automático de GPU para satisfacer cualquier demanda, garantizando al mismo tiempo el rendimiento y el aislamiento de datos.

Para aplicaciones de misión crítica, ofrecemos una solución “Zero-Ops”. Envía tus requisitos (nombre del modelo, longitud de entrada/salida, SLA de rendimiento) y nuestro motor optimizador de LLM diseñará personalmente la solución más rentable para ti. Nuestro equipo de expertos también implementará y gestionará el modelo por ti, con el respaldo de un SLA del 99,5%, rendimiento garantizado y soporte técnico directo.

Alojamiento propio frente a uso de modelos alojados

Algunos desarrolladores prefieren alojar sus propios modelos para tener el máximo control. Si ese es tu caso, estamos aquí para ayudarte: alquila GPU por hora a través de Novita AI y ajusta tu pila exactamente como quieras.

Sin embargo, el alojamiento propio conlleva desventajas importantes: la configuración y el mantenimiento requieren tiempo y experiencia, la escalabilidad puede ser complicada y equilibrar las compensaciones entre costo y rendimiento puede ser un desafío constante.

Usar API de LLM de código abierto alojadas como Novita elimina esa sobrecarga, brindándote una solución lista para producción con rendimiento predecible y una carga operativa mínima. Hemos optimizado la infraestructura de Novita AI para ofrecerte la mejor experiencia al menor costo. Al ejecutar modelos a gran escala, podemos ofrecer precios más bajos de los que un individuo o una pequeña empresa puede lograr alojando modelos por su cuenta. Cobramos según la cantidad de tokens procesados, por lo que solo pagas por lo que usas.

Diseñamos tres niveles de servicio para adaptarse perfectamente a cada etapa de tu recorrido con IA.

	Puntos de acceso sin servidor	Implementaciones personalizadas	Implementaciones empresariales
Soporte de modelos	LLM actualizados como Qwen3, DeepSeek, LLaMA3	Cientos de modelos iniciados previamente + Carga de modelos personalizados	Cientos de modelos iniciados previamente + Carga de modelos personalizados
Precios	Pago por uso basado en tokens	Pago por hora de GPU bajo demanda	Precios basados en tokens según rendimiento
Integración	Autoservicio, integración en una línea	Implementación de GPU de autoservicio, integración en una línea	Implementación experta y servicios empresariales
Escalado elástico	Escalado elástico dentro de los límites de tasa	Puntos de acceso dedicados: Escalado automático de GPU según el uso	Escalado elástico basado en rendimiento
Caso de uso ideal	Acceso rápido a nuevos modelos sin gestionar infraestructura	Necesidad de mayor control del modelo y configuraciones personalizadas	Implementaciones completamente gestionadas con rendimiento garantizado

Nota: La cantidad máxima de GPU para los puntos de acceso dedicados es 8. Si necesitas más GPU, contacta con el equipo de ventas para obtener servicio empresarial.

Reflexiones finales

Ya sea que estés ejecutando un modelo ajustado para un caso de uso específico o experimentando con el último LLM de código abierto, Novita AI te brinda la comodidad de un modelo cerrado a precios de código abierto. Si estás interesado en una solución personalizada o quieres comentar tu configuración, programa una charla con nuestros ingenieros aquí.

Agradecimiento: Un agradecimiento especial a Charles, gerente de proyectos de LLM de Novita, por sus contribuciones y aportes a este artículo.

Entre bastidores: Cómo alojamos modelos en Novita AI