Dans les coulisses : Comment nous hébergeons des modèles sur Novita AI

Dans les coulisses : Comment nous hébergeons des modèles sur Novita AI

Les modèles open source comme Deepseek V3 et Qwen3 Coder ne font pas que rattraper leurs homologues propriétaires : ils offrent des performances de pointe avec un avantage de coût de 6 à 10 fois. Mais ce potentiel incroyable s’accompagne d’un défi caché : les modèles open source sont rarement hébergés, alors que les modèles propriétaires le sont presque toujours.

Pour la plupart des équipes, déployer ces modèles en interne est difficile pour trois raisons principales.

  1. Coûteux : Pour exécuter un modèle comme Llama 3.3 70B, vous aurez probablement besoin de deux GPU H100, une dépense initiale massive. Pour aggraver les choses, ce matériel coûteux reste souvent inactif pendant les périodes de faible demande, ce qui entraîne une mauvaise utilisation et un investissement gaspillé.
  2. Complexe : Le déploiement et la maintenance des LLM nécessitent une expertise approfondie en optimisation d’inférence et en opérations GPU, et embaucher une équipe MLOps entière n’est pas logique pour la plupart des entreprises.
  3. Lourd : De nouveaux modèles sont publiés fréquemment, mais les configurations internes sont rigides, ce qui rend lent et difficile de tester de nouveaux modèles ou de s’adapter pour répondre à des variations soudaines de la demande.

Chez Novita AI, nous pensons que vous ne devriez pas avoir à choisir entre la puissance de l’open source et la qualité d’un service managé. Notre plateforme est conçue pour offrir la stabilité, les performances et l’expérience développeur que vous attendez d’un modèle propriétaire premium, avec les avantages de coûts de l’écosystème open source. Nous proposons un hébergement de qualité production pour les LLM open source.

Voici un aperçu des coulisses de ce que nous faisons pour rendre cela possible.

Dans les coulisses de l’hébergement de modèles

Lorsque vous hébergez un modèle personnalisé sur Novita AI ou appelez notre API LLM open source, beaucoup de choses se passent sous le capot. L’hébergement de modèles à grande échelle implique un processus complexe d’orchestration, d’optimisation et de surveillance continue pour garantir que chaque requête est rapide et fiable.

Stockage des modèles et matériel

Nous maintenons une bibliothèque chaude de modèles open source populaires (par ex. Llama, Qwen, DeepSeek), ce qui implique de stocker ces modèles à plusieurs milliards de paramètres. Comme l’exécution de ces LLM nécessite du matériel spécialisé, nous nous associons à des centres de données du monde entier pour garantir un service rapide et fiable aux utilisateurs de chaque région, et gérer :

  • Des serveurs suffisamment puissants pour gérer les charges de travail d’inférence
  • Un réseau pour déplacer les requêtes et les réponses rapidement
  • De l’alimentation pour faire fonctionner l’ensemble 24h/24 et 7j/7

Nous absorbons les coûts de matériel et proposons :

  • Bibliothèque de modèles chaude : Nous maintenons des centaines de modèles pré-chauffés. Cela vous permet de tester et valider instantanément les derniers LLM adaptés à votre cas d’usage.
  • Points de terminaison serverless paiement à l’usage : Vous ne payez que pour les jetons que vous utilisez. Ce modèle de tarification basé sur les jetons est parfait pour les applications à demande variable, comme les chatbots et la génération de texte, vous garantissant de ne jamais payer pour une capacité inutilisée.
  • Déploiements personnalisés à la demande : Lorsque vous avez besoin de plus de contrôle, vous pouvez louer des GPU puissants comme le NVIDIA H100 à partir de 1,85 $ de l’heure. Cela vous permet de dimensionner vos ressources en fonction de vos besoins, transformant une lourde dépense d’investissement en un coût opérationnel prévisible.
  • Intégration conviviale pour les développeurs : Nous avons préparé une API unifiée qui abstrait toute la complexité sous-jacente. Ces API sont conçues pour être compatibles avec des frameworks populaires comme l’API OpenAI, ce qui vous permet de changer de fournisseur facilement : il suffit de modifier l’URL de base et la clé, et vous avez accès à tous les modèles open source de notre bibliothèque. Nous nous intégrons également de manière transparente avec des frameworks comme LangChain, LiteLLM et LlamaIndex, donc changer de fournisseur ou expérimenter de nouveaux modèles ne perturbera pas vos workflows existants.

Optimisation de l’inférence

L’exécution brute des modèles n’est que le début. Pour offrir les meilleures performances au moindre coût, nous utilisons plusieurs techniques pour optimiser l’inférence :

  1. Quantification : Réduire la précision des poids des modèles, les rendant plus petits et plus rapides à exécuter tout en maintenant les performances
  2. Traitement par lots : Traiter plusieurs requêtes utilisateur simultanément pour maximiser l’utilisation des GPU
  3. Répartition de charge : Répartir les requêtes sur plusieurs serveurs pour qu’aucun serveur ne soit surchargé, maintenant une latence faible

Nous gérons la complexité sous-jacente pour offrir une expérience soignée et conviviale pour les développeurs, rendant l’IA open source accessible à tous.

  • Nous proposons une prise en charge native de fonctionnalités critiques comme l’appel de fonctions, les sorties structurées et l’inférence par lots. Cela vous évite de devoir construire vous-même ces systèmes complexes, accélérant votre mise sur le marché.
  • Mise à l’échelle élastique pour toute charge de travail : Notre infrastructure est conçue pour être entièrement élastique. Les points de terminaison serverless se mettent à l’échelle automatiquement pour gérer une forte concurrence avec un temps jusqu’au premier jeton (TTFT) inférieur à 300 ms. Les déploiements personnalisés et entreprise offrent une mise à l’échelle automatique des GPU pour répondre à toute demande tout en garantissant les performances et l’isolation des données.

Pour les applications critiques, nous proposons une solution « Zéro Ops ». Soumettez vos besoins (nom du modèle, longueur des entrées/sorties, SLA de performance), et notre moteur d’optimisation LLM concevra une solution sur mesure la plus rentable pour vous. Notre équipe d’experts déploiera et gérera également le modèle pour vous, avec un SLA de 99,5 %, des performances garanties et un support technique direct.

Auto-hébergement vs utilisation de modèles hébergés

Certains développeurs préfèrent héberger leurs propres modèles pour un contrôle maximal. Si c’est votre cas, nous sommes là pour vous accompagner : louez des GPU à l’heure via Novita AI et ajustez votre pile exactement comme vous le souhaitez.

Cependant, l’auto-hébergement comporte des compromis importants : la configuration et la maintenance nécessitent du temps et de l’expertise, la mise à l’échelle peut être délicate, et l’équilibre entre coûts et performances peut être un défi constant.

L’utilisation d’API LLM open source hébergées comme Novita élimine ces surcharges, vous offrant une solution prête pour la production avec des performances prévisibles et une charge opérationnelle minimale. Nous avons optimisé l’infrastructure de Novita AI pour vous offrir la meilleure expérience au moindre coût. En exécutant des modèles à grande échelle, nous pouvons proposer des prix plus bas que ce qu’un particulier ou une petite entreprise peut obtenir en auto-hébergement. Nous facturons au nombre de jetons traités, donc vous ne payez que ce que vous utilisez.

Nous avons conçu trois niveaux de service pour s’adapter parfaitement à chaque étape de votre parcours en IA.

Serverless Endpoints Custom Deployments Enterprise Deployments
Model Support Accès aux LLM les plus récents comme Qwen3, DeepSeek, LLaMA3 Des centaines de modèles pré-chauffés + téléchargement de modèles personnalisés Des centaines de modèles pré-chauffés + téléchargement de modèles personnalisés
Pricing Tarification à l’usage basée sur les jetons GPU à la demande / heure Tarification basée sur les performances par jeton
Integration Intégration en libre-service, en une seule ligne Déploiement GPU en libre-service, intégration en une seule ligne Déploiement par des experts et services entreprise
Elastic Scaling Mise à l’échelle élastique dans les limites de débit Dedicated Endpoints : mise à l’échelle automatique des GPU en fonction de l’utilisation Mise à l’échelle élastique basée sur les performances
Best Use Case Accès rapide aux nouveaux modèles sans gestion de l’infrastructure Besoin d’un plus grand contrôle des modèles et de configurations personnalisées Déploiements entièrement managés avec des performances garanties

Note : Le nombre maximum de GPU pour les Dedicated Endpoints est de 8. Si vous avez besoin de plus de GPU, contactez le service commercial pour un service entreprise.

Conclusion

Que vous exécutiez un modèle fine-tuné pour un cas d’usage de niche ou que vous expérimentiez avec le dernier LLM open source, Novita AI vous offre la commodité d’un modèle propriétaire à des prix open source. Si vous êtes intéressé par une solution personnalisée ou souhaitez discuter de votre configuration, planifiez un échange avec nos ingénieurs ici.

Remerciements : Un merci spécial à Charles, chef de projet LLM chez Novita, pour ses contributions et ses idées pour cet article.