DeepSeek V3やQwen3 Coderなどのオープンソースモデルは、独自開発のモデルに追いつくだけでなく、6~10倍のコスト優位性を持ちながら最先端のパフォーマンスを提供しています。しかし、この素晴らしい可能性には隠れた課題があります:オープンソースモデルはほとんどホストされていないのに対し、独自モデルはほぼ常にホストされているのです。
ほとんどのチームにとって、これらのモデルを社内にデプロイすることは3つの主要な理由から困難です。
- 高コスト:Llama 3.3 70Bのようなモデルを実行するには、おそらく2台のH100 GPUが必要で、初期投資が非常に大きくなります。さらに悪いことに、この高価なハードウェアは需要が低い時期にアイドル状態になることが多く、利用率の低下と投資の無駄につながります。
- 複雑:LLMのデプロイと保守には、推論最適化やGPU運用に関する深い専門知識が必要で、ほとんどの企業がMLOpsチーム全体を雇用するのは合理的ではありません。
- 手間がかかる:新しいモデルは頻繁にリリースされますが、社内のセットアップは硬直的であるため、新しいモデルのテストや突発的な需要の変動に対応するためのスケーリングが遅く困難です。
Novita AIでは、オープンソースの力とマネージドサービスの利便性のどちらかを選ぶ必要はないと信じています。当社のプラットフォームは、プレミアムな独自モデルに期待される安定性、パフォーマンス、開発者体験を、オープンエコシステムのコストメリットと両立して提供するように設計されています。当社はオープンソースLLMの本番環境向けホスティングを提供しています。
以下に、これを可能にするための当社の取り組みの舞台裏を紹介します。
モデルホスティングの舞台裏
Novita AIでカスタムモデルをホストする場合や、当社のオープンソースLLM APIを呼び出す場合、裏では多くの処理が行われています。大規模なモデルホスティングには、オーケストレーション、最適化、継続的なモニタリングという複雑なプロセスが含まれ、すべてのリクエストが高速で信頼性の高いものになるようにしています。
モデルストレージとハードウェア
当社は、Llama、Qwen、DeepSeekなどの人気オープンソースモデルのウォームライブラリを維持しており、数十億パラメータを持つこれらのモデルを保存しています。これらのLLMを実行するには特殊なハードウェアが必要なため、世界中のデータセンターと提携し、すべての地域のユーザーに高速で信頼性の高いサービスを提供するために以下を管理しています:
- 推論ワークロードを処理できる十分な性能のサーバー
- リクエストとレスポンスを高速に移動するためのネットワーク
- 24時間365日稼働させるための電源
当社はハードウェアコストを負担し、以下を提供しています:
- ウォームモデルライブラリ:当社は数百のウォームスタート済みモデルを維持しています。これにより、ユースケースに合わせた最新のLLMを即座にテスト・検証できます。
- 従量課金型サーバーレスエンドポイント:使用したトークンのみに課金されます。このトークン課金モデルは、チャットボットやテキスト生成など需要が変動するアプリケーションに最適で、アイドル容量に対して料金を支払うことがなくなります。
- オンデマンドカスタムデプロイ:より多くの制御が必要な場合、NVIDIA H100のような高性能GPUを1時間あたりわずか1.85ドルからレンタルできます。これにより、ニーズに合わせてリソースをスケーリングでき、大きな資本支出を予測可能な運用コストに変換できます。
- 開発者に優しい統合:当社は、複雑な内部処理を抽象化した統合APIを用意しています。これらのAPIはOpenAI APIなどの人気フレームワークと互換性があるように設計されているため、プロバイダの切り替えが簡単です:ベースURLとキーを変更するだけで、ライブラリ内のすべてのオープンモデルにアクセスできます。また、LangChain、LiteLLM、LlamaIndexなどのフレームワークともシームレスに統合されているため、新しいモデルに切り替えたり試したりしても、既存のワークフローが破損することはありません。
推論最適化
モデルの生の実行はほんの始まりに過ぎません。最低限のコストで最高のパフォーマンスを提供するために、当社は複数の技術を用いて推論を最適化しています:
- 量子化:モデルの重みの精度を下げることで、モデルを小型化し、パフォーマンスを維持したまま実行を高速化します
- バッチ処理:複数のユーザーリクエストを同時に処理することで、GPUの使用率を最大化します
- ロードバランシング:リクエストを複数のサーバーに分散させることで、単一のサーバーが過負荷になるのを防ぎ、低遅延を維持します
当社は複雑な内部処理をすべて管理し、誰でもオープンソースAIを利用できるように、洗練された開発者に優しい体験を提供します。
- 当社は、関数呼び出し、構造化出力、バッチ推論などの重要な機能を標準サポートしています。これにより、お客様自身でこれらの複雑なシステムを構築する必要がなくなり、市場投入までの時間を短縮できます。
- あらゆるワークロードに対応するElastic スケーリング:当社のインフラは完全にElasticになるように設計されています。サーバーレスエンドポイントは自動スケーリングされ、初回トークン生成時間(TTFT)が300ms未満で高同時実行性を処理します。カスタムデプロイとエンタープライズデプロイでは、GPUの自動スケーリングを提供し、パフォーマンスとデータ分離を確保しながらあらゆる需要に対応します。
ミッションクリティカルなアプリケーション向けに、当社は「Zero-Ops」ソリューションを提供しています。要件(モデル名、I/O長、パフォーマンスSLA)を提出していただければ、当社のLLM最適化エンジンが最もコスト効率の高いソリューションをカスタム設計します。専門チームがモデルのデプロイと管理も行い、99.5%のSLA、保証されたパフォーマンス、直接的な技術サポートが付帯しています。
セルフホスティングとホスト型モデルの比較
最大限の制御のために独自にモデルをホストすることを好む開発者もいます。そのような場合は、当社がサポートします:Novita AIを通じて時間単位でGPUをレンタルし、お好みのスタックに微調整できます。
ただし、セルフホスティングには大きなトレードオフがあります:セットアップと保守には時間と専門知識が必要で、スケーリングが難しい場合があり、コストとパフォーマンスのバランスを取ることは継続的な課題となります。
Novitaのようなホスト型オープンソースLLM APIを利用することで、そのオーバーヘッドを排除でき、予測可能なパフォーマンスと最小限の運用負担で本番環境に対応したソリューションを利用できます。当社はNovita AIのインフラを最適化し、最低限のコストで最高の体験を提供できるようにしています。大規模にモデルを実行することで、個人や小規模企業がセルフホスティングで実現できる価格よりも低い価格を提供できます。処理されたトークン数に応じて課金されるため、使用した分だけ支払えばよいのです。
AIジャーニーのあらゆる段階に最適なサービスを提供するために、3つのサービス階層を設計しました。
| サーバーレスエンドポイント | カスタムデプロイ | エンタープライズデプロイ | |
| モデルサポート | Qwen3、DeepSeek、LLaMA3などの最新のLLM | 数百のウォームスタート済みモデル + カスタムモデルアップロード | 数百のウォームスタート済みモデル + カスタムモデルアップロード |
| 料金 | 従量課金型トークン制 | オンデマンドGPU/時間 | パフォーマンスベースのトークン課金 |
| 統合 | セルフサービス、ワンライン統合 | セルフサービスGPUデプロイ、ワンライン統合 | エキスパートによるデプロイとエンタープライズサービス |
| Elastic スケーリング | レート制限内でのElastic スケーリング | 専用エンドポイント:使用量に応じたGPU自動スケーリング | パフォーマンスベースのElastic スケーリング |
| 最適なユースケース | インフラ管理なしで新しいモデルに高速アクセス | モデルの制御とカスタムセットアップの強化が必要 | 保証されたパフォーマンスによる完全マネージドデプロイ |
注:専用エンドポイントで利用可能な最大GPU数は8台です。より多くのGPUが必要な場合は、営業部までお問い合わせください。エンタープライズサービスの詳細をご案内します。
まとめ
ニッチなユースケース向けにファインチューニングしたモデルを実行している場合でも、最新のオープンソースLLMを試している場合でも、Novita AIはオープンソース価格で独自モデルの利便性を提供します。カスタムソリューションにご興味がある場合や、セットアップについて相談したい場合は、こちらから当社のエンジニアとのチャットを予約してください。
謝辞:この記事の執筆に貢献し、洞察を提供してくれたNovitaのLLMプロジェクトマネージャー、Charles氏に特別な感謝を捧げます。
