リサーチ

GLM4-MoEを本番環境に最適化：SGLangでTTFTを65%削減

最先端のGLM 4.7モデルがコード生成性能でリードし続ける中、Novita AIは信頼性が高く効率的な本番グレードのGLMサービスを提供することに尽力しています。

著者 Novita AI / 2026年1月21日 / 5 分で読めます

投機的サンプリングと低精度量子化がどのようにコストを削減し速度を向上させるかを学び、スケーラブルなAI展開のための実用的なソリューションを提供します。

著者 Novita AI / 2024年12月18日 / 9 分で読めます

Novita AI は、KV スパース性を利用して Llama-70B の読み込みを高速化し、メモリ、計算、I/O オーバーヘッドを削減して、推論を高速化し、精度の低下を最小限に抑えます。

著者 Novita AI / 2024年12月12日 / 3 分で読めます

大規模モデル推論のための費用対効果の高いGPUの選択方法を、パフォーマンス指標とベストプラクティスに焦点を当てて解説し、効率を向上させます。

著者 Novita AI / 2024年11月5日 / 14 分で読めます

KV SparsityでAI推論速度を向上。その仕組みを理解し、実際のアプリケーション向けにモデルを最適化しましょう。

著者 Novita AI / 2024年10月25日 / 13 分で読めます

現在、Kubernetes (k8s) で GPU Pod をスケジューリングするために、Device Plugin、Extended Resource、scheduler extender、scheduler fram など、さまざまな拡張ソリューションが導入されています。

著者 Novita AI / 2024年10月24日 / 4 分で読めます

ポートマッピングは、コンテナ化されたアプリケーションの開発とデプロイにおいて重要な側面です。通常、コンテナを作成する際に、コンテナの内部ポートとホストマシンのポートとの接続を確立します。

著者 Novita AI / 2024年10月21日 / 4 分で読めます

最適なデータ型の選択とGPUハードウェアサポートの最適化により、量子化推論を高速化する新たな道を開く方法をご紹介します。

著者 Novita AI / 2024年2月2日 / 16 分で読めます