Исследования

Оптимизация GLM4-MoE для продакшена: TTFT на 65% быстрее с SGLang

Поскольку передовая модель GLM 4.7 продолжает лидировать по производительности в задачах генерации кода, Novita AI остается верной своей задаче предоставления надежного,...

Автор Novita AI / 21 января 2026 г. / 5 минут чтения

Революция в инференсе больших языковых моделей: спекулятивное декодирование и низкоточная квантизация

Узнайте, как спекулятивное декодирование и низкоточная квантизация снижают затраты и ускоряют выполнение, предлагая практические решения для масштабируемого развёртывания ИИ.

Автор Novita AI / 18 декабря 2024 г. / 9 минут чтения

Динамическое сжатие KV-кэша на основе фреймворка vLLM

Novita AI ускоряет загрузку Llama-70B с помощью разреженности KV, снижая потребление памяти, вычислительные и I/O накладные расходы для более быстрого вывода при минимальной...

Автор Novita AI / 12 декабря 2024 г. / 3 минут чтения

Как выбрать лучший GPU для инференса LLM: результаты бенчмаркинга

Узнайте, как выбирать экономичные GPU для инференса больших моделей, с упором на показатели производительности и лучшие практики повышения эффективности.

Автор Novita AI / 5 ноября 2024 г. / 14 минут чтения

Как KV Sparsity обеспечивает ускорение в 1,5 раза для vLLM

Ускорьте инференс AI с помощью KV sparsity. Поймите, как это работает, и оптимизируйте свои модели для реальных приложений.

Автор Novita AI / 25 октября 2024 г. / 13 минут чтения

Динамическое выделение GPU-ресурсов для рабочих нагрузок Kubernetes

В настоящее время для планирования GPU-подов в Kubernetes (k8s) используются различные решения-расширения, включая Device Plugin, Extended Resource, scheduler extender,...

Автор Novita AI / 24 октября 2024 г. / 4 минут чтения

Динамическое добавление пробросов портов для работающих Docker-контейнеров

Сопоставление портов — ключевой аспект разработки и развертывания контейнеризированных приложений. Обычно мы устанавливаем соединение между внутренним портом контейнера и...

Автор Novita AI / 21 октября 2024 г. / 4 минут чтения

Стратегия привязки ядер GPU-контейнера на основе Affinity

Введение в оптимизацию производительности CPU и GPU. В высокопроизводительных вычислениях и крупномасштабной параллельной обработке задач GPU стали незаменимыми ускорителями....

Автор Novita AI / 25 августа 2024 г. / 4 минут чтения

Навредит ли спекулятивное декодирование точности инференса LLM?

Митчелл Стерн и др. в 2018 году представили прототип концепции спекулятивного декодирования. Этот метод впоследствии был развит и усовершенствован различными подходами, включая...

Автор Novita AI / 25 августа 2024 г. / 3 минут чтения

Методы квантизации для ускорения вывода больших языковых моделей в 100 раз

Узнайте, как выбор оптимальных типов данных и оптимизация поддержки GPU открывают новые возможности для ускорения квантизационного вывода.

Автор Novita AI / 2 февраля 2024 г. / 16 минут чтения