리서치

vLLM에서 DSpark 추측 디코딩으로 Kimi 추론 확장하기

vLLM에서 추측 윈도우가 n=3에서 n=7로 확장됨에 따라 DSpark가 Kimi-K2.6 및 Kimi-K2.7-Code의 처리량을 어떻게 향상시키는지 확인하세요.

작성자 Novita AI / 2026년 7월 10일 / 4 분 읽기

GLM4-MoE 프로덕션 최적화: SGLang으로 TTFT 65% 단축

최첨단 GLM 4.7 모델이 코딩 성능에서 계속 선도하는 가운데, Novita AI는 안정적이고 효율적이며 프로덕션 등급의 GLM 서비스를 제공하기 위해 노력하고 있습니다.

작성자 Novita AI / 2026년 1월 21일 / 5 분 읽기

대규모 언어 모델 추론 혁신: 추측 디코딩과 저정밀 양자화

추측 샘플링과 저정밀 양자화가 비용을 절감하고 속도를 높이는 방법을 배우고, 확장 가능한 AI 배포를 위한 실용적인 솔루션을 제공합니다.

작성자 Novita AI / 2024년 12월 18일 / 9 분 읽기

vLLM 프레임워크 기반 동적 KV 캐시 압축

Novita AI는 KV 희소성을 활용하여 Llama-70B 로딩을 가속화하며, 메모리, 연산 및 I/O 오버헤드를 줄여 정확도 손실을 최소화하면서 추론 속도를 향상시킵니다.

작성자 Novita AI / 2024년 12월 12일 / 3 분 읽기

LLM 추론을 위한 최적의 GPU 선택 방법: 벤치마킹 인사이트

성능 지표와 효율성을 높이는 모범 사례를 중심으로 대규모 모델 추론을 위한 비용 효율적인 GPU를 선택하는 방법을 알아보세요.

작성자 Novita AI / 2024년 11월 5일 / 14 분 읽기

KV Sparsity로 vLLM에서 1.5배 가속을 달성하는 방법

KV 희소성으로 AI 추론 속도를 높이세요. 작동 원리를 이해하고 실제 애플리케이션에 맞게 모델을 최적화하세요.

작성자 Novita AI / 2024년 10월 25일 / 13 분 읽기

Kubernetes 워크로드를 위한 GPU 리소스 동적 할당

현재 Kubernetes(k8s)에서 GPU Pod를 스케줄링하기 위해 Device Plugin, Extended Resource, scheduler extender, scheduler framework, 또는 새로운 스케줄러 개발 등 다양한 확장 솔루션이 사용되고 있습니다. 이러한 솔루션은 일반적으로...

작성자 Novita AI / 2024년 10월 24일 / 4 분 읽기