English Arabic 简体中文 繁體中文 Français Deutsch 日本語 한국어 Português Русский Español
아직 다른 번역이 없습니다

리서치

카테고리별 게시글 필터링

vLLM 프레임워크 기반 동적 KV 캐시 압축

Novita AI는 KV 희소성을 활용하여 Llama-70B 로딩을 가속화하며, 메모리, 연산 및 I/O 오버헤드를 줄여 정확도 손실을 최소화하면서 추론 속도를 향상시킵니다.

Kubernetes 워크로드를 위한 GPU 리소스 동적 할당

Kubernetes 워크로드를 위한 GPU 리소스 동적 할당

현재 Kubernetes(k8s)에서 GPU Pod를 스케줄링하기 위해 Device Plugin, Extended Resource, scheduler extender, scheduler framework, 또는 새로운 스케줄러 개발 등 다양한 확장 솔루션이 사용되고 있습니다. 이러한 솔루션은 일반적으로...

추론적 디코딩이 LLM 추론 정확도를 해칠까?

추론적 디코딩이 LLM 추론 정확도를 해칠까?

Mitchell Stern 등이 2018년에 추론적 디코딩의 프로토타입 개념을 소개했습니다. 이후 이 방법은 Lookahead Decoding, REST, Medusa, EAGLE 등 다양한 접근 방식으로 더욱 발전하고 개선되어...