오늘, FlashMLA 출시에 이어 DeepSeek가 두 번째 OpenSourceWeek 프로젝트인 DeepEP 를 공개했습니다.
MoE(Mixture-of-Experts) 모델의 훈련과 추론을 위해 특별히 설계된 최초의 오픈소스 EP 통신 라이브러리인 DeepEP 는 Expert Parallelism(EP) 분야에서 중요한 진전을 의미합니다. 이는 MoE 모델에 노드 내 GPU 간 및 노드 간 모두에서 낮은 지연 시간, 높은 대역폭, 높은 처리량의 통신 기능을 제공하는 것을 목표로 합니다. 테스트 결과에 따르면, DeepEP는 노드 내 멀티 GPU 통신에서 거의 최대 대역폭 성능을 달성하고, 노드 간 통신 효율성도 크게 향상시킵니다.

EP란 무엇입니까?
DeepEP 에 대해 자세히 알아보기 전에, 먼저 EP 가 무엇인지 이해하는 것이 중요합니다.
EP(Expert Parallelism) 는 DeepSeek 에서 처음 발표한 MoE(Mixture-of-Experts) 모델을 위해 특별히 설계된 분산 컴퓨팅 방법입니다. MoE는 희소 활성화 전략을 사용하는 Transformer 기반 모델 아키텍처로, 기존의 밀집 모델에 비해 훈련 중에 더 가볍습니다. MoE 신경망에서는 주어진 시간에 모델 구성 요소( “전문가” 라고 함)의 일부만 활성화되어 입력을 처리합니다.
EP(Expert Parallelism) 가 대규모 언어 모델 추론을 가속화하는 데 중요한 이유는 MoE 모델을 효율적으로 분할할 수 있기 때문입니다. 모델이 수백 개의 전문가(예: 320명의 전문가)로 MoE 아키텍처를 채택할 때, EP는 서로 다른 전문가를 독립적인 컴퓨팅 노드에 할당할 수 있으며, 병렬 처리 세분성은 전문가 수와 직접 일치합니다.
대조적으로 TP(Tensor Parallelism) 는 Attention 레이어의 멀티 헤드 메커니즘을 기반으로 계산을 분할합니다. 예를 들어, 일반적인 32헤드 구성에서 TP는 분할 차원이 충분하지 않기 때문에(32 < 64) 64개 이상의 GPU로 확장하는 데 어려움을 겪어 하드웨어 리소스를 완전히 활용하기 어렵습니다. 반면 EP는 전문가 차원을 따라 계산을 분할합니다.

EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference 에서 발췌
DP vs TP vs PP vs EP
| **방법 ** | ** 내부 로직 ** | ** 해결하는 핵심 문제** |
|---|---|---|
| 데이터 병렬 처리(DP) | 디바이스 전반에 모델 복제, 입력 데이터 분할, 그래디언트 업데이트 동기화. | 대규모 데이터셋으로 인한 느린 훈련 속도. |
| 텐서 병렬 처리(TP) | 디바이스 전반에 파라미터 행렬 분할, 분산 계산 수행, 결과 집계. | 단일 레이어 파라미터가 디바이스 메모리 용량을 초과하는 경우. |
| 파이프라인 병렬 처리(PP) | 디바이스 전반에 모델 레이어 분할, 파이프라이닝을 통해 마이크로 배치 스케줄링. | 매우 깊은 모델에 대한 메모리 부족. |
| 전문가 병렬 처리(EP) | 희소 파라미터 활성화로 전문가 서브네트워크에 입력 동적 라우팅. | 1조 파라미터 규모에서의 메모리 및 계산 비효율성. |
최신 대규모 모델(예: GPT-4, DeepSeek-V3)은 일반적으로 여러 병렬 처리 전략을 동시에 통합하여 효율성을 극대화합니다.
- 텐서 병렬 처리(TP): 개별 레이어의 파라미터를 디바이스 전반에 분할합니다.
- 파이프라인 병렬 처리(PP): 모델의 다른 레이어를 디바이스에 분산하여 파이프라인 방식으로 처리합니다.
- 데이터 병렬 처리(DP): 모델을 복제하고 데이터셋을 분할하여 여러 머신에서 훈련을 동기화합니다.
- 전문가 병렬 처리(EP): MoE 모델을 위해 디바이스에 전문가를 분산하여 희소 파라미터를 확장합니다.
이러한 전략을 결합함으로써 대규모 모델은 사용 가능한 하드웨어 리소스를 효과적으로 활용하고, 훈련 및 추론 효율성을 유지하면서 더 큰 모델 크기와 데이터셋으로 확장할 수 있습니다.
DeepEP란 무엇입니까?
DeepEP 는 MoE(Mixture-of-Experts) 및 EP(Expert Parallelism) 를 위해 특별히 설계된 통신 라이브러리로, 다음과 같은 핵심 이점을 제공합니다.
- 1. 고도로 최적화된 All-to-All 통신
DeepEP는 효율적인 All-to-All 통신 커널을 제공하여 데이터 전송 병목 현상을 크게 줄이고 분산 환경에서 전문가 간의 원활한 정보 교환을 보장합니다.
- 2. 노드 내/노드 간 통신에서 NVLink 및 RDMA 지원
DeepEP는 NVLink 및 RDMA 기술을 모두 지원하여 노드 내 및 노드 간 고성능 통신을 가능하게 합니다.
-
NVLink: 노드 내 통신을 위해 최대 160GB/s의 대역폭을 제공합니다.
-
RDMA: 낮은 지연 시간의 노드 간 데이터 전송을 가능하게 하여 대규모 분산 훈련의 요구 사항을 충족합니다.
-
3. 높은 처리량의 컴퓨팅 코어
훈련 및 추론 프리필 단계를 위해 DeepEP는 높은 처리량의 컴퓨팅 코어를 제공하여 대규모 데이터의 효율적인 처리를 보장합니다.
- 4. 낮은 지연 시간의 컴퓨팅 코어
DeepEP는 RDMA/Infiniband 기반의 낮은 지연 시간 컴퓨팅 코어를 제공하여 추론 지연 시간을 최소화합니다. 이는 추론 디코딩 단계에서 지연 시간에 민감한 애플리케이션에 특히 유용합니다.
- 5. FP8 데이터 분배 기본 지원
DeepEP는 FP8 데이터 분배를 기본 지원하여 정밀도를 유지하면서 데이터 전송량을 줄여 통신 효율성을 더욱 향상시킵니다.
- 6. 유연한 GPU 리소스 제어
DeepEP는 유연한 GPU 리소스 스케줄링 메커니즘을 갖추고 있어 계산과 통신의 효율적인 오버랩을 허용합니다. 이를 통해 리소스 낭비를 최소화하고 전반적인 성능을 향상시킵니다.
EP vs DeepEP
본질적으로 EP 는 "무엇"을 할지(전문가를 분할하고 작업 부하를 분배하는 방법) 정의하는 반면, DeepEP 는 “어떻게” 할지(EP를 더 빠르고 확장 가능하게 만드는 효율적인 통신 메커니즘)를 제공합니다.

DeepEP 성능
DeepEP는 노드 내 및 노드 간 통신, 특히 NVLink 및 RDMA 를 결합한 하이브리드 아키텍처에서 뛰어난 성능을 보여줍니다. 아래는 두 가지 일반적인 시나리오에서의 성능 결과입니다.
일반 커널 성능(NVLink 및 RDMA 포워딩)
-
테스트 환경:
- GPU: H800 (NVLink 최대 대역폭 ~160GB/s)
- 네트워크: CX7 InfiniBand 400Gb/s RDMA NIC (최대 대역폭 ~50GB/s)
- 구성: DeepSeek-V3/R1 사전 훈련 설정 (배치 크기: 4096 토큰, 히든 크기: 7168, top-4 레이어, top-8 전문가, FP8 분배, BF16 집계)
-
성능 결과:
- 노드 내 통신은 NVLink 최대 대역폭(160GB/s)에 가까운 대역폭을 달성하여 매우 높은 데이터 전송 효율성을 보여줍니다.
- 노드 간 통신은 RDMA에서 안정적인 대역폭을 유지하여 대규모 분산 훈련 요구 사항을 충족합니다.

저지연 커널 성능(순수 RDMA)
-
테스트 환경:
- GPU: H800
- 네트워크: CX7 InfiniBand 400Gb/s RDMA NIC (최대 대역폭 ~50GB/s)
- 구성: 일반적인 DeepSeek-V3/R1 프로덕션 설정 (배치 크기: 128 토큰, 히든 크기: 7168, top-8 전문가, FP8 분배, BF16 집계)
-
성능 결과:
- 저지연 커널은 순수 RDMA 모드에서 마이크로초 수준의 지연 시간을 달성하여 지연 시간에 민감한 추론 디코딩 작업에 적합합니다.
- 높은 병렬 처리(#EP=256)에서도 RDMA 대역폭은 안정적으로 유지되어 효율적인 데이터 전송을 보장합니다.

DeepEP 적용 시나리오
DeepEP는 다양한 MoE 모델 훈련 및 추론 시나리오, 특히 대규모 분산 훈련에 적합합니다. 주요 적용 시나리오는 다음과 같습니다.
-
MoE 모델 훈련
- DeepEP의 높은 처리량 컴퓨팅 코어와 효율적인 All-to-All 통신 메커니즘은 특히 다중 노드, 다중 GPU 환경에서 훈련 프로세스를 크게 가속화합니다.
-
추론 프리필 단계
- 추론 프리필 단계에서 DeepEP의 높은 처리량 컴퓨팅 코어는 대량의 데이터를 효율적으로 처리하여 고효율 추론 파이프라인을 보장합니다.
-
추론 디코딩 단계
- 디코딩 단계의 경우 DeepEP의 저지연 컴퓨팅 코어는 추론 지연을 최소화하여 실시간 애플리케이션에 이상적입니다.
결론
평가 결과에 따르면, DeepGEMM은 H100, H200, H800을 포함한 여러 GPU에서 상당한 성능 최적화 기능을 보여주며 뛰어난 범용성을 입증했습니다.
Hopper 아키텍처에서 실행되는 MoE 시리즈 모델(예: DeepSeek V3 및 R1)의 경우, 추론 프레임워크의 MoE 모듈에 최적화를 통합하고 원래 CUTLASS 버전의 그룹화된 GEMM을 DeepGEMM 구현으로 대체함으로써 모델 추론이 약 1.2배 속도 향상을 달성하여 전반적인 성능을 크게 향상시킬 것으로 예상됩니다.
Novita AI는 개발자에게 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있는 방법을 제공하는 AI 클라우드 플랫폼이며, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드도 제공합니다.

지금 $20 크레딧을 받고 DeepSeek를 사용해보세요!
