本日、FlashMLAのリリースに続き、DeepSeekは2回目のOpenSourceWeekプロジェクトを開始しました。ディープEP.
MoE(Mixture-of-Experts)モデルのトレーニングと推論のために特別に設計された最初のオープンソースEP通信ライブラリとして、 ディープEP エキスパート並列処理(EP)の分野における大きな前進です。これは、MoEモデルに、低遅延、高帯域幅、高スループットの通信機能を提供することを目指しています。 GPUテスト結果によると、DeepEPはノード内マルチノード通信においてほぼ最大の帯域幅性能を達成しています。GPU 通信速度が向上し、ノード間の通信効率も大幅に向上します。

EPとは?
より深く掘り下げる前に ディープEPまず何を理解するかが重要です EP です。
EP (エキスパート並列処理) は、特に設計された分散コンピューティング方式です。 MoE (専門家混合) モデルは、 ディープシーク 元々、MoE はスパース アクティベーション戦略を採用したトランスフォーマー ベースのモデル アーキテクチャであり、従来の高密度モデルと比較してトレーニング中の軽量化を実現します。MoE ニューラル ネットワークでは、モデルのコンポーネントのサブセット (「エキスパート」と呼ばれる) のみがアクティブ化され、特定の時点で入力を処理します。
の重要性 EP (エキスパート並列処理) 大規模言語モデル推論を加速する上での EP の強みは、MoE モデルを効率的に分割する能力にあります。モデルが数百の専門家 (たとえば、320 人の専門家) を含む MoE アーキテクチャを採用する場合、EP は独立したコンピューティング ノードに異なる専門家を割り当てることができ、その並列粒度は専門家の数に直接一致します。
対照的に、 TP (テンソル並列処理) Attention層におけるマルチヘッド機構に基づく分割計算に依存している。例えば、典型的な32ヘッド構成では、TPは64ヘッド以上にスケーリングする際に課題に直面する。 GPU分割次元が不十分 (32 < 64) であるため、ハードウェア リソースを十分に活用することが困難です。一方、EP は、エキスパートの次元に沿って計算を分割します。

DP 対 TP 対 PP 対 EP
| 方法 | 内部ロジック | 根本的な問題は解決 |
|---|---|---|
| データ並列処理 (DP) | デバイス間でモデルを複製し、入力データを分割し、勾配の更新を同期します。 | データセットのサイズが大きいため、トレーニング速度が遅くなります。 |
| テンソル並列処理 (TP) | パラメータ マトリックスをデバイス間で分割し、分散計算を実行し、結果を集計します。 | デバイスのメモリ容量を超える単一レイヤー パラメータ。 |
| パイプライン並列処理 (PP) | デバイス間でモデル レイヤーを分割し、パイプラインを通じてマイクロバッチをスケジュールします。 | 極端に深いモデルの場合、メモリが不足します。 |
| エキスパート並列処理 (EP) | スパースパラメータのアクティベーションを使用して、入力をエキスパートサブネットワークに動的にルーティングします。 | 兆パラメータ規模でのメモリと計算の非効率性。 |
現代の大規模モデル(GPT-4、DeepSeek-V3など)では通常、効率を最大化するために複数の並列処理戦略を同時に統合します。
- テンソル並列処理 (TP): 個々のレイヤーのパラメータをデバイス間で分割します。
- パイプライン並列処理 (PP): モデルのさまざまなレイヤーをデバイス間で分散し、パイプライン方式で処理します。
- データ並列処理 (DP): モデルを複製し、データセットを分割することで、複数のマシン間でトレーニングを同期します。
- エキスパート並列処理 (EP): MoE モデルのエキスパートをデバイス全体に分散することで、スパース パラメータを拡張します。
これらの戦略を組み合わせることで、大規模なモデルは利用可能なハードウェア リソースを効果的に活用し、トレーニングと推論の効率を維持しながら、より大きなモデル サイズとデータセットに拡張できます。
DeepEPとは何ですか?
ディープEP は、特に設計されたコミュニケーションライブラリです。 MoE (専門家混合) の三脚と EP (エキスパート並列処理)次のような主な利点があります。
- 1. 高度に最適化された全対全通信
DeepEP は、データ転送のボトルネックを大幅に削減し、分散環境における専門家間の情報交換を円滑にする効率的な All-to-All 通信カーネルを提供します。
- 2. ノード内/ノード間通信におけるNVLinkとRDMAのサポート
DeepEPは両方をサポートします NVLink の三脚と RDMA ノード内およびノード間での高性能通信を可能にするテクノロジー:
- NVリンク: ノード内通信に最大 160 GB/秒の帯域幅を提供します。
- RDMA: 低遅延のノード間データ転送を可能にし、大規模な分散トレーニングの要求を満たします。
- 3. 高スループットコンピューティングコア
トレーニングおよび推論の事前入力段階では、DeepEP は高スループットのコンピューティング コアを提供し、大規模データの効率的な処理を保証します。
- 4. 低レイテンシコンピューティングコア
DeepEPは、以下の低レイテンシコンピューティングコアを提供します。 RDMA/インフィニバンドこれにより、推論の遅延が最小限に抑えられます。これは、推論デコード段階における遅延に敏感なアプリケーションに特に有益です。
- 5. FP8データ配布のネイティブサポート
DeepEPはネイティブでサポートしています FP8 データ分散により、精度を維持しながらデータ転送量を削減し、通信効率をさらに向上させます。
- 6。 フレキシブル GPU リソース制御
DeepEPは柔軟な GPU リソーススケジューリングメカニズムにより、計算と通信の効率的なオーバーラップが可能になります。これにより、リソースの無駄が最小限に抑えられ、全体的なパフォーマンスが向上します。
EP 対 ディープEP
本質的に、 EP 「何を」(専門家を分割し、作業負荷を分配する方法)を定義する一方で、 ディープEP 「方法」(EP をより高速かつスケーラブルにするための効率的な通信メカニズム)を提供します。

DeepEPパフォーマンス
DeepEPは、特にハイブリッドアーキテクチャを組み合わせたノード内およびノード間通信の両方で優れたパフォーマンスを発揮します。 NVLink の三脚と RDMA以下は、2 つの一般的なシナリオでのパフォーマンス結果です。
通常のカーネル パフォーマンス (NVLink および RDMA 転送)
- テスト環境:
- GPU: H800 (最大帯域幅約160 GB/秒のNVLink)
- ネットワーク: CX7 InfiniBand 400 Gb/s RDMA NIC (最大帯域幅 ~50 GB/s)
- 構成: DeepSeek-V3/R1 事前トレーニング セットアップ (バッチ サイズ: 4096 トークン、隠しサイズ: 7168、上位 4 層、上位 8 エキスパート、FP8 分散、BF16 集約)
- パフォーマンス結果:
- ノード内通信は、NVLink の最大値 (160 GB/秒) に近い帯域幅を実現し、非常に高いデータ転送効率を実現します。
- ノード間通信は RDMA 下で安定した帯域幅を維持し、大規模な分散トレーニングの要件を満たします。

低遅延カーネルパフォーマンス(純粋な RDMA)
- テスト環境:
- GPU: H800
- ネットワーク: CX7 InfiniBand 400 Gb/s RDMA NIC (最大帯域幅 ~50 GB/s)
- 構成: 典型的な DeepSeek-V3/R1 のプロダクション セットアップ (バッチ サイズ: 128 トークン、隠しサイズ: 7168、トップ 8 エキスパート、FP8 分散、BF16 集約)
- パフォーマンス結果:
- 低レイテンシ カーネルは、純粋な RDMA モードでマイクロ秒レベルのレイテンシを実現するため、レイテンシに敏感な推論デコード タスクに適しています。
- 高い並列処理 (#EP=256) でも、RDMA 帯域幅は安定しており、効率的なデータ転送が保証されます。

DeepEP アプリケーション シナリオ
DeepEP は、特に大規模な分散トレーニングにおけるさまざまな MoE モデルのトレーニングと推論のシナリオに適しています。主なアプリケーション シナリオは次のとおりです。
- MoEモデルトレーニング
- DeepEPの高スループットコンピューティングコアと効率的なAll-to-All通信メカニズムは、特にマルチノード、マルチノードのトレーニングプロセスを大幅に加速します。GPU 環境。
- 推論事前入力ステージ
- 推論の事前入力段階では、DeepEP の高スループット コンピューティング コアが大量のデータを効率的に処理し、非常に効率的な推論パイプラインを保証します。
- 推論デコード段階
- デコード段階では、DeepEP の低レイテンシ コンピューティング コアにより推論の遅延が最小限に抑えられ、リアルタイム アプリケーションに最適です。
結論
評価結果によると、DeepGEMMは複数の分野にわたって優れたパフォーマンス最適化能力を発揮しました。 GPUH100、H200、H800など、優れた汎用性を誇る製品が揃っています。
Hopper アーキテクチャ (DeepSeek V3 や R1 など) で実行される MoE シリーズ モデルの場合、推論フレームワークの MoE モジュールに最適化を統合し、グループ化された GEMM の元の CUTLASS バージョンを DeepGEMM 実装に置き換えることで、モデル推論の速度が約 1.2 倍向上し、全体的なパフォーマンスが大幅に向上すると予想されます。
Novita AI は、開発者がシンプルなAPIを使用してAIモデルを簡単に導入できるAIクラウドプラットフォームであり、手頃な価格で信頼性の高い GPU 構築と拡張のためのクラウド。

読書をお勧めします
- DeepSeek V3 へのアクセスガイド: ローカルおよび API 経由
- DeepSeek V3 と R1: 段階的トレーニングと反復 SFT-RL サイクル
- DeepSeek V3 をローカルで実行する: 開発者ガイド
Novitaの詳細を見る
最新の投稿をメールで受け取るには購読してください。





