頂級混合專家（MoE）模型：架構對比綜覽

混合專家（MoE）已迅速成為當今擴展大型語言模型時最重要的設計選擇之一。不同於為每個標記（token）激活所有參數，MoE會選擇性地將輸入路由到一組小型專家模組，在效率與超大模型容量之間取得平衡。這項架構轉變讓開發者能夠構建擁有數千億參數的模型，同時將推論成本控制在可承受的範圍內。

本文將介紹MoE的基本原理、剖析頂級MoE模型之間的架構差異，並說明如何在實際場景中調用這些模型。

混合專家（MoE）簡介

混合專家（MoE）是一種機器學習方法，它會將AI模型拆分為多個子網絡，也就是所謂的「專家」，每個專家都經過訓練以處理特定類型的輸入數據，協同完成任務。MoE會搭配一組專業模型與門控機制，動態選擇最適合的「專家網絡」來處理每個輸入。

1. 門控網絡（路由器）
MoE的核心是門控網絡，它會決定哪些專家應該處理每個輸入標記。路由器會選擇性激活最相關的專家，而非將每個標記發送給所有專家，同時確保效率與專業性。

2. MoE與稠密模型（Dense）的差異

**混合專家（MoE）**的運作方式是，每個標記僅通過路由器選出的一小部分專家。這種方式能讓模型的整體容量大幅提升，同時將實際計算成本控制在合理範圍。不同專家專注於不同的輸入模式，因此無需線性提升計算量，就能在複雜任務上表現得更出色。

相比之下，稠密模型會將每個標記發送給所有專家或層，設計簡單但計算成本高昂。兩者的核心差異在於：MoE透過選擇性激活提升效率，而稠密模型則依賴對每個輸入進行全量激活。

MoE

Dense

參考文獻：A Survey on Mixure of Experts in Large Language Model.（連結：https://arxiv.org/abs/2407.06204）

MoE已成為最先進AI系統的主流設計選擇，這得益於其獨特的優勢：

超大容量與可控計算成本：稀疏式MoE能讓模型的參數量大幅擴展，而無需同步提升計算需求。這種設計遵循「條件計算」原則，僅在需要時分配資源，因此能以與稠密模型相同的計算成本，訓練出容量大得多的模型。
專家專業化：不同專家會自然專注於不同的模式或任務，提升各類輸入的表現，為大規模LLM賦予更豐富的能力。
訓練與推論效率更高：稀疏式MoE每個標記僅激活一小部分專家，降低了稠密模型的沉重開銷，提升了大規模訓練集群的資源利用率。
實用的部署場景：稀疏式MoE在擁有大量機器的高吞吐量環境中表現尤為突出，在固定計算預算下能產出更優質的結果。稠密模型則更適合低吞吐量場景或顯存極度受限的環境，因其設計簡單，更利於小規模部署。
路由策略靈活：透過top-1、top-2等門控路由策略，稀疏式MoE能平衡計算效率與表達能力，適配不同工作負載與擴展需求。

憑藉這些優勢，MoE被廣泛應用於前沿大型語言模型並不意外。下一節將介紹2025年最具影響力的幾款基於MoE的模型，探討它們如何實現這一架構並從中獲益。

每款模型都透過架構設計體現了不同的優先方向：

這些差異說明MoE配置可以根據不同的部署目標進行調整，涵蓋從研究級探索、先進智能體系統，到輕量、可投入生產的推論等各類場景。

不過，有一點始終不變：對可靠計算基礎設施的需求。運行擁有數十億甚至數萬億參數的模型，不僅需要強大的GPU，還需要高頻寬互連與優化的流水線。對大多數團隊而言，這讓他們有強烈動機使用雲端GPU實例與托管API服務，這些服務免除了維護本地集群的負擔，同時仍能提供前沿MoE能力的使用權限。