ERNIE-4.5 Thinking：百度21B MoE模型僅需3B活躍參數即可實現7倍更快效能

什麼是 ERNIE-4.5-21B-A3B-Thinking？
模型規格
效能亮點
如何在 Novita AI 平台開始使用 ERNIE-4.5-21B-A3B-Thinking
總結

ERNIE-4.5-21B-A3B-Thinking 現已上線 Novita AI 平台，透過我們對開發者友好的基礎設施，將百度突破性的思考能力帶給開發者與企業。這款百度最新發布的模型是輕量級 AI 模型的重要里程碑，具備更強的推理深度與品質，與前代模型拉開顯著差距。

這款模型採用高效的混合專家（MoE）架構，每次處理 token 時僅從總共 21B 的參數中激活 3B 參數，以輕量級的資源需求實現重裝級效能。

無論您正在開發複雜的推理應用、構建數學求解器，還是探索進階 AI 能力，Novita AI 平台上的 ERNIE-4.5-21B-A3B-Thinking 都能透過優化後的基礎設施與便捷的整合選項，簡化您的開發流程。

Novita AI 目前定價： 131,072 上下文長度，每百萬輸入 token 0.07 美元，每百萬輸出 token 0.28 美元

試用 ERNIE-4.5-21B-A3B-Thinking 演示

什麼是 ERNIE-4.5-21B-A3B-Thinking？

ERNIE-4.5-21B-A3B-Thinking 是百度突破性 ERNIE 4.5 系列中的一款基於文字的混合專家（MoE）後訓練模型，該系列共包含 10 款不同模型。這款模型在 AI 思考能力上實現了重大進化，總參數達 21B，每次處理 token 時僅激活 3B 參數。

模型相較前代有三項關鍵改進：

強化思考能力： ERNIE-4.5-21B-A3B-Thinking 在推理任務上的表現大幅提升，包含邏輯推理、數學、科學、編程、文字生成，以及通常需要人類專業知識的學術基準測試。模型的思考長度有所增加，特別適合處理高度複雜的推理任務。

高效工具運用： 這款模型在工具使用與函數調用方面表現優異，非常適合基於代理的應用場景。它能無縫整合外部系統與 API，滿足真實世界的應用需求。

擴展上下文理解能力： 具備強化後的 128K 長上下文理解能力（131,072 token），ERNIE-4.5-21B-A3B-Thinking 可以處理大量文件、程式碼庫與複雜多輪對話，不會遺失上下文或降低準確度。

ERNIE-4.5-21B-A3B-Thinking 採用先進的後訓練技術，包含 SFT（監督式微調）、DPO（直接偏好優化），以及百度專有的 UPO（統一偏好優化）。模型發布了 Transformer 風格的權重，與更廣泛的開發社群兼容，確保能無縫對接 PyTorch 與 PaddlePaddle 生態系，包含 vLLM 與 FastDeploy。這種廣泛的兼容性讓您能輕鬆整合到現有工作流程中，同時僅需 80GB × 1 張 GPU 即可維持高效的計算效能。

在 Novita AI 測試平台中探索 ERNIE-4.5-21B-A3B-Thinking →

模型規格

ERNIE-4.5-21B-A3B-Thinking 採用精密的混合專家架構，針對效能與效率進行了最佳化。模型的設計能針對每個 token 選擇性激活最相關的專家，在能力與計算成本之間達到最佳平衡。

核心規格：

總參數： 21B
活躍參數： 每 token 3B
層數： 28
注意力頭： 20 個查詢頭 / 4 個鍵值頭
文字專家： 總共 64 個 / 每 token 激活 6 個
共享專家： 2 個
上下文長度： 131,072 token
最大輸出： 65,536 token
輸入/輸出能力： 文字
訓練階段： 後訓練
提供者： 百度
授權協議： Apache 2.0
量化方式： FP8
GPU 需求： 80GB × 1 張 GPU
推理支援： 是

ERNIE-4.5-21B-A3B-Thinking 的 MoE 架構是高效 AI 設計的突破，繼承了 ERNIE 4.5 系列的多項創新技術，包含模態隔離路由與路由器正交損失技術。每次處理 token 時僅激活 3B 參數，同時保留對 21B 總參數的存取權，讓模型在無需承擔典型計算開銷的前提下，實現企業級效能。

模型具備 131,072 token 的上下文視窗與 65,536 token 的輸出能力，可處理大量文件並生成全面的回覆，非常適合複雜分析任務、長篇內容生成與詳細技術文件撰寫。

效能亮點

ERNIE-4.5-21B-A3B-Thinking 在多個領域都展現出卓越效能，作為 ERNIE 4.5 家族的一員，取得了最先進（SOTA）的成績。模型強化的思考能力與更深的推理深度，使其在需要多步驟分析與複雜問題解決的任務上表現格外突出。

關鍵效能優勢包含：

邏輯推理： ERNIE-4.5-21B-A3B-Thinking 擅長處理複雜的邏輯推演任務，在謎題、三段論與需要仔細分析、系統性思考的多步驟推理問題上表現優異。
數學： 模型具備先進的數學問題解決能力，能高準確度處理從基礎算術到複雜微積分、線性代數與抽象數學概念的各類問題。
科學： 強化的科學推理與分析能力，讓 ERNIE-4.5-21B-A3B-Thinking 能處理物理、化學、生物等科學領域的問題，提供詳細解釋與準確解答。
編程： 模型在多種程式語言上的程式碼生成與除錯能力都有提升，能編寫、分析與優化程式碼，同時清楚解釋程式設計概念與最佳實踐。
文字生成： 高品質的自然語言生成能力，使 ERNIE-4.5-21B-A3B-Thinking 非常適合創意寫作、技術文件撰寫，以及需要細膩理解與表達的內容創作任務。
學術基準測試： 模型在需要人類級專業知識的基準測試中表現優異，證明其已具備勝任專業與學術應用的能力。

在 Novita AI 測試平台中測試 ERNIE-4.5-21B-A3B-Thinking 的能力 →

如何在 Novita AI 平台開始使用 ERNIE-4.5-21B-A3B-Thinking

Novita AI 提供多種途徑存取 ERNIE-4.5-21B-A3B-Thinking，針對不同的技術水平與使用場景客製化。無論您是正在探索 AI 能力的企業用戶，還是構建生產級應用的開發者，我們的平台都能提供您需要的工具與彈性。

使用測試平台（現已上線 – 無需編碼）

Novita AI 測試平台是體驗 ERNIE-4.5-21B-A3B-Thinking 能力的最快途徑，無需任何技術設定：

立即存取： 註冊後即可在幾秒內開始實驗 ERNIE-4.5-21B-A3B-Thinking，初始測試無需 API 金鑰或任何設定。

互動式介面： 透過直覺的網頁介面即時測試提示詞並可視化輸出結果。您可以調整溫度（預設 0.7）、最大 token 數（最高 65,536）、系統提示詞等參數，觀察它們如何影響模型表現。

模型設定： 可微調回覆格式、溫度、top-p、min-p、top-k、存在懲罰、頻率懲罰與重複懲罰等參數，為您的特定使用場景最佳化輸出結果。

測試平台非常適合在完整部署前進行原型設計、想法測試與了解模型能力。您可以將成功的提示詞與設定直接匯出為程式碼，無縫過渡到生產環境。

開始在測試平台測試 ERNIE-4.5-21B-A3B-Thinking →

透過 API 整合（已上線就緒 – 適用於開發者）

針對生產部署，Novita AI 提供穩健的 ERNIE-4.5-21B-A3B-Thinking API 存取服務，透過 OpenAI 相容的端點提供企業級可靠性與效能。

直接 API 整合（Python 範例）

您可以透過 OpenAI 相容 API 將 ERNIE-4.5-21B-A3B-Thinking 連接至您的應用程式：

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="",
)

model = "baidu/ernie-4.5-21B-a3b-thinking"
stream = True # or False
max_tokens = 32768
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

此外還提供 TypeScript、Java、Go 與 Shell 的 SDK 支援，方便您在不同技術棧中無縫整合。

使用 OpenAI Agents SDK 構建多代理工作流程

構建能運用 ERNIE-4.5-21B-A3B-Thinking 強化思考能力的複雜多代理系統：

即插即用整合： 無需修改即可在任何 OpenAI Agents 工作流程中使用 ERNIE-4.5-21B-A3B-Thinking
進階代理能力： 完整支援交接、路由與工具整合，適用於複雜工作流程
函數調用： 運用 JsonSchema 定義實現結構化互動與工具使用

部署選項

Novita AI 提供彈性的部署選項，滿足您的特定需求與使用模式。

無伺服器 API

ERNIE-4.5-21B-A3B-Thinking 可透過 Novita 的無伺服器 API 立即存取，採用按 token 付費的定價模式：

無需設定： 無需管理基礎設施，即可立即開始使用模型
按用量付費定價： 每百萬輸入 token 0.07 美元，每百萬輸出 token 0.28 美元
OpenAI 相容端點： 可直接替換現有的 OpenAI 整合，無需修改
自動擴展： 無需容量規劃，即可處理可變的工作負載

隨選部署

針對高流量或延遲敏感的應用，隨選部署提供專屬資源：

高效能服務堆疊： 最佳化的推論引擎，實現最大吞吐量
高可靠性： 專屬 GPU 資源確保效能穩定一致
無速率限制： 可根據需求擴展，不受人為限制
GPU 需求： 80GB 顯存（建議使用 NVIDIA A100 80GB 或 H100 80GB 以達到最佳效能）

與第三方平台整合

Novita AI 上的 ERNIE-4.5-21B-A3B-Thinking 可與您現有的開發生態系無縫整合：

開發工具： 透過 OpenAI 相容 API，可直接與 Cursor、Cline、Continue、Codex、Qwen Code 等熱門 IDE 與開發環境整合。

協調框架： 透過官方連接器原生支援 LangChain、Dify、CrewAI、Langflow 等 AI 協調平台。

Hugging Face 整合： 作為 Hugging Face 的官方推論提供者，Novita AI 確保廣泛的生態系兼容性與便捷的模型部署。

總結

Novita AI 上的 ERNIE-4.5-21B-A3B-Thinking 是高效 AI 推理的突破性成果，透過我們可靠、可擴展的平台，為開發者與組織提供百度最先進的思考能力。

模型獨有的強化推理深度、高效工具運用與 131K 上下文理解能力組合，是複雜推理任務的理想選擇。僅需 3B 活躍參數即可實現 21B 參數級效能，且僅需 80GB 顯存，ERNIE-4.5-21B-A3B-Thinking 在能力與效率之間實現了無與倫比的平衡。

準備好體驗 ERNIE-4.5-21B-A3B-Thinking 的強大能力了嗎？我們的測試平台無需設定即可立即存取，非常適合探索模型能力與測試您的使用場景。您可以先透過互動式介面了解模型的優勢，當您準備好進行生產部署時，再無縫過渡到 API 整合。

立即在 Novita AI 測試平台使用 ERNIE-4.5-21B-A3B-Thinking →

以每百萬輸入 token 僅 0.07 美元的價格，用先進 AI 推理能力改造您的專案。幾秒內即可開始探索！

Novita AI 是一個 AI 雲端平台，為開發者提供簡單的 API 來部署 AI 模型，同時也提供實惠且可靠的 GPU 雲端服務，用於構建與擴展 AI 應用。

ERNIE-4.5 Thinking：百度21B MoE模型僅需3B活躍參數即可實現7倍更快效能

什麼是 ERNIE-4.5-21B-A3B-Thinking？

模型規格

效能亮點