ERNIE VRAM:原生需高顯存,Novita AI 完全免煩惱

ERNIE VRAM:原生需高顯存,Novita AI 完全免煩惱

ERNIE 4.5 300B A47B Base 已在 Novita AI 平台上正式推出,使用者能使用這款在 28 項基準測試中有 22 項超越 DeepSeek V3 671B 的模型。即便與 DeepSeek R1 等頂尖應用相比,ERNIE 4.5 仍展現出卓越表現。更令人振奮的是,價格極具競爭力!

模型名稱 上下文長度 輸入價格 輸出價格
ERNIE 4.5 VL 28B A3B 30k 免費 免費
ERNIE 4.5 VL 424B A47B 123k $0.42 / 1M tokens $1.25 / 1M tokens
ERNIE 4.5 0.3B 120k 免費 免費
ERNIE 4.5 21B A3B 120k 免費 免費
ERNIE 4.5 300B A47B Paddle 123k $0.30 / 1M tokens $1.00 / 1M tokens
DeepSeek R1 0528 163k $0.70 / 1M tokens $2.50 / 1M tokens
DeepSeek V3 0324 163k $0.28 / 1M tokens $1.14 / 1M tokens

但價格下降是否代表硬體需求——尤其是 VRAM——也跟著降低了?或者,運行如此強大的模型仍然需要大量資源?在接下來的章節中,我們將詳細解析 ERNIE 4.5 原生需要的 VRAM 量。

ERNIE 模型家族

模型名稱 基礎參數 活化參數 模型類型 模態 訓練類型
ERNIE 4.5 VL 424B A47B 424B 47B MoE 文本與視覺 PT
ERNIE 4.5 VL 424B A47B Base 424B 47B MoE 文本與視覺 Base
ERNIE 4.5 VL 28B A3B 28B 3B MoE 文本與視覺 PT
ERNIE 4.5 VL 28B A3B Base 28B 3B MoE 文本與視覺 Base
ERNIE 4.5 300B A47B 300B 47B MoE 文本 PT
ERNIE 4.5 300B A47B Base 300B 47B MoE 文本 Base
ERNIE 4.5 21B A3B 21B 3B MoE 文本 PT
ERNIE 4.5 21B A3B Base 21B 3B MoE 文本 Base
ERNIE 4.5 0.3B 0.3B - Dense 文本 PT
ERNIE 4.5 0.3B Base 0.3B - Dense 文本 Base

ERNIE 家族的創新

ERNIE 家族的創新

ERNIE 家族的優異效能

ERNIE-4.5 預訓練模型的效能

ERNIE 4.5 預訓練模型的效能

  • 通用:ERNIE 4.5 21B A3B Base 與 300B A7B Base 在部分 C-Eval、CMMU 等測試中表現優異;Qwen3 30B A3B Base 則在其他項目中表現強勁。
  • 推理:Qwen3 30B A3B Base 在 ARC 系列中領先;ERNIE 4.5 21B A3B Base 在 BBH、Drop 上表現出色。
  • 數學:ERNIE 4.5 21B A3B Base 與 300B A7B Base 在 GSM8K、CMATH 等項目中表現優異;Qwen3 30B A3B Base 亦有優勢。
  • 知識:ERNIE 4.5 21B A3B Base 在 SimpleQA、ChineseSimpleQA 中表現良好。
  • 程式碼:ERNIE 4.5 21B A3B Base 與 300B A7B Base 在 HumanEval+、MultiPLE 中具競爭力。

非思考模式下後訓練多模態模型的效能

非思考模式下後訓練多模態模型的效能

Qwen2.5

  • 優勢:在基礎視覺問答、部分多模態推理以及輕量影片任務上表現優異。MMBench 中英文版本表現強勁。
  • 弱點:在複雜文件/圖表任務、深度多模態推理以及細部視覺感知上表現吃力。在基於字幕的影片理解方面能力較弱。

ERNIE 4.5

  • 優勢:在複雜文件/圖表任務、深度多模態推理、精確視覺感知以及字幕影片理解方面佔主導地位。整體在多模態複雜度上表現強勁。
  • 弱點:在基礎視覺問答與簡單影片任務方面競爭力較弱。

那麼,ERNIE 到底需要多少 VRAM?

🚀 FP16 精度

模型 參數 (活化) 所需 VRAM 理想 GPU
ERNIE 4.5 VL 424B 424B (47B 活化) ~945 GB NVIDIA H100 (80GB) × 12
ERNIE 4.5 300B 300B (47B 活化) ~668 GB NVIDIA H100 (80GB) × 9
ERNIE 4.5 VL 28B 28B (3B 活化) ~64 GB NVIDIA A100/H100 (80GB)
ERNIE 4.5 21B 21B (3B 活化) ~48 GB NVIDIA RTX 6000 Ada (48GB)
ERNIE 4.5 0.3B 300M ~2.5 GB NVIDIA RTX 4060 (8GB) / RTX 3060 (12GB)
Gemma 3 27B 27B ~65.2 GB NVIDIA A100/H100 (80GB)

INT4 精度

模型 參數 (活化) 所需 VRAM 理想 GPU
ERNIE 4.5 VL 424B 424B (47B 活化) ~237 GB NVIDIA H100 (80GB) × 3
ERNIE 4.5 300B 300B (47B 活化) ~168 GB NVIDIA H100 (80GB) × 3
ERNIE 4.5 VL 28B 28B (3B 活化) ~17 GB NVIDIA RTX 4090 (24GB) / A10G (24GB)
ERNIE 4.5 21B 21B (3B 活化) ~13 GB NVIDIA RTX 4080 (16GB) / A10G (24GB)
ERNIE 4.5 0.3B 300M ~1.8 GB 大部分 VRAM >4GB 的 GPU
Gemma 3 27B 27B ~14.1 GB 任何搭載 ≥16GB VRAM 的高階 GPU

高 VRAM 需求的缺點與實用建議

高 VRAM 需求為使用者帶來多項挑戰。首先,硬體成本 ** 可能飆升——像 NVIDIA H100 這類頂級 GPU 價格高昂,而且通常需要多 GPU 叢集才能運行最大型模型,個人或小型組織難以負擔。其次,隨著 GPU 數量增加,功耗與發熱量 ** 也隨之上升,導致營運成本提高,需要更複雜的散熱方案。第三,這樣的設置難以維護,需要具備硬體、分散式運算與軟體配置的專業知識。

這些挑戰也可能 限制可近用性:許多研究人員、開發者和愛好者根本無法取得必要的基礎設施,這可能拖慢創新與實驗的速度。

克服高 VRAM 需求的小技巧:

  • 使用量化模型:選擇 INT4 或其他壓縮/量化版本,可大幅降低 VRAM 需求,且對許多任務的效能影響通常很小。
  • 雲端解決方案:考慮使用雲端平台,僅在需要時租用高階 GPU,而非投資昂貴的硬體。
  • 模型卸載與串流:使用支援模型卸載、分割或串流的工具或平台,使所有數據無需同時存在於 GPU VRAM 中。

Novita AI:零 VRAM 需求即可存取 ERNIE

在 Novita AI 上開始使用 ERNIE 4.5 非常簡單且無風險。

新用戶可獲得 10 美元免費額度,足以無須前期成本即可探索 ERNIE 4.5。

立即試用 Novita AI!

使用 Playground(無需編寫程式碼)

  • 即時存取註冊,領取免費額度,幾秒鐘內即可開始使用 ERNIE 4.5 及其他頂尖模型進行實驗。
  • 互動式 UI:測試提示詞、思維鏈推理,並即時視覺化結果。
  • 模型比較:輕鬆在 ERNIE 4.5、Qwen 3、Llama 4、DeepSeek 等模型之間切換,找出最適合您需求的模型。

開始免費試用 ERNIE 4.5

透過 API 整合(適合開發者)

使用 Novita AI 的統一 REST API,將 ERNIE 4.5 無縫連接到應用程式、工作流程或聊天機器人。無需管理模型權重或基礎設施——Novita AI 提供多語言 SDK 與進階參數控制。

1.直接 API 整合(Python 範例)

curl "https://api.novita.ai/v3/openai/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer " \
  -d @- << 'EOF'
{
    "model": "baidu/ernie-4.5-300b-a47b-paddle",
    "messages": [
        {
            "role": "system",
            "content": Be a helpful assistant
        },
        {
            "role": "user",
            "content": "Hi there!"
        }
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # or False
max_tokens = 6000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
      "response_format": { "type": "text" },
    "max_tokens": 32768,
    "temperature": 1,
    "top_p": 1,
    "min_p": 0,
    "top_k": 50,
    "presence_penalty": 0,
    "frequency_penalty": 0,
    "repetition_penalty": 1
}
EOF
  
 

2.使用 OpenAI Agents SDK 建構多智能體工作流程

將 Novita AI 與 OpenAI Agents SDK 整合,建構進階多智能體系統:

  • 即插即用:在任何 OpenAI Agents 工作流程中使用 Novita AI 的 ERNIE 4.5
  • 支援交接、路由與工具使用:設計能夠委派、分流或執行函式的智能體,全部由 ERNIE 4.5 的能力驅動
  • Python 整合:只需將 SDK 指向 Novita 端點 (https://api.novita.ai/v3/openai) 並使用您的 API 金鑰

在第三方平台上連接 ERNIE 4.5 API

  • Hugging Face:透過 Novita AI 端點,在 Spaces、pipeline 或 Transformers 函式庫中使用 ERNIE 4.5。

  • 智能體與編排框架:透過官方連接器與逐步整合指南,輕鬆將 Novita AI 與 ContinueAnythingLLMLangChainDifyLangflow 等合作平台連接。

  • OpenAI 相容 API:享受與 ClineCursor 等工具的無痛遷移與整合,這些工具專為 OpenAI API 標準設計。

儘管在自有硬體上運行 ERNIE 4.5 需要非常強大(且昂貴)的 GPU,但 Novita AI 讓您能輕鬆使用這些大型模型,完全無需擔憂本機端的 VRAM 需求。這使得先進 AI 對所有人——從初學者到開發者——都變得平易近人。

常見問題

ERNIE 4.5 真的比其他大型 AI 模型更好嗎?

是的,ERNIE 4.5 在多數基準測試中的得分高於 DeepSeek V3 671B,並與其他頂尖模型極具競爭力。

ERNIE 4.5 可以用於程式碼與數學任務嗎?

可以,ERNIE 4.5 模型在程式碼(如 HumanEval+)與數學基準測試(如 GSM8K、CMATH)中表現出色。

運行 ERNIE 4.5 需要多少 VRAM?

運行最大版本的 ERNIE 4.5(如 424B 或 300B)需要極高的 VRAM——數百 GB 與多個高階 GPU。較小或量化版本所需的 VRAM 則少得多。

Novita AI 是一站式雲端平台,助您實現 AI 抱負。提供整合 API、無伺服器、GPU 執行個體——您的成本效益工具。無需煩惱基礎設施,立即免費開始,讓您的 AI 願景成真。

推薦閱讀