ERNIE 4.5 300B A47B Base が Novita AI プラットフォームで正式にリリースされました。このモデルは、28のベンチマーク中22で DeepSeek V3 671B を上回る性能を発揮します。DeepSeek R1 のようなトップクラスのアプリケーションと比較しても、ERNIE 4.5 は卓越したパフォーマンスを示しています。さらに嬉しいことに、料金は非常に競争力があります!
| モデル名 | コンテキスト長 | 入力料金 | 出力料金 |
|---|---|---|---|
| ERNIE 4.5 VL 28B A3B | 30k | 無料 | 無料 |
| ERNIE 4.5 VL 424B A47B | 123k | $0.42 / 100万トークン | $1.25 / 100万トークン |
| ERNIE 4.5 0.3B | 120k | 無料 | 無料 |
| ERNIE 4.5 21B A3B | 120k | 無料 | 無料 |
| ERNIE 4.5 300B A47B Paddle | 123k | $0.30 / 100万トークン | $1.00 / 100万トークン |
| DeepSeek R1 0528 | 163k | $0.70 / 100万トークン | $2.50 / 100万トークン |
| DeepSeek V3 0324 | 163k | $0.28 / 100万トークン | $1.14 / 100万トークン |
しかし、この価格低下は、ハードウェア要件(特に VRAM)も削減されることを意味するのでしょうか?それとも、このような強力なモデルを実行するには、依然として多大なリソースが必要なのでしょうか?以下のセクションでは、ERNIE 4.5 がネイティブで必要とする VRAM の正確な量を詳しく説明します。
ERNIE モデルファミリー
| モデル名 | ベースパラメータ | アクティブパラメータ | モデルタイプ | モダリティ | トレーニングタイプ |
|---|---|---|---|---|---|
| ERNIE 4.5 VL 424B A47B | 424B | 47B | MoE | テキスト & ビジョン | PT |
| ERNIE 4.5 VL 424B A47B Base | 424B | 47B | MoE | テキスト & ビジョン | ベース |
| ERNIE 4.5 VL 28B A3B | 28B | 3B | MoE | テキスト & ビジョン | PT |
| ERNIE 4.5 VL 28B A3B Base | 28B | 3B | MoE | テキスト & ビジョン | ベース |
| ERNIE 4.5 300B A47B | 300B | 47B | MoE | テキスト | PT |
| ERNIE 4.5 300B A47B Base | 300B | 47B | MoE | テキスト | ベース |
| ERNIE 4.5 21B A3B | 21B | 3B | MoE | テキスト | PT |
| ERNIE 4.5 21B A3B Base | 21B | 3B | MoE | テキスト | ベース |
| ERNIE 4.5 0.3B | 0.3B | - | Dense | テキスト | PT |
| ERNIE 4.5 0.3B Base | 0.3B | - | Dense | テキスト | ベース |
ERNIE ファミリーの革新

ERNIE ファミリーの優れたパフォーマンス

ERNIE 4.5 事前学習モデルのパフォーマンス
- 一般: ERNIE 4.5 21B A3B Base と 300B A7B Base は、一部の C-Eval、CMMU などで優れています。Qwen3 30B A3B Base は他の分野で強力です。
- 推論: Qwen3 30B A3B Base は ARC シリーズでリードしています。ERNIE 4.5 21B A3B Base は BBH、Drop で優れています。
- 数学: ERNIE 4.5 21B A3B Base と 300B A7B Base は GSM8K、CMATH などで優れています。Qwen3 30B A3B Base も強みがあります。
- 知識: ERNIE 4.5 21B A3B Base は SimpleQA、ChineseSimpleQA で良好な結果を示しています。
- コーディング: ERNIE 4.5 21B A3B Base と 300B A7B Base は HumanEval+、MultiPLE で競争力があります。

非思考モードにおける事後学習済みマルチモーダルモデルのパフォーマンス
Qwen2.5
- 強み: 基本的なビジュアル QA、一部のマルチモーダル推論、軽量なビデオタスクに優れています。MMBench cn/en で強力です。
- 弱み: 複雑なドキュメント/チャートタスク、高度なマルチモーダル推論、詳細な視覚認識に苦戦します。字幕ベースのビデオ理解ではやや劣ります。
ERNIE 4.5
- 強み: 複雑なドキュメント/チャートタスク、高度なマルチモーダル推論、正確な視覚認識、字幕ベースのビデオ理解で優れています。マルチモーダルの複雑なタスク全般で強力です。
- 弱み: 基本的なビジュアル QA や単純なビデオタスクでは競争力がやや劣ります。
では、ERNIE にはどれくらいの VRAM が必要なのでしょうか?
🚀 FP16 精度
| モデル | パラメータ(アクティブ) | 必要な VRAM | 理想的な GPU |
|---|---|---|---|
| ERNIE 4.5 VL 424B | 424B (47B active) | ~945 GB | NVIDIA H100 (80GB) × 12 |
| ERNIE 4.5 300B | 300B (47B active) | ~668 GB | NVIDIA H100 (80GB) × 9 |
| ERNIE 4.5 VL 28B | 28B (3B active) | ~64 GB | NVIDIA A100/H100 (80GB) |
| ERNIE 4.5 21B | 21B (3B active) | ~48 GB | NVIDIA RTX 6000 Ada (48GB) |
| ERNIE 4.5 0.3B | 300M | ~2.5 GB | NVIDIA RTX 4060 (8GB) / RTX 3060 (12GB) |
| Gemma 3 27B | 27B | ~65.2 GB | NVIDIA A100/H100 (80GB) |
⚡ INT4 精度
| モデル | パラメータ(アクティブ) | 必要な VRAM | 理想的な GPU |
|---|---|---|---|
| ERNIE 4.5 VL 424B | 424B (47B active) | ~237 GB | NVIDIA H100 (80GB) × 3 |
| ERNIE 4.5 300B | 300B (47B active) | ~168 GB | NVIDIA H100 (80GB) × 3 |
| ERNIE 4.5 VL 28B | 28B (3B active) | ~17 GB | NVIDIA RTX 4090 (24GB) / A10G (24GB) |
| ERNIE 4.5 21B | 21B (3B active) | ~13 GB | NVIDIA RTX 4080 (16GB) / A10G (24GB) |
| ERNIE 4.5 0.3B | 300M | ~1.8 GB | 4GB 以上の VRAM を搭載したほとんどの GPU |
| Gemma 3 27B | 27B | ~14.1 GB | 16GB 以上の VRAM を搭載したハイエンド GPU |
高い VRAM 要件のデメリットと実用的なヒント
高い VRAM 要件は、ユーザーにいくつかの課題をもたらします。まず、ハードウェアコスト ** が高騰する可能性があります。NVIDIA H100 のようなトップクラスの GPU は高価であり、最大規模のモデルを実行するにはマルチ GPU クラスターが必要になることが多く、個人や小規模組織には手が届きません。次に、GPU が増えると ** 消費電力と熱発生 ** が増加し、運用コストの上昇とより複雑な冷却ソリューションが必要になります。第三に、このようなセットアップは ** 維持が困難 であり、ハードウェア、分散コンピューティング、ソフトウェア設定に関する技術的専門知識が必要です。
これらの課題は アクセシビリティを制限 する可能性もあります。多くの研究者、開発者、愛好家は必要なインフラにアクセスできず、イノベーションや実験が遅れる可能性があります。
高い VRAM 要件を克服するためのヒント:
- 量子化モデルを使用する: INT4 やその他の圧縮/量子化バージョンを選択すると、多くのタスクでパフォーマンスへの影響を最小限に抑えながら、VRAM の必要性を大幅に削減できます。
- クラウドソリューション: 高価なハードウェアに投資する代わりに、必要なときだけハイエンド GPU をレンタルできるクラウドプラットフォームを検討してください。
- モデルオフロード & ストリーミング: モデルのオフロード、分割、ストリーミングをサポートするツールやプラットフォームを使用して、すべてのデータが一度に GPU VRAM に存在する必要がないようにします。
Novita AI: 0 VRAM で ERNIE にアクセス
Novita AI で ERNIE 4.5 を使い始めるのは簡単でリスクもありません。
新規ユーザーには $10 の無料クレジット が提供されます。これは、初期費用なしで ERNIE 4.5 を試すのに十分な額です。
プレイグラウンドを使用する(コーディング不要)
- インスタントアクセス: サインアップ して無料クレジットを受け取り、数秒で ERNIE 4.5 や他のトップモデルを使い始めましょう。
- インタラクティブ UI: プロンプト、思考連鎖推論をテストし、結果をリアルタイムで可視化できます。
- モデル比較: ERNIE 4.5、Qwen 3、Llama 4、DeepSeek などを簡単に切り替えて、ニーズに最適なモデルを見つけられます。

API 経由で統合(開発者向け)
Novita AI の統一 REST API を使用して、ERNIE 4.5 をアプリケーション、ワークフロー、チャットボットにシームレスに接続できます。モデルウェイトの管理やインフラストラクチャの心配は不要です。Novita AI は多言語 SDK と高度なパラメーター制御を提供します。
1.ダイレクト API 統合(Python の例)
curl "https://api.novita.ai/v3/openai/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer " \
-d @- << 'EOF'
{
"model": "baidu/ernie-4.5-300b-a47b-paddle",
"messages": [
{
"role": "system",
"content": Be a helpful assistant
},
{
"role": "user",
"content": "Hi there!"
}
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # or False
max_tokens = 6000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
"response_format": { "type": "text" },
"max_tokens": 32768,
"temperature": 1,
"top_p": 1,
"min_p": 0,
"top_k": 50,
"presence_penalty": 0,
"frequency_penalty": 0,
"repetition_penalty": 1
}
EOF
2.OpenAI Agents SDK を使ったマルチエージェントワークフロー
Novita AI を OpenAI Agents SDK と統合することで、高度なマルチエージェントシステムを構築できます。
- プラグアンドプレイ: Novita AI の ERNIE 4.5 を任意の OpenAI Agents ワークフローで使用できます。
- ハンドオフ、ルーティング、ツール使用をサポート: ERNIE 4.5 の機能を活用して、タスクを委任、トリアージ、実行できるエージェントを設計できます。
- Python 統合: SDK を Novita のエンドポイント(
https://api.novita.ai/v3/openai)に向け、API キーを使用するだけです。
サードパーティプラットフォームで ERNIE 4.5 API に接続
-
Hugging Face: Novita AI エンドポイントを介して、QERNIE 4.5 を Spaces、パイプライン、または Transformers ライブラリで使用できます。
-
エージェント & オーケストレーションフレームワーク: 公式コネクタとステップバイステップの統合ガイドを通じて、Novita AI を Continue、AnythingLLM、LangChain、Dify、Langflow などのパートナープラットフォームと簡単に接続できます。
-
OpenAI 互換 API: Cline や Cursor など、OpenAI API 標準向けに設計されたツールとのシームレスな移行と統合を利用できます。
たとえ ERNIE 4.5 を自前のハードウェアで実行するには非常に強力で高価な GPU が必要であっても、Novita AI を使用すれば、これらの大規模モデルを簡単に、ユーザー側で VRAM を必要とせずに利用できます。これにより、初心者から開発者まで、誰でも高度な AI にアクセスできるようになります。
よくある質問
ERNIE 4.5 は本当に他の大きな AI モデルより優れているのですか?
はい、ERNIE 4.5 はほとんどのベンチマークで DeepSeek V3 671B よりも高いスコアを達成しており、他のトップモデルと非常に競争力があります。
ERNIE 4.5 はコーディングや数学のタスクに使用できますか?
はい、ERNIE 4.5 モデルはコーディング(HumanEval+ など)や数学のベンチマーク(GSM8K、CMATH など)で優れたパフォーマンスを発揮します。
ERNIE 4.5 を実行するにはどれくらいの VRAM が必要ですか?
ERNIE 4.5 の最大バージョン(424B や 300B など)を実行するには、非常に高い VRAM(数百 GB と複数のハイエンド GPU)が必要です。より小さいバージョンや量子化されたバージョンは、はるかに少ない VRAM で済みます。
Novita AI は、AI の野望を実現するオールインワンのクラウドプラットフォームです。統合 API、サーバーレス、GPU インスタンスなど、コスト効率の高いツールを提供します。インフラストラクチャを排除し、無料で開始して、AI のビジョンを現実にしましょう。
