ERNIE VRAM: ネイティブでは高いVRAMが必要、Novita AIではゼロ

ERNIE VRAM: ネイティブでは高いVRAMが必要、Novita AIではゼロ

ERNIE 4.5 300B A47B Base が Novita AI プラットフォームで正式にリリースされました。このモデルは、28のベンチマーク中22で DeepSeek V3 671B を上回る性能を発揮します。DeepSeek R1 のようなトップクラスのアプリケーションと比較しても、ERNIE 4.5 は卓越したパフォーマンスを示しています。さらに嬉しいことに、料金は非常に競争力があります!

モデル名 コンテキスト長 入力料金 出力料金
ERNIE 4.5 VL 28B A3B 30k 無料 無料
ERNIE 4.5 VL 424B A47B 123k $0.42 / 100万トークン $1.25 / 100万トークン
ERNIE 4.5 0.3B 120k 無料 無料
ERNIE 4.5 21B A3B 120k 無料 無料
ERNIE 4.5 300B A47B Paddle 123k $0.30 / 100万トークン $1.00 / 100万トークン
DeepSeek R1 0528 163k $0.70 / 100万トークン $2.50 / 100万トークン
DeepSeek V3 0324 163k $0.28 / 100万トークン $1.14 / 100万トークン

しかし、この価格低下は、ハードウェア要件(特に VRAM)も削減されることを意味するのでしょうか?それとも、このような強力なモデルを実行するには、依然として多大なリソースが必要なのでしょうか?以下のセクションでは、ERNIE 4.5 がネイティブで必要とする VRAM の正確な量を詳しく説明します。

ERNIE モデルファミリー

モデル名 ベースパラメータ アクティブパラメータ モデルタイプ モダリティ トレーニングタイプ
ERNIE 4.5 VL 424B A47B 424B 47B MoE テキスト & ビジョン PT
ERNIE 4.5 VL 424B A47B Base 424B 47B MoE テキスト & ビジョン ベース
ERNIE 4.5 VL 28B A3B 28B 3B MoE テキスト & ビジョン PT
ERNIE 4.5 VL 28B A3B Base 28B 3B MoE テキスト & ビジョン ベース
ERNIE 4.5 300B A47B 300B 47B MoE テキスト PT
ERNIE 4.5 300B A47B Base 300B 47B MoE テキスト ベース
ERNIE 4.5 21B A3B 21B 3B MoE テキスト PT
ERNIE 4.5 21B A3B Base 21B 3B MoE テキスト ベース
ERNIE 4.5 0.3B 0.3B - Dense テキスト PT
ERNIE 4.5 0.3B Base 0.3B - Dense テキスト ベース

ERNIE ファミリーの革新

ERNIE ファミリーの革新

ERNIE ファミリーの優れたパフォーマンス

ERNIE-4.5 事前学習モデルのパフォーマンス

ERNIE 4.5 事前学習モデルのパフォーマンス

  • 一般: ERNIE 4.5 21B A3B Base と 300B A7B Base は、一部の C-Eval、CMMU などで優れています。Qwen3 30B A3B Base は他の分野で強力です。
  • 推論: Qwen3 30B A3B Base は ARC シリーズでリードしています。ERNIE 4.5 21B A3B Base は BBH、Drop で優れています。
  • 数学: ERNIE 4.5 21B A3B Base と 300B A7B Base は GSM8K、CMATH などで優れています。Qwen3 30B A3B Base も強みがあります。
  • 知識: ERNIE 4.5 21B A3B Base は SimpleQA、ChineseSimpleQA で良好な結果を示しています。
  • コーディング: ERNIE 4.5 21B A3B Base と 300B A7B Base は HumanEval+、MultiPLE で競争力があります。

非思考モードにおける事後学習済みマルチモーダルモデルのパフォーマンス

非思考モードにおける事後学習済みマルチモーダルモデルのパフォーマンス

Qwen2.5

  • 強み: 基本的なビジュアル QA、一部のマルチモーダル推論、軽量なビデオタスクに優れています。MMBench cn/en で強力です。
  • 弱み: 複雑なドキュメント/チャートタスク、高度なマルチモーダル推論、詳細な視覚認識に苦戦します。字幕ベースのビデオ理解ではやや劣ります。

ERNIE 4.5

  • 強み: 複雑なドキュメント/チャートタスク、高度なマルチモーダル推論、正確な視覚認識、字幕ベースのビデオ理解で優れています。マルチモーダルの複雑なタスク全般で強力です。
  • 弱み: 基本的なビジュアル QA や単純なビデオタスクでは競争力がやや劣ります。

では、ERNIE にはどれくらいの VRAM が必要なのでしょうか?

🚀 FP16 精度

モデル パラメータ(アクティブ) 必要な VRAM 理想的な GPU
ERNIE 4.5 VL 424B 424B (47B active) ~945 GB NVIDIA H100 (80GB) × 12
ERNIE 4.5 300B 300B (47B active) ~668 GB NVIDIA H100 (80GB) × 9
ERNIE 4.5 VL 28B 28B (3B active) ~64 GB NVIDIA A100/H100 (80GB)
ERNIE 4.5 21B 21B (3B active) ~48 GB NVIDIA RTX 6000 Ada (48GB)
ERNIE 4.5 0.3B 300M ~2.5 GB NVIDIA RTX 4060 (8GB) / RTX 3060 (12GB)
Gemma 3 27B 27B ~65.2 GB NVIDIA A100/H100 (80GB)

INT4 精度

モデル パラメータ(アクティブ) 必要な VRAM 理想的な GPU
ERNIE 4.5 VL 424B 424B (47B active) ~237 GB NVIDIA H100 (80GB) × 3
ERNIE 4.5 300B 300B (47B active) ~168 GB NVIDIA H100 (80GB) × 3
ERNIE 4.5 VL 28B 28B (3B active) ~17 GB NVIDIA RTX 4090 (24GB) / A10G (24GB)
ERNIE 4.5 21B 21B (3B active) ~13 GB NVIDIA RTX 4080 (16GB) / A10G (24GB)
ERNIE 4.5 0.3B 300M ~1.8 GB 4GB 以上の VRAM を搭載したほとんどの GPU
Gemma 3 27B 27B ~14.1 GB 16GB 以上の VRAM を搭載したハイエンド GPU

高い VRAM 要件のデメリットと実用的なヒント

高い VRAM 要件は、ユーザーにいくつかの課題をもたらします。まず、ハードウェアコスト ** が高騰する可能性があります。NVIDIA H100 のようなトップクラスの GPU は高価であり、最大規模のモデルを実行するにはマルチ GPU クラスターが必要になることが多く、個人や小規模組織には手が届きません。次に、GPU が増えると ** 消費電力と熱発生 ** が増加し、運用コストの上昇とより複雑な冷却ソリューションが必要になります。第三に、このようなセットアップは ** 維持が困難 であり、ハードウェア、分散コンピューティング、ソフトウェア設定に関する技術的専門知識が必要です。

これらの課題は アクセシビリティを制限 する可能性もあります。多くの研究者、開発者、愛好家は必要なインフラにアクセスできず、イノベーションや実験が遅れる可能性があります。

高い VRAM 要件を克服するためのヒント:

  • 量子化モデルを使用する: INT4 やその他の圧縮/量子化バージョンを選択すると、多くのタスクでパフォーマンスへの影響を最小限に抑えながら、VRAM の必要性を大幅に削減できます。
  • クラウドソリューション: 高価なハードウェアに投資する代わりに、必要なときだけハイエンド GPU をレンタルできるクラウドプラットフォームを検討してください。
  • モデルオフロード & ストリーミング: モデルのオフロード、分割、ストリーミングをサポートするツールやプラットフォームを使用して、すべてのデータが一度に GPU VRAM に存在する必要がないようにします。

Novita AI: 0 VRAM で ERNIE にアクセス

Novita AI で ERNIE 4.5 を使い始めるのは簡単でリスクもありません。

新規ユーザーには $10 の無料クレジット が提供されます。これは、初期費用なしで ERNIE 4.5 を試すのに十分な額です。

今すぐ Novita AI をお試しください!

プレイグラウンドを使用する(コーディング不要)

  • インスタントアクセス: サインアップ して無料クレジットを受け取り、数秒で ERNIE 4.5 や他のトップモデルを使い始めましょう。
  • インタラクティブ UI: プロンプト、思考連鎖推論をテストし、結果をリアルタイムで可視化できます。
  • モデル比較: ERNIE 4.5、Qwen 3、Llama 4、DeepSeek などを簡単に切り替えて、ニーズに最適なモデルを見つけられます。

ERNIE 4.5 の無料トライアルを開始

API 経由で統合(開発者向け)

Novita AI の統一 REST API を使用して、ERNIE 4.5 をアプリケーション、ワークフロー、チャットボットにシームレスに接続できます。モデルウェイトの管理やインフラストラクチャの心配は不要です。Novita AI は多言語 SDK と高度なパラメーター制御を提供します。

1.ダイレクト API 統合(Python の例)

curl "https://api.novita.ai/v3/openai/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer " \
  -d @- << 'EOF'
{
    "model": "baidu/ernie-4.5-300b-a47b-paddle",
    "messages": [
        {
            "role": "system",
            "content": Be a helpful assistant
        },
        {
            "role": "user",
            "content": "Hi there!"
        }
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # or False
max_tokens = 6000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
      "response_format": { "type": "text" },
    "max_tokens": 32768,
    "temperature": 1,
    "top_p": 1,
    "min_p": 0,
    "top_k": 50,
    "presence_penalty": 0,
    "frequency_penalty": 0,
    "repetition_penalty": 1
}
EOF
  
 

2.OpenAI Agents SDK を使ったマルチエージェントワークフロー

Novita AI を OpenAI Agents SDK と統合することで、高度なマルチエージェントシステムを構築できます。

  • プラグアンドプレイ: Novita AI の ERNIE 4.5 を任意の OpenAI Agents ワークフローで使用できます。
  • ハンドオフ、ルーティング、ツール使用をサポート: ERNIE 4.5 の機能を活用して、タスクを委任、トリアージ、実行できるエージェントを設計できます。
  • Python 統合: SDK を Novita のエンドポイント(https://api.novita.ai/v3/openai)に向け、API キーを使用するだけです。

サードパーティプラットフォームで ERNIE 4.5 API に接続

  • Hugging Face: Novita AI エンドポイントを介して、QERNIE 4.5 を Spaces、パイプライン、または Transformers ライブラリで使用できます。

  • エージェント & オーケストレーションフレームワーク: 公式コネクタとステップバイステップの統合ガイドを通じて、Novita AI を ContinueAnythingLLMLangChainDifyLangflow などのパートナープラットフォームと簡単に接続できます。

  • OpenAI 互換 API: ClineCursor など、OpenAI API 標準向けに設計されたツールとのシームレスな移行と統合を利用できます。

たとえ ERNIE 4.5 を自前のハードウェアで実行するには非常に強力で高価な GPU が必要であっても、Novita AI を使用すれば、これらの大規模モデルを簡単に、ユーザー側で VRAM を必要とせずに利用できます。これにより、初心者から開発者まで、誰でも高度な AI にアクセスできるようになります。

よくある質問

ERNIE 4.5 は本当に他の大きな AI モデルより優れているのですか?

はい、ERNIE 4.5 はほとんどのベンチマークで DeepSeek V3 671B よりも高いスコアを達成しており、他のトップモデルと非常に競争力があります。

ERNIE 4.5 はコーディングや数学のタスクに使用できますか?

はい、ERNIE 4.5 モデルはコーディング(HumanEval+ など)や数学のベンチマーク(GSM8K、CMATH など)で優れたパフォーマンスを発揮します。

ERNIE 4.5 を実行するにはどれくらいの VRAM が必要ですか?

ERNIE 4.5 の最大バージョン(424B や 300B など)を実行するには、非常に高い VRAM(数百 GB と複数のハイエンド GPU)が必要です。より小さいバージョンや量子化されたバージョンは、はるかに少ない VRAM で済みます。

Novita AI は、AI の野望を実現するオールインワンのクラウドプラットフォームです。統合 API、サーバーレス、GPU インスタンスなど、コスト効率の高いツールを提供します。インフラストラクチャを排除し、無料で開始して、AI のビジョンを現実にしましょう。

おすすめの記事