百度最先进的开源混合专家(MoE)模型 ERNIE 4.5 现已上线 Novita AI!
以下是 ERNIE 4.5 在 Novita AI 上的当前定价:
baidu/ernie-4.5-vl-28b-a3b : 30k 上下文,免费
baidu/erine-4.5–21B-a3b : 120k 上下文,免费
baidu/erine-4.5–0.3b : 120k 上下文,免费
baidu/erine-4.5-vl-424b-a47b : 123k 上下文,输入 $0.42/M tokens,输出 $1.25/M tokens
baidu/ernie-4.5–300b-a47b-paddle : 123k 上下文,输入 $0.3/M tokens,输出 $1/M tokens
什么是 ERNIE 4.5?
ERNIE 4.5 是百度最新的开源模型系列,包含 10 个不同模型。该系列包括激活参数为 470 亿和 30 亿的混合专家(MoE)模型——最大模型总参数达到 4240 亿——以及一个参数为 3 亿的密集模型。

架构创新: 这些模型采用了 ** 创新的多模态异构模型结构** ,通过跨模态参数共享机制实现跨模态知识融合,同时保留各模态的专用参数空间。这种架构非常适合从大语言模型到多模态模型的持续预训练范式,在保持甚至提升文本任务性能的同时,显著增强了多模态理解能力。
框架与训练: 所有 ERNIE 4.5 系列模型均使用 PaddlePaddle 深度学习框架 ** 进行高效的训练、推理和部署。在大语言模型预训练阶段, 模型 FLOPs 利用率(MFU)达到 47%**。
性能与能力
基准测试成就: 实验结果表明,该模型系列在多个文本和多模态基准测试中取得了 ** 最先进的(SOTA)性能** ,尤其在以下方面表现突出:

- 指令遵循 — 理解和执行复杂指令
- 世界知识记忆 — 全面的事实知识存储与检索
- 视觉理解 — 先进的图像理解能力
- 多模态推理任务 — 跨文本和视觉输入的复杂推理
模型规格(ERNIE-4.5-300B-A47B):
- 总参数: 300B,每个 Token 激活 47B
- 架构: 54 层,64 个查询头 / 8 个键值头
- 专家配置: 64 个文本专家(8 个激活)/ 64 个视觉专家(8 个激活)
- 上下文长度: 131,072 tokens
- 模态: 支持多模态训练的文本
可及性与部署:
- Apache 2.0 许可证 — 模型权重开源,适用于学术研究和工业应用
- 工业级开发工具包 — 基于 PaddlePaddle 全面套件,支持 ERNIEKit
- 广泛的芯片兼容性 — 兼容多种硬件平台,降低后训练和部署门槛
- 出色的推理性能 — 多种部署选项,包括 FastDeploy、Transformers 和 vLLM 集成
- 灵活的量化 — 支持 4-bit、2-bit 和 FP8 选项,适应不同资源约束
技术创新
多模态混合专家模型预训练
方法: ERNIE 4.5 在 ** 文本和视觉模态之间进行联合训练** ,以更好地捕捉多模态信息的细微差异,提升文本生成、图像理解和多模态推理任务的性能。
创新: 为了在学习过程中实现两种模态的相互增强,同时防止一种模态阻碍另一种模态的学习,百度提出了一种 ** 多模态异构混合专家模型结构** ,具有:
- 模态隔离路由 用于专门的专家分配
- 路由器正交损失 以增强专家专业化
- 多模态 Token 平衡损失 以优化跨模态的资源利用
高级优化: 这些架构选择确保两种模态都能被有效表示,从而在训练过程中实现 ** 多模态相互促进和改进**。
高效训练与推理框架
训练优化: 为了支持 ERNIE 4.5 模型的高效训练,百度提出了 ** 异构混合并行和层次化负载均衡策略**。通过多种先进技术,它们显著提高了预训练吞吐量:
- 节点内专家并行 — 计算节点内的优化并行处理
- 内存高效的流水线调度 — 训练期间的智能内存管理
- FP8 混合精度训练 — 先进的数值精度技术
- 细粒度重计算 — 用于内存效率的策略性重计算
推理突破: 在推理优化方面,他们提出了几种前沿方法:
- 多专家并行协作方法 — 跨模型专家的协作处理
- 卷积代码量化算法 — 用于压缩的高级编码技术
- **近乎无损的量化 **:实现 4-bit 量化和 2-bit 量化 ,性能下降极小
- PD 分离与动态角色切换 — 自适应部署,能更充分利用资源并提升 ERNIE 4.5 MoE 模型的推理性能
模态特定后训练
量身定制优化: 为了满足实际场景中的不同需求,百度对预训练模型进行了 ** 模态特定的微调**:
大语言模型(LLM):
- 针对 通用语言理解和生成 进行专门优化
视觉语言模型(VLM):
- 专注于 视觉语言理解
- 支持 思考模式 ** 和 ** 非思考模式 操作
多阶段训练流程: 每个模型均采用 ** 多阶段后训练** ,结合先进技术:
- SFT(监督微调) — 从监督示例中学习
- DPO(直接偏好优化) — 基于偏好直接优化
- UPO(统一偏好优化) — 百度专有的统一偏好优化技术
部署与集成
ERNIE-4.5 模型可使用 FastDeploy、Hugging Face Transformers 或 vLLM 进行部署。不同的量化级别和服务框架使模型能够在各种硬件配置上高效运行:
- 全精度模型 需要大量 GPU(通常需要 16 块至少 80GB 显存的 GPU)。
- 量化模型(如 WINT4、W4A8C8 或 WINT2)可大幅降低显存需求。例如,WINT4 或 W4A8C8 可在 4–8×80GB GPU 上运行,而 WINT2 允许单 GPU 部署(需要至少 141GB 显存)。
- Transformers 集成 支持灵活使用,但对于大模型仍需大量显存。
- vLLM 非常适合高吞吐量、多 GPU 推理。量化模型有助于适配可用 GPU 内存。
- 推荐采样参数: Temperature=0.8,Top-P=0.8
如何在 Novita AI 上使用 ERNIE 4.5-300B-A47B
在 Novita AI 上开始使用 ERNIE 4.5-300B-A47B 简单且无风险。新用户可获赠 $10 免费额度——足以在不预先付费的情况下探索 ERNIE 4.5-300B-A47B。
使用 Playground(无需编码)
即时访问:注册,领取免费额度,立即开始使用 ERNIE 4.5 和其他顶级模型进行实验。
交互式界面:测试提示词、思维链推理,并实时可视化结果。
模型对比:在 ERNIE 4.5、Qwen 3、Llama 4、DeepSeek 等模型之间轻松切换,找到最适合您需求的模型。
通过 API 集成(面向开发者)
使用 Novita AI 的统一 REST API,将 ERNIE 4.5 无缝连接到应用程序、工作流程或聊天机器人。无需管理模型权重或担心基础设施——Novita AI 提供多语言 SDK(Python、Node.js、cURL)和高级参数控制。
选项 1:直接 API 集成(Python 示例)
curl "https://api.novita.ai/v3/openai/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer " \
-d @- << 'EOF'
{
"model": "baidu/ernie-4.5-300b-a47b-paddle",
"messages": [
{
"role": "system",
"content": Be a helpful assistant
},
{
"role": "user",
"content": "Hi there!"
}
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # or False
max_tokens = 6000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
"response_format": { "type": "text" },
"max_tokens": 32768,
"temperature": 1,
"top_p": 1,
"min_p": 0,
"top_k": 50,
"presence_penalty": 0,
"frequency_penalty": 0,
"repetition_penalty": 1
}
EOF
选项 2:使用 OpenAI Agents SDK 构建多智能体工作流
通过将 Novita AI 与 OpenAI Agents SDK 集成,构建高级多智能体系统:
- 即插即用: 在任何 OpenAI Agents 工作流中使用 Novita AI 的 ERNIE 4.5
- 支持交接、路由和工具调用: 设计能够委派、分类或运行函数的智能体,全部由 ERNIE 4.5 能力驱动
- Python 集成: 只需将 SDK 指向 Novita 端点(
https://api.novita.ai/v3/openai)并使用您的 API 密钥
在第三方平台上连接 ERNIE 4.5 API
-
Hugging Face : 通过 Novita AI 端点,在 Spaces、pipeline 或 Transformers 库中使用 ERNIE 4.5。
-
智能体与编排框架: 通过官方连接器和逐步集成指南,轻松将 Novita AI 与 Continue、AnythingLLM、LangChain、Dify 和 Langflow 等合作伙伴平台连接。
-
兼容 OpenAI 的 API: 与 Cline 和 Cursor 等工具无缝迁移和集成,这些工具专为 OpenAI API 标准设计。
结论
ERNIE 4.5 是一个多功能、开源的 AI 模型系列,结合了先进的混合专家架构与创新的多模态学习。它在语言和视觉任务上均能提供强大、高效的性能,是下一代 AI 应用的坚实基础。
准备好体验 AI 推理的未来?立即在 Novita AI 上试用 ERNIE 4.5。
Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 轻松部署 AI 模型的方式,同时也提供经济实惠且可靠的 GPU 云,用于构建和扩展应用。
