百度 ERNIE 4.5 MoE 模型 API 现已上线 Novita AI

什么是 ERNIE 4.5？
性能与能力
技术创新
部署与集成
如何在 Novita AI 上使用 ERNIE 4.5-300B-A47B
结论

百度最先进的开源混合专家（MoE）模型 ERNIE 4.5 现已上线 Novita AI！

以下是 ERNIE 4.5 在 Novita AI 上的当前定价：

baidu/ernie-4.5-vl-28b-a3b ： 30k 上下文，免费

baidu/erine-4.5–21B-a3b ： 120k 上下文，免费

baidu/erine-4.5–0.3b ： 120k 上下文，免费

baidu/erine-4.5-vl-424b-a47b ： 123k 上下文，输入 $0.42/M tokens，输出 $1.25/M tokens

baidu/ernie-4.5–300b-a47b-paddle ： 123k 上下文，输入 $0.3/M tokens，输出 $1/M tokens

立即试用 ERNIE-4.5-300B-A47B 演示

什么是 ERNIE 4.5？

ERNIE 4.5 是百度最新的开源模型系列，包含 10 个不同模型。该系列包括激活参数为 470 亿和 30 亿的混合专家（MoE）模型——最大模型总参数达到 4240 亿——以及一个参数为 3 亿的密集模型。

架构创新： 这些模型采用了 ** 创新的多模态异构模型结构** ，通过跨模态参数共享机制实现跨模态知识融合，同时保留各模态的专用参数空间。这种架构非常适合从大语言模型到多模态模型的持续预训练范式，在保持甚至提升文本任务性能的同时，显著增强了多模态理解能力。

框架与训练： 所有 ERNIE 4.5 系列模型均使用 PaddlePaddle 深度学习框架 ** 进行高效的训练、推理和部署。在大语言模型预训练阶段， 模型 FLOPs 利用率（MFU）达到 47%**。

性能与能力

基准测试成就： 实验结果表明，该模型系列在多个文本和多模态基准测试中取得了 ** 最先进的（SOTA）性能** ，尤其在以下方面表现突出：

指令遵循 — 理解和执行复杂指令
世界知识记忆 — 全面的事实知识存储与检索
视觉理解 — 先进的图像理解能力
多模态推理任务 — 跨文本和视觉输入的复杂推理

模型规格（ERNIE-4.5-300B-A47B）：

总参数： 300B，每个 Token 激活 47B
架构： 54 层，64 个查询头 / 8 个键值头
专家配置： 64 个文本专家（8 个激活）/ 64 个视觉专家（8 个激活）
上下文长度： 131,072 tokens
模态： 支持多模态训练的文本

可及性与部署：

Apache 2.0 许可证 — 模型权重开源，适用于学术研究和工业应用
工业级开发工具包 — 基于 PaddlePaddle 全面套件，支持 ERNIEKit
广泛的芯片兼容性 — 兼容多种硬件平台，降低后训练和部署门槛
出色的推理性能 — 多种部署选项，包括 FastDeploy、Transformers 和 vLLM 集成
灵活的量化 — 支持 4-bit、2-bit 和 FP8 选项，适应不同资源约束

技术创新

多模态混合专家模型预训练

方法： ERNIE 4.5 在 ** 文本和视觉模态之间进行联合训练** ，以更好地捕捉多模态信息的细微差异，提升文本生成、图像理解和多模态推理任务的性能。

创新： 为了在学习过程中实现两种模态的相互增强，同时防止一种模态阻碍另一种模态的学习，百度提出了一种 ** 多模态异构混合专家模型结构** ，具有：

模态隔离路由 用于专门的专家分配
路由器正交损失 以增强专家专业化
多模态 Token 平衡损失 以优化跨模态的资源利用

高级优化： 这些架构选择确保两种模态都能被有效表示，从而在训练过程中实现 ** 多模态相互促进和改进**。

高效训练与推理框架

训练优化： 为了支持 ERNIE 4.5 模型的高效训练，百度提出了 ** 异构混合并行和层次化负载均衡策略**。通过多种先进技术，它们显著提高了预训练吞吐量：

节点内专家并行 — 计算节点内的优化并行处理
内存高效的流水线调度 — 训练期间的智能内存管理
FP8 混合精度训练 — 先进的数值精度技术
细粒度重计算 — 用于内存效率的策略性重计算

推理突破： 在推理优化方面，他们提出了几种前沿方法：

多专家并行协作方法 — 跨模型专家的协作处理
卷积代码量化算法 — 用于压缩的高级编码技术
**近乎无损的量化 **：实现 4-bit 量化和 2-bit 量化 ，性能下降极小
PD 分离与动态角色切换 — 自适应部署，能更充分利用资源并提升 ERNIE 4.5 MoE 模型的推理性能

模态特定后训练

量身定制优化： 为了满足实际场景中的不同需求，百度对预训练模型进行了 ** 模态特定的微调**：

大语言模型（LLM）：

针对 通用语言理解和生成 进行专门优化

视觉语言模型（VLM）：

专注于 视觉语言理解
支持 思考模式 ** 和 ** 非思考模式 操作

多阶段训练流程： 每个模型均采用 ** 多阶段后训练** ，结合先进技术：

SFT（监督微调） — 从监督示例中学习
DPO（直接偏好优化） — 基于偏好直接优化
UPO（统一偏好优化） — 百度专有的统一偏好优化技术

部署与集成

ERNIE-4.5 模型可使用 FastDeploy、Hugging Face Transformers 或 vLLM 进行部署。不同的量化级别和服务框架使模型能够在各种硬件配置上高效运行：

全精度模型 需要大量 GPU（通常需要 16 块至少 80GB 显存的 GPU）。
量化模型（如 WINT4、W4A8C8 或 WINT2）可大幅降低显存需求。例如，WINT4 或 W4A8C8 可在 4–8×80GB GPU 上运行，而 WINT2 允许单 GPU 部署（需要至少 141GB 显存）。
Transformers 集成 支持灵活使用，但对于大模型仍需大量显存。
vLLM 非常适合高吞吐量、多 GPU 推理。量化模型有助于适配可用 GPU 内存。
推荐采样参数： Temperature=0.8，Top-P=0.8

如何在 Novita AI 上使用 ERNIE 4.5-300B-A47B

在 Novita AI 上开始使用 ERNIE 4.5-300B-A47B 简单且无风险。新用户可获赠 $10 免费额度——足以在不预先付费的情况下探索 ERNIE 4.5-300B-A47B。

使用 Playground（无需编码）

即时访问：注册，领取免费额度，立即开始使用 ERNIE 4.5 和其他顶级模型进行实验。

交互式界面：测试提示词、思维链推理，并实时可视化结果。

模型对比：在 ERNIE 4.5、Qwen 3、Llama 4、DeepSeek 等模型之间轻松切换，找到最适合您需求的模型。

通过 API 集成（面向开发者）

使用 Novita AI 的统一 REST API，将 ERNIE 4.5 无缝连接到应用程序、工作流程或聊天机器人。无需管理模型权重或担心基础设施——Novita AI 提供多语言 SDK（Python、Node.js、cURL）和高级参数控制。

选项 1：直接 API 集成（Python 示例）

curl "https://api.novita.ai/v3/openai/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer " \
  -d @- << 'EOF'
{
    "model": "baidu/ernie-4.5-300b-a47b-paddle",
    "messages": [
        {
            "role": "system",
            "content": Be a helpful assistant
        },
        {
            "role": "user",
            "content": "Hi there!"
        }
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # or False
max_tokens = 6000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
      "response_format": { "type": "text" },
    "max_tokens": 32768,
    "temperature": 1,
    "top_p": 1,
    "min_p": 0,
    "top_k": 50,
    "presence_penalty": 0,
    "frequency_penalty": 0,
    "repetition_penalty": 1
}
EOF

选项 2：使用 OpenAI Agents SDK 构建多智能体工作流

通过将 Novita AI 与 OpenAI Agents SDK 集成，构建高级多智能体系统：

即插即用： 在任何 OpenAI Agents 工作流中使用 Novita AI 的 ERNIE 4.5
支持交接、路由和工具调用： 设计能够委派、分类或运行函数的智能体，全部由 ERNIE 4.5 能力驱动
Python 集成： 只需将 SDK 指向 Novita 端点（ https://api.novita.ai/v3/openai ）并使用您的 API 密钥

在第三方平台上连接 ERNIE 4.5 API

Hugging Face ：通过 Novita AI 端点，在 Spaces、pipeline 或 Transformers 库中使用 ERNIE 4.5。
智能体与编排框架： 通过官方连接器和逐步集成指南，轻松将 Novita AI 与 Continue、AnythingLLM、LangChain、Dify 和 Langflow 等合作伙伴平台连接。
兼容 OpenAI 的 API： 与 Cline 和 Cursor 等工具无缝迁移和集成，这些工具专为 OpenAI API 标准设计。

结论

ERNIE 4.5 是一个多功能、开源的 AI 模型系列，结合了先进的混合专家架构与创新的多模态学习。它在语言和视觉任务上均能提供强大、高效的性能，是下一代 AI 应用的坚实基础。

准备好体验 AI 推理的未来？立即在 Novita AI 上试用 ERNIE 4.5。

Novita AI 是一个 AI 云平台，为开发者提供通过简单 API 轻松部署 AI 模型的方式，同时也提供经济实惠且可靠的 GPU 云，用于构建和扩展应用。

百度 ERNIE 4.5 MoE 模型 API 现已上线 Novita AI

什么是 ERNIE 4.5？

性能与能力