百度 ERNIE 4.5 MoE 模型 API 现已上线 Novita AI

百度 ERNIE 4.5 MoE 模型 API 现已上线 Novita AI

百度最先进的开源混合专家(MoE)模型 ERNIE 4.5 现已上线 Novita AI!

以下是 ERNIE 4.5 在 Novita AI 上的当前定价:

baidu/ernie-4.5-vl-28b-a3b 30k 上下文,免费

baidu/erine-4.5–21B-a3b 120k 上下文,免费

baidu/erine-4.5–0.3b 120k 上下文,免费

baidu/erine-4.5-vl-424b-a47b 123k 上下文,输入 $0.42/M tokens,输出 $1.25/M tokens

baidu/ernie-4.5–300b-a47b-paddle 123k 上下文,输入 $0.3/M tokens,输出 $1/M tokens

立即试用 ERNIE-4.5-300B-A47B 演示

什么是 ERNIE 4.5?

ERNIE 4.5 是百度最新的开源模型系列,包含 10 个不同模型。该系列包括激活参数为 470 亿和 30 亿的混合专家(MoE)模型——最大模型总参数达到 4240 亿——以及一个参数为 3 亿的密集模型。

erine family

架构创新: 这些模型采用了 ** 创新的多模态异构模型结构** ,通过跨模态参数共享机制实现跨模态知识融合,同时保留各模态的专用参数空间。这种架构非常适合从大语言模型到多模态模型的持续预训练范式,在保持甚至提升文本任务性能的同时,显著增强了多模态理解能力。

框架与训练: 所有 ERNIE 4.5 系列模型均使用 PaddlePaddle 深度学习框架 ** 进行高效的训练、推理和部署。在大语言模型预训练阶段, 模型 FLOPs 利用率(MFU)达到 47%**。

性能与能力

基准测试成就: 实验结果表明,该模型系列在多个文本和多模态基准测试中取得了 ** 最先进的(SOTA)性能** ,尤其在以下方面表现突出:

ernie 4.5 benchmark

  • 指令遵循 — 理解和执行复杂指令
  • 世界知识记忆 — 全面的事实知识存储与检索
  • 视觉理解 — 先进的图像理解能力
  • 多模态推理任务 — 跨文本和视觉输入的复杂推理

模型规格(ERNIE-4.5-300B-A47B):

  • 总参数: 300B,每个 Token 激活 47B
  • 架构: 54 层,64 个查询头 / 8 个键值头
  • 专家配置: 64 个文本专家(8 个激活)/ 64 个视觉专家(8 个激活)
  • 上下文长度: 131,072 tokens
  • 模态: 支持多模态训练的文本

可及性与部署:

  • Apache 2.0 许可证 — 模型权重开源,适用于学术研究和工业应用
  • 工业级开发工具包 — 基于 PaddlePaddle 全面套件,支持 ERNIEKit
  • 广泛的芯片兼容性 — 兼容多种硬件平台,降低后训练和部署门槛
  • 出色的推理性能 — 多种部署选项,包括 FastDeploy、Transformers 和 vLLM 集成
  • 灵活的量化 — 支持 4-bit、2-bit 和 FP8 选项,适应不同资源约束

技术创新

多模态混合专家模型预训练

方法: ERNIE 4.5 在 ** 文本和视觉模态之间进行联合训练** ,以更好地捕捉多模态信息的细微差异,提升文本生成、图像理解和多模态推理任务的性能。

创新: 为了在学习过程中实现两种模态的相互增强,同时防止一种模态阻碍另一种模态的学习,百度提出了一种 ** 多模态异构混合专家模型结构** ,具有:

  • 模态隔离路由 用于专门的专家分配
  • 路由器正交损失 以增强专家专业化
  • 多模态 Token 平衡损失 以优化跨模态的资源利用

高级优化: 这些架构选择确保两种模态都能被有效表示,从而在训练过程中实现 ** 多模态相互促进和改进**。

高效训练与推理框架

训练优化: 为了支持 ERNIE 4.5 模型的高效训练,百度提出了 ** 异构混合并行和层次化负载均衡策略**。通过多种先进技术,它们显著提高了预训练吞吐量:

  • 节点内专家并行 — 计算节点内的优化并行处理
  • 内存高效的流水线调度 — 训练期间的智能内存管理
  • FP8 混合精度训练 — 先进的数值精度技术
  • 细粒度重计算 — 用于内存效率的策略性重计算

推理突破: 在推理优化方面,他们提出了几种前沿方法:

  • 多专家并行协作方法 — 跨模型专家的协作处理
  • 卷积代码量化算法 — 用于压缩的高级编码技术
  • **近乎无损的量化 **:实现 4-bit 量化和 2-bit 量化 ,性能下降极小
  • PD 分离与动态角色切换 — 自适应部署,能更充分利用资源并提升 ERNIE 4.5 MoE 模型的推理性能

模态特定后训练

量身定制优化: 为了满足实际场景中的不同需求,百度对预训练模型进行了 ** 模态特定的微调**:

大语言模型(LLM):

  • 针对 通用语言理解和生成 进行专门优化

视觉语言模型(VLM):

  • 专注于 视觉语言理解
  • 支持 思考模式 ** 和 ** 非思考模式 操作

多阶段训练流程: 每个模型均采用 ** 多阶段后训练** ,结合先进技术:

  • SFT(监督微调) — 从监督示例中学习
  • DPO(直接偏好优化) — 基于偏好直接优化
  • UPO(统一偏好优化) — 百度专有的统一偏好优化技术

部署与集成

ERNIE-4.5 模型可使用 FastDeploy、Hugging Face Transformers 或 vLLM 进行部署。不同的量化级别和服务框架使模型能够在各种硬件配置上高效运行:

  • 全精度模型 需要大量 GPU(通常需要 16 块至少 80GB 显存的 GPU)。
  • 量化模型(如 WINT4、W4A8C8 或 WINT2)可大幅降低显存需求。例如,WINT4 或 W4A8C8 可在 4–8×80GB GPU 上运行,而 WINT2 允许单 GPU 部署(需要至少 141GB 显存)。
  • Transformers 集成 支持灵活使用,但对于大模型仍需大量显存。
  • vLLM 非常适合高吞吐量、多 GPU 推理。量化模型有助于适配可用 GPU 内存。
  • 推荐采样参数: Temperature=0.8,Top-P=0.8

如何在 Novita AI 上使用 ERNIE 4.5-300B-A47B

在 Novita AI 上开始使用 ERNIE 4.5-300B-A47B 简单且无风险。新用户可获赠 $10 免费额度——足以在不预先付费的情况下探索 ERNIE 4.5-300B-A47B。

使用 Playground(无需编码)

即时访问注册,领取免费额度,立即开始使用 ERNIE 4.5 和其他顶级模型进行实验。

交互式界面:测试提示词、思维链推理,并实时可视化结果。

模型对比:在 ERNIE 4.5、Qwen 3、Llama 4、DeepSeek 等模型之间轻松切换,找到最适合您需求的模型。

通过 API 集成(面向开发者)

使用 Novita AI 的统一 REST API,将 ERNIE 4.5 无缝连接到应用程序、工作流程或聊天机器人。无需管理模型权重或担心基础设施——Novita AI 提供多语言 SDK(Python、Node.js、cURL)和高级参数控制。

选项 1:直接 API 集成(Python 示例)

curl "https://api.novita.ai/v3/openai/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer " \
  -d @- << 'EOF'
{
    "model": "baidu/ernie-4.5-300b-a47b-paddle",
    "messages": [
        {
            "role": "system",
            "content": Be a helpful assistant
        },
        {
            "role": "user",
            "content": "Hi there!"
        }
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # or False
max_tokens = 6000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
      "response_format": { "type": "text" },
    "max_tokens": 32768,
    "temperature": 1,
    "top_p": 1,
    "min_p": 0,
    "top_k": 50,
    "presence_penalty": 0,
    "frequency_penalty": 0,
    "repetition_penalty": 1
}
EOF
  
 

选项 2:使用 OpenAI Agents SDK 构建多智能体工作流

通过将 Novita AI 与 OpenAI Agents SDK 集成,构建高级多智能体系统:

  • 即插即用: 在任何 OpenAI Agents 工作流中使用 Novita AI 的 ERNIE 4.5
  • 支持交接、路由和工具调用: 设计能够委派、分类或运行函数的智能体,全部由 ERNIE 4.5 能力驱动
  • Python 集成: 只需将 SDK 指向 Novita 端点( https://api.novita.ai/v3/openai )并使用您的 API 密钥

在第三方平台上连接 ERNIE 4.5 API

  • Hugging Face 通过 Novita AI 端点,在 Spaces、pipeline 或 Transformers 库中使用 ERNIE 4.5。

  • 智能体与编排框架: 通过官方连接器和逐步集成指南,轻松将 Novita AI 与 ContinueAnythingLLMLangChainDifyLangflow 等合作伙伴平台连接。

  • 兼容 OpenAI 的 API:ClineCursor 等工具无缝迁移和集成,这些工具专为 OpenAI API 标准设计。

结论

ERNIE 4.5 是一个多功能、开源的 AI 模型系列,结合了先进的混合专家架构与创新的多模态学习。它在语言和视觉任务上均能提供强大、高效的性能,是下一代 AI 应用的坚实基础。

准备好体验 AI 推理的未来?立即在 Novita AI 上试用 ERNIE 4.5

Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 轻松部署 AI 模型的方式,同时也提供经济实惠且可靠的 GPU 云,用于构建和扩展应用。