ERNIE-4.5 思维模型:百度21B MoE模型仅激活3B参数,性能提升7倍

ERNIE-4.5 思维模型:百度21B MoE模型仅激活3B参数,性能提升7倍

ERNIE-4.5-21B-A3B-Thinking现已上线Novita AI平台,通过我们面向开发者的友好基础设施,将百度突破性的思维推理能力带给开发者和企业。这款百度最新发布的模型是轻量级AI模型的重大突破,具备更深的推理深度和更高的推理质量,远超前代产品。

得益于高效的混合专家(Mixture-of-Experts, MoE)架构,该模型总参数量达21B,但每处理一个token仅激活3B参数,仅需轻量级资源即可实现顶级性能表现。

无论您是开发复杂的推理应用、构建数学求解器,还是探索前沿AI能力,Novita AI平台上的ERNIE-4.5-21B-A3B-Thinking模型都能通过我们优化的基础设施和便捷的集成选项,简化您的开发流程。

Novita AI平台当前定价: 131072 token上下文窗口,输入token每百万0.07美元,输出token每百万0.28美元

试用ERNIE-4.5-21B-A3B-Thinking演示

什么是ERNIE-4.5-21B-A3B-Thinking?

ERNIE-4.5-21B-A3B-Thinking是百度突破性ERNIE 4.5系列中的一款基于文本的混合专家(MoE)后训练模型,该系列共包含10款不同模型。这款模型在AI思维推理能力上实现了重大进化,总参数量达21B,每处理一个token仅激活3B参数。

相比前代版本,该模型有三项核心升级:

增强的思维推理能力: ERNIE-4.5-21B-A3B-Thinking在逻辑推理、数学、科学、编程、文本生成以及通常需要人类专业知识的学术基准等推理任务上的表现大幅提升。该模型的思维链长度更长,在处理高度复杂的推理任务时表现尤为出色。

高效的工具有效利用能力: 该模型在工具调用和函数调用方面表现优异,非常适合基于智能体的应用场景。它能够与外部系统和API无缝集成,适配各类实际应用需求。

扩展的上下文理解能力: 得益于增强的128K长上下文理解能力(共131072个token),ERNIE-4.5-21B-A3B-Thinking能够处理超长文档、大型代码库和复杂的多轮对话,不会丢失上下文信息或降低准确率。

ERNIE-4.5-21B-A3B-Thinking采用了先进的后训练技术,包括SFT(监督微调,Supervised Fine-Tuning)、DPO(直接偏好优化,Direct Preference Optimization)以及百度自研的UPO(统一偏好优化,Unified Preference Optimization)。该模型发布了Transformer架构的权重,以适配更广泛的开发者社区,确保与PyTorch和PaddlePaddle生态(包括vLLM和FastDeploy)完全兼容。这种广泛的兼容性使其能够轻松集成到现有工作流中,同时仅需80GB×1块GPU即可满足计算效率要求。

在Novita AI Playground中探索ERNIE-4.5-21B-A3B-Thinking →

模型规格参数

ERNIE-4.5-21B-A3B-Thinking采用了先进的混合专家架构,在性能和效率之间做了深度优化。该模型的设计支持针对每个token选择性激活最相关的专家,在能力和计算成本之间实现了最佳平衡。

核心规格参数:

  • 总参数量: 21B
  • 单token激活参数量: 3B
  • 层数: 28
  • 注意力头数: 20个查询头 / 4个键值头
  • 文本专家数: 共64个,单token激活6个
  • 共享专家数: 2
  • 上下文长度: 131072个token
  • 最大输出长度: 65536个token
  • 输入/输出能力: 文本
  • 训练阶段: 后训练
  • 提供方: 百度
  • 许可证: Apache 2.0
  • 量化方式: FP8
  • GPU需求: 80GB×1块GPU
  • 推理支持:

ERNIE-4.5-21B-A3B-Thinking的MoE架构是高效AI设计的重大突破,继承了ERNIE 4.5系列的多项创新技术,包括模态隔离路由(modality-isolated routing)和路由器正交损失(router orthogonal loss)技术。该模型每token仅激活3B参数,同时可调用全部21B参数的能力,无需承担通常的高额计算开销,即可提供企业级性能。

该模型131072 token的上下文窗口和65536 token的最大输出能力,支持处理超长文档并生成全面的回复,非常适合复杂的分析任务、长文本内容生成和详细的技术文档编写场景。

性能亮点

作为ERNIE 4.5系列的一员,ERNIE-4.5-21B-A3B-Thinking在多个领域表现优异,取得了业界领先(SOTA)的成绩。该模型增强的思维推理能力和更深的推理深度,使其在处理需要多步分析和复杂问题求解的任务时表现尤为突出。

ERNIE-4.5-21B-A3B-Thinking benchmark

核心性能优势包括:

  • 逻辑推理: ERNIE-4.5-21B-A3B-Thinking擅长复杂的逻辑演绎任务,在谜题、三段论以及需要严谨分析和系统性思维的多步推理问题上表现远超同类模型。
  • 数学能力: 该模型具备先进的数学问题求解能力,可高精度处理从基础算术到高等微积分、线性代数以及抽象数学概念等各类问题。
  • 科学推理: 增强的科学推理和分析能力使ERNIE-4.5-21B-A3B-Thinking能够应对物理、化学、生物等科学领域的问题,提供详细的解释和准确的解决方案。
  • 编程能力: 该模型在多种编程语言上的代码生成和调试能力大幅提升,能够编写、分析和优化代码,同时清晰解释编程概念和最佳实践。
  • 文本生成: 高质量的自然语言生成能力使ERNIE-4.5-21B-A3B-Thinking非常适合创意写作、技术文档编写以及需要细腻理解和表达的内容创作任务。
  • 学术基准测试: 该模型在需要人类专业水平的基准测试中表现优异,足以支撑专业和学术类应用场景。

在Novita AI Playground中测试ERNIE-4.5-21B-A3B-Thinking的能力 →

在Novita AI平台开始使用ERNIE-4.5-21B-A3B-Thinking

Novita AI提供了多种接入ERNIE-4.5-21B-A3B-Thinking的路径,适配不同技术水平和使用场景。无论您是探索AI能力的企业用户,还是构建生产级应用的开发者,我们的平台都能提供您需要的工具和灵活性。

使用Playground(现已开放,无需编码)

Novita AI Playground是体验ERNIE-4.5-21B-A3B-Thinking能力的最快方式,无需任何技术配置:

即时访问: 注册后即可在数秒内开始试用ERNIE-4.5-21B-A3B-Thinking,初始测试无需API密钥或任何配置。

交互式界面: 通过我们直观的网页界面实时测试提示词并可视化输出结果。您可以调整温度(默认0.7)、最大token数(最高65536)、系统提示词等参数,直观感受参数对模型输出的影响。

模型配置: 您可以微调响应格式、温度、top-p、min-p、top-k、存在惩罚、频率惩罚和重复惩罚等参数,针对您的具体使用场景优化输出效果。

Playground非常适合在全面落地前进行原型验证、想法测试和模型能力评估。您可以将验证成功的提示词和配置直接导出为代码,无缝过渡到生产环境。

开始在Playground中测试ERNIE-4.5-21B-A3B-Thinking →

通过API集成(已正式上线,面向开发者)

针对生产级部署,Novita AI提供了稳定的ERNIE-4.5-21B-A3B-Thinking API接入服务,通过OpenAI兼容的端点提供企业级可靠性和性能。

直接API集成(Python示例)

通过我们OpenAI兼容的API将ERNIE-4.5-21B-A3B-Thinking接入您的应用:

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="",
)

model = "baidu/ernie-4.5-21B-a3b-thinking"
stream = True # or False
max_tokens = 32768
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

此外还提供TypeScript、Java、Go和Shell的SDK支持,可无缝适配不同技术栈的集成需求。

基于OpenAI Agents SDK的多智能体工作流

构建利用ERNIE-4.5-21B-A3B-Thinking增强推理能力的复杂多智能体系统:

  • 即插即用集成: 无需修改即可在任何OpenAI Agents工作流中使用ERNIE-4.5-21B-A3B-Thinking
  • 高级智能体能力: 完全支持交接、路由和工具集成,适配复杂工作流
  • 函数调用: 支持使用JsonSchema定义实现结构化交互和工具调用

部署选项

Novita AI提供灵活的部署选项,适配您的具体需求和使用模式。

无服务器API

ERNIE-4.5-21B-A3B-Thinking已上线Novita无服务器API,可即时接入,按token计费:

  • 无需配置: 无需管理基础设施,即可立即使用该模型
  • 按量付费: 输入token每百万0.07美元,输出token每百万0.28美元
  • OpenAI兼容端点: 可直接替换现有OpenAI集成,无需修改代码
  • 自动扩缩容: 无需容量规划,即可应对波动的负载需求

按需部署

针对高吞吐量或低延迟敏感的应用场景,按需部署可提供专属资源:

  • 高性能服务栈: 优化的推理引擎,实现最高吞吐量
  • 高可靠性: 专属GPU资源保障性能稳定
  • 无速率限制: 可根据需求自由扩展,无人工限制
  • GPU需求: 80GB显存(推荐使用NVIDIA A100 80GB或H100 80GB以获得最佳性能)

对接第三方平台

Novita AI平台上的ERNIE-4.5-21B-A3B-Thinking可与您现有的开发生态系统无缝集成:

开发工具: 通过OpenAI兼容的API,可直接与Cursor、Cline、Continue、Codex、通义千问代码(Qwen Code)等主流IDE和开发环境集成。

编排框架: 通过官方连接器原生支持LangChain、Dify、CrewAI、Langflow及其他AI编排平台。

Hugging Face集成: 作为Hugging Face官方推理服务提供商,Novita AI保障广泛的生态兼容性,支持轻松部署模型。

总结

Novita AI平台上的ERNIE-4.5-21B-A3B-Thinking是高效AI推理领域的重大突破,通过我们可靠、可扩展的平台,为开发者和企业提供百度最先进的思维推理能力。

该模型集增强的推理深度、高效的工具有效利用和131K上下文理解能力于一体,是复杂推理任务的理想选择。仅需3B激活参数即可实现21B参数级的性能,且仅需80GB GPU显存,ERNIE-4.5-21B-A3B-Thinking在能力和效率之间实现了无与伦比的平衡。

准备好体验ERNIE-4.5-21B-A3B-Thinking的强大能力了吗?我们的Playground提供即时访问,无需任何配置,非常适合探索模型能力并测试您的使用场景。您可以通过交互式界面先了解模型的优势,准备好生产级部署时再无缝过渡到API集成。

立即在Novita AI Playground中使用ERNIE-4.5-21B-A3B-Thinking →

仅需每百万输入token 0.07美元,即可用先进的AI推理能力改造您的项目。数秒即可开始探索!

Novita AI 是一个AI云平台,为开发者提供简单的API来部署AI模型,同时提供高性价比、可靠的GPU云服务,支持AI应用的构建和扩展。