DeepSeek-R1-0528 与 DeepSeek-R1-0528-Qwen3-8B 现已在 Novita AI 上线

DeepSeek-R1-0528 与 DeepSeek-R1-0528-Qwen3-8B 现已在 Novita AI 上线

DeepSeek 发布了两个突破性模型——DeepSeek-R1-0528DeepSeek-R1-0528-Qwen3-8B,现已在 Novita AI 上线。Novita AI 是一个 AI 云平台,通过简洁的 API 为开发者提供轻松的 AI 模型部署。这些模型以极具竞争力的价格提供卓越的推理能力,相比前代产品性能显著提升。

Novita AI 为两个 DeepSeek-R1-0528 模型提供透明、按用量付费的优惠价格:

DeepSeek-R1-0528(完整模型):

  • 输入 tokens:每百万 $0.7
  • 输出 tokens:每百万 $2.5

DeepSeek-R1-0528-Qwen3-8B(高效的 8B 模型):

  • 输入 tokens:每百万 $0.06
  • 输出 tokens:每百万 $0.09

试用 DeepSeek-R1-0528 Demo

什么是 DeepSeek-R1-0528?

DeepSeek R1 模型进行了小版本升级,当前版本为 DeepSeek-R1-0528。在此最新更新中,DeepSeek R1 通过利用更多计算资源并在后训练阶段引入算法优化机制,显著提升了推理深度和推理能力。

该模型在数学、编程和通用逻辑等多个基准评估中表现出色。其整体性能现已接近 O3 和 Gemini 2.5 Pro 等领先模型。

DeepSeek-R1-0528 的主要改进

🔹 提升的基准性能——涵盖数学、编码和推理任务
🔹 增强的前端能力——带来更好的用户体验
🔹 减少幻觉——输出更可靠
🔹 支持 JSON 输出与函数调用——实现无缝集成

增强的推理深度

与前代版本相比,升级后的模型在处理复杂推理任务方面表现出显著提升。例如,在 AIME 2025 测试中,模型的准确率从前代版本的 70% 提升至当前版本的 87.5%。

这一进步源于推理过程中思考深度的增强:在 AIME 测试集中,前代模型每道题平均使用 12K tokens,而新版本平均每道题使用 23K tokens。

与行业领先者的竞争表现

DeepSeek-R1-0528 在多个具有挑战性的基准测试中展现出卓越的性能,与行业领先模型不相上下:

deepseek r1 0528 benchmark

DeepSeek-R1 vs DeepSeek-R1-0528

数学推理性能

基准测试 DeepSeek R1 DeepSeek R1-0528 提升
AIME 2024 (Pass@1) 79.8 91.4 +11.6
AIME 2025 (Pass@1) 70.0 87.5 +17.5
HMMT 2025 (Pass@1) 41.7 79.4 +37.7
CNMO 2024 (Pass@1) 78.8 86.9 +8.1

编码性能提升

基准测试 DeepSeek R1 DeepSeek R1-0528 提升
LiveCodeBench (Pass@1) 63.5 73.3 +9.8
Codeforces-Div1 (Rating) 1530 1930 +400
SWE Verified (Resolved) 49.2 57.6 +8.4
Aider-Polyglot (Acc.) 53.3 71.6 +18.3

通用推理任务

基准测试 DeepSeek R1 DeepSeek R1-0528 提升
MMLU-Redux (EM) 92.9 93.4 +0.5
MMLU-Pro (EM) 84.0 85.0 +1.0
GPQA-Diamond (Pass@1) 71.5 81.0 +9.5
SimpleQA (Correct) 30.1 27.8 -2.3
FRAMES (Acc.) 82.5 83.0 +0.5
Humanity’s Last Exam (Pass@1) 8.5 17.7 +9.2

新增工具集成能力

DeepSeek-R1-0528 引入了增强的函数调用和工具集成能力:

  • BFCL_v3_MultiTurn (Acc): 37.0%
  • Tau-Bench (Pass@1): 53.5% (航空) / 63.9% (零售)

DeepSeek-R1-0528-Qwen3-8B:紧凑的卓越

DeepSeek 通过蒸馏 DeepSeek-R1-0528 的思维链,基于 Qwen3 8B Base 创建了 DeepSeek-R1-0528-Qwen3-8B。该模型在 AIME 2024 上取得了开源模型中的 最先进(SOTA) 性能,超越 Qwen3-8B +10.0%,并达到 Qwen3-235B-thinking 的性能水平。

这表明,DeepSeek-R1-0528 的思维链对于推理模型的学术研究和小规模模型的工业开发都具有重要意义。

与领先模型的竞争分析

模型 AIME 24 AIME 25 HMMT Feb 25 GPQA Diamond LiveCodeBench
Qwen3-235B-A22B 85.7 81.5 62.5 71.1 66.5
Qwen3-32B 81.4 72.9 - 68.4 -
Qwen3-8B 76.0 67.3 - 62.0 -
Phi-4-Reasoning-Plus-14B 81.3 78.0 53.6 69.3 -
Gemini-2.5-Flash-Thinking-0520 82.3 72.0 64.2 82.8 62.3
o3-mini (medium) 79.6 76.7 53.3 76.8 65.9
DeepSeek-R1-0528-Qwen3-8B 86.0 76.3 61.5 61.1 60.5

使用改进与技术细节

增强的易用性特性

与前代 DeepSeek-R1 相比,DeepSeek-R1-0528 的使用建议包含以下改进:

  • 系统提示支持:与早期版本不同,现在可以使用系统提示提供一致的上下文和指令
  • 自动思考模式:无需手动激活——模型会自动启用推理能力,输出开头不再需要 “ thinking\ ”

DeepSeek-R1-0528-Qwen3-8B 架构

DeepSeek-R1-0528-Qwen3-8B 的模型架构与 Qwen3-8B 完全相同,但使用与 DeepSeek-R1-0528 相同的分词器配置。该模型可以像 Qwen3-8B 一样运行,但请确保所有配置文件来自 DeepSeek 的仓库,而非原始 Qwen3 项目。

为什么开发者选择 Novita AI

简化的 AI 模型部署

  • 无需基础设施烦恼:专注于构建应用,而非管理服务器
  • 即时模型访问:通过单个 API 调用部署最先进的模型
  • 可靠性能:企业级基础设施,99.9% 正常运行时间
  • 全球可用:从世界任何地方低延迟访问

适应任何规模

  • 快速原型开发:凭借即时模型访问快速验证想法
  • 生产就绪:从原型无缝扩展到生产环境
  • 成本高效:透明定价,按实际用量付费
  • 企业级支持:为高流量应用提供专属支持

理想用例

  • 数学 AI 应用:构建在 AIME 2025 上达到 87.5% 准确率的辅导平台
  • 代码生成工具:创建在 LiveCodeBench 上成功率 73.3% 的开发助手
  • 研究平台:部署可与行业领导者竞争的推理模型
  • 教育软件:开发分步解决问题类应用

在 Novita AI 上快速开始

  1. **注册**Novita AI,数秒完成,领取 $10 免费额度
  2. 探索 DeepSeek-R1-0528(完整能力版)或 DeepSeek-R1-0528-Qwen3-8B(高效版)
  3. 在控制台 获取 API 密钥
  4. 发起首次 API 调用——使用我们兼容 OpenAI 的端点
  5. 开始构建——借助行业领先的推理能力

Python 用户示例:

from openai import OpenAI

base_url = "https://api.novita.ai/v3/openai"
api_key = "<Your API Key>"
model = "deepseek/deepseek-r1-0528"

client = OpenAI(
    base_url=base_url,
    api_key=api_key,
)

stream = True # or False
max_tokens = 1000

response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    extra_body={
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

总结

DeepSeek-R1-0528 系列模型以极具竞争力的价格提供行业领先的性能——在 AIME 2024 上达到 91.4%,在 LiveCodeBench 上达到 73.3%,与 OpenAI-o3 和 Gemini-2.5-Pro 的能力相媲美。

通过 Novita AI 的开发者友好平台,您可以立即访问这些尖端模型,无需顾虑基础设施复杂性。凭借透明定价、$10 免费额度 和直观的 API,将世界级推理能力集成到您的应用中从未如此简单。

Novita AI 是一个 AI 云平台,为开发者提供通过简洁 API 轻松部署 AI 模型的方式,同时提供经济可靠、面向 GPU 云的服务,用于构建和扩展应用。