什么是 DeepSeek-V4-Flash？
核心优势：DeepSeek-V4-Flash 为何脱颖而出
基准测试表现
如何通过 Novita AI 使用 DeepSeek-V4-Flash
定价
推荐使用场景
常见问题
立即开始使用 DeepSeek-V4-Flash
推荐阅读

Novita AI 支持的 DeepSeek-V4-Flash：1M 上下文窗口，输入仅 $0.14/百万 token

大多数具备推理能力的开源模型都要求用户做取舍：要么上下文窗口小，要么吞吐量低，要么一开启扩展推理，价格就飙升至每百万 token 超过 1 美元。DeepSeek-V4-Flash 完全规避了这些痛点——总参数 284B，每次推理仅激活 13B 参数，原生支持 1,048,576 token 的上下文窗口，还提供三种可切换的推理模式。输入价格仅需 $0.14/百万 token，在推理类模型中几乎找不到同价位竞品。

简而言之：DeepSeek-V4-Flash 是 DeepSeek AI 推出的 MoE 模型，为需要高吞吐量、又不想支付闭源模型高额费用的开发者，带来了 1M token 上下文窗口和可调节的推理深度。从今天起，用户已可通过 Novita AI API 使用该模型。

点击此处

什么是 DeepSeek-V4-Flash？

DeepSeek-V4-Flash 是 DeepSeek AI 推出的混合专家（MoE）语言模型，属于 DeepSeek-V4 系列，与更大的 DeepSeek-V4-Pro 同期发布。该模型总参数达 284B，推理时仅激活 13B 参数——在保持大模型参数容量的同时，将单 token 计算成本控制在极低水平。

核心能力一览：

总参数 284B / 推理激活 13B — MoE 架构，推理成本低
1,048,576 token 上下文窗口（1M token）— 由混合注意力架构实现
三种推理模式： 无思考（快速）、思考（分步推理）、思考最大化（最高推理预算）
支持函数调用 — 工具调用、结构化输出、JSON 模式
基于 32T+ token 训练，采用多阶段后训练流程（SFT、基于 GRPO 的强化学习、同策略蒸馏）
MIT 许可证 — 权重可在 HuggingFace 下载，允许商用
FP4 + FP8 混合精度 — MoE 专家权重采用 FP4，其余层采用 FP8

核心优势：DeepSeek-V4-Flash 为何脱颖而出

无需切换模型即可选择推理深度

大多数模型仅支持单一推理模式：要么开启推理，要么关闭。DeepSeek-V4-Flash 在同一个 API 端点下提供三种不同的运行模式：

模式	特性	适用场景
无思考模式	速度快，无思维链	高吞吐量任务、对话、摘要生成
思考模式	分步推理，平衡速度与质量	复杂问答、代码生成、分析任务
思考最大化模式	最高推理预算	数学竞赛、高难度编码任务、基准测试

不同模式的性能差距非常显著：在 GPQA Diamond 测试中，V4-Flash 无思考模式得分 71.2，思考模式为 87.4，思考最大化模式为 88.1。在 LiveCodeBench 测试中，思考最大化模式得分达 91.6，而无思考模式仅为 55.2。你可以根据每次请求的需求在成本和效果之间做选择，无需调整任何基础设施。

混合注意力架构实现 1M token 上下文窗口

原生支持百万 token 上下文比听起来难得多。DeepSeek-V4-Flash 通过专门设计的混合注意力架构实现了这一目标，该架构结合了两种机制：

压缩稀疏注意力（CSA） — 大幅降低长序列的注意力计算开销
高度压缩注意力（HCA） — 压缩 KV 缓存占用，支持 1M 上下文推理

最终效果是：处理 1M token 输入时，推理的浮点运算次数（FLOP）和内存成本都处于可控范围。对于代码库分析、法律文档审阅、长会话智能体等场景，该架构直接决定了任务是否可行。

MoE 效率：284B 参数规模下仅激活 13B

284B/13B 的激活比例正是其成本效率的来源。每次前向传播仅激活 13B 参数，使得延迟和单 token 成本接近 13B 参数的稠密模型——而完整的 284B 参数池提供了与更大规模稠密网络相当的知识容量。FP4 + FP8 混合精度进一步降低了专家权重的内存带宽压力。

强大的后训练流程

DeepSeek-V4-Flash 采用两阶段后训练流程：首先通过 SFT 和基于 GRPO 的强化学习进行领域专属专家培养；然后通过同策略蒸馏完成统一模型整合。最终产出的单一模型在编码、推理和通用知识领域具备差异化的能力表现，而非通用的指令跟随模型。

基准测试表现

DeepSeek-V4-Flash 的基准测试表现核心在于推理模式的选择。在无思考模式下，它的表现和高效的 13B 激活模型相当；切换到思考最大化模式后，则会完全跃升至另一个性能层级。

DeepSeek-V4-Flash 各模式性能对比前沿模型 [来源：DeepSeek AI / HuggingFace]

各推理模式性能表现

以下是 V4-Flash 在关键基准测试中的得分，对比了全部三种运行模式：

基准测试	V4-Flash 无思考	V4-Flash 思考	V4-Flash 思考最大化
LiveCodeBench (Pass@1)	55.2	88.4	91.6
GPQA Diamond (Pass@1)	71.2	87.4	88.1
HMMT 2026 年 2 月 (Pass@1)	40.8	91.9	94.8
IMOAnswerBench (Pass@1)	41.9	85.1	88.4
Codeforces 评分	—	2816	3052
SWE Verified (已解决)	73.7	78.6	79.0
MRCR 1M (MMR)	37.5	76.9	78.7
MCPAtlas (Pass@1)	64.0	67.4	69.0
MMLU-Pro (EM)	83.0	86.4	86.2

最后验证时间：2026-04-27。来源：DeepSeek-V4 技术报告与 HuggingFace 模型卡片。

V4-Flash 与竞品对比

V4-Flash 思考最大化模式（SWE Verified 79.0 分，LiveCodeBench 91.6 分）的表现足以媲美单 token 成本高得多的模型。它并非所有基准测试都排名第一——V4-Pro Max 在多数前沿基准测试中领先——但对于关注单任务成本而非原始峰值性能的开发者来说，这种取舍非常划算：

基准测试	V4-Flash 最大值	V4-Pro Max	Claude Opus 4.6 Max	Gemini 3.1 Pro 高配版
LiveCodeBench (Pass@1)	91.6	93.5	88.8	91.7
GPQA Diamond (Pass@1)	88.1	90.1	91.3	94.3
SWE Verified (已解决)	79.0	80.6	80.8	80.6
HMMT 2026 年 2 月 (Pass@1)	94.8	95.2	96.2	94.7
MRCR 1M (MMR)	78.7	83.5	92.9	76.3

最后验证时间：2026-04-27。Claude Opus 4.6 Max 和 Gemini 3.1 Pro 高配版的分数来自 DeepSeek-V4 技术报告（V4-Pro 前沿对比表格）。这些分数并非在该报告中与 V4-Flash 进行头对头测试得出的。

值得注意的是，V4-Flash 思考最大化模式在 MRCR 1M（78.7 分）的长上下文检索任务中超过了 Gemini 3.1 Pro 高配版（76.3 分）——该基准测试最直接对应 1M 上下文的使用场景。在 SWE Verified 测试中，四款模型的得分都集中在 79-81 分区间，使得 V4-Flash 在真实编码智能体场景中，以远低于闭源模型的价格具备了竞争力。

如何通过 Novita AI 使用 DeepSeek-V4-Flash

选项 1：在线 playground（无需代码）

你可以在浏览器中直接访问 Novita AI 模型控制台测试该模型。无需 API 密钥即可开始使用，通过聊天界面即可切换无思考、思考、思考最大化三种模式。

选项 2：API（Python）

DeepSeek-V4-Flash 采用兼容 OpenAI 的 API。使用模型 ID deepseek/deepseek-v4-flash，配合 Novita 的基础 URL 即可：

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[{"role": "user", "content": "Your prompt here"}]
)
print(response.choices[0].message.content)

如需开启思考或思考最大化模式，在请求体中传入 reasoning 参数即可：

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

# Think Max mode — maximum reasoning budget
response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash",
    messages=[{"role": "user", "content": "Solve: x^4 - 5x^2 + 4 = 0"}],
    extra_body={"reasoning": {"effort": "high"}}  # "low" = Think, "high" = Think Max
)
print(response.choices[0].message.content)

你可以在 novita.ai/settings 获取你的 API 密钥。

选项 3：第三方工具

由于 Novita AI 提供的是兼容 OpenAI 的端点，DeepSeek-V4-Flash 可以开箱即用支持以下工具：

LangChain / LlamaIndex — 使用 ChatOpenAI 并设置 base_url="https://api.novita.ai/v3/openai" 即可
OpenWebUI — 添加为自定义 OpenAI 兼容端点即可
Continue.dev / Cursor — 配置为自定义模型，使用 Novita 基础 URL 即可

定价

DeepSeek-V4-Flash 在各主流服务商处的定价一致。以下均为每百万 token 的价格，统计时间为 2026-04-27：

服务商	输入（$/百万）	输出（$/百万）	缓存读取（$/百万）	最大上下文
Novita AI	$0.14	$0.28	$0.028	1,048,576 tokens
DeepSeek 官方	$0.14	$0.28	$0.028	131,072 tokens
SiliconFlow	$0.14	$0.28	$0.028	65,536 tokens
DeepInfra	$0.14	$0.28	—	16,384 tokens

各服务商的单 token 定价完全相同，但最大上下文长度差异巨大。Novita AI 提供完整的 1M token 上下文窗口，而 DeepInfra 仅支持 16,384 token。如果你的工作负载涉及长文档、代码库或多轮智能体，Novita 是更实用的选择。

常见问题

什么是 DeepSeek-V4-Flash？

DeepSeek-V4-Flash 是 DeepSeek AI 开发的 284B 参数混合专家语言模型，发布于 2026-04-23。每次前向传播仅激活 13B 参数，比能力相近的稠密模型速度快得多、成本低得多。它支持 1,048,576 token 的上下文窗口，以及三种推理模式：无思考（快速）、预算推理、扩展推理（思考最大化）。

DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 有什么区别？

V4-Flash 是更轻量、更快的版本，针对速度和成本进行了优化。V4-Pro 是旗舰模型，峰值基准测试得分更高（例如 LiveCodeBench 思考最大化模式下，V4-Pro 得 93.5 分，V4-Flash 为 91.6 分）。DeepSeek 官方表示“当给予更大的推理预算时，V4-Flash 可以达到与 Pro 版本相当的推理性能”——实际使用中，V4-Flash 思考最大化模式以更低的单 token 成本，追平了与 V4-Pro 思考最大化模式的大部分性能差距。

模型名中的「Flash」是什么意思？

「Flash」代表速度优化版本，和 Google 为 Gemini Flash 命名的逻辑一致。DeepSeek-V4-Flash 优先保证低延迟和低成本，而非原始最高准确率，当你需要缩小性能差距时，可以使用推理模式来实现。

Novita AI 支持的 DeepSeek-V4-Flash 是否支持 1M 上下文窗口？

是的。Novita AI 开放了完整的 1,048,576 token 上下文窗口，是当前所有服务商中该模型支持的最大上下文长度。Novita 上的最大补全 token 数为 393,216。

如何通过 API 切换推理模式？

传入 extra_body={"reasoning": {"effort": "low"}} 参数即可开启预算推理模式，传入 "effort": "high" 可开启思考最大化模式。完全省略该参数则为无思考（快速）模式。API 兼容 OpenAI 规范，无需修改 SDK 即可使用。

Novita AI 支持的 DeepSeek-V4-Flash 定价是多少？

截至 2026-04-27：输入 $0.14/百万 token，输出 $0.28/百万 token，缓存读取 $0.028/百万 token。该定价与 DeepSeek 官方定价一致，各服务商价格相同——Novita 的核心差异在于提供完整的 1M 上下文窗口和稳定的服务可用性。

DeepSeek-V4-Flash 是开源模型吗？

是的。该模型权重已在 HuggingFace 以 MIT 许可证 发布，这一信息已在 DeepSeek-V4 官方仓库中确认。MIT 条款允许自行部署和商用。通过 Novita AI 的 API 使用该模型，完全无需自行部署。

立即开始使用 DeepSeek-V4-Flash

DeepSeek-V4-Flash 现已通过 Novita AI 提供服务，支持完整的 1M 上下文窗口，定价具有竞争力，且无需承担任何基础设施成本。你只需选择推理模式，其余工作都由 Novita 处理。

→ 试用 Novita AI 支持的 DeepSeek-V4-Flash

→ Novita AI 大模型 API 文档

Novita AI 上线 DeepSeek-V4-Flash：低成本快速推理

Novita AI 支持的 DeepSeek-V4-Flash：1M 上下文窗口，输入仅 $0.14/百万 token

什么是 DeepSeek-V4-Flash？