DeepSeek V4 Flash 是一个拥有 284B 参数的 MoE 模型,具备 100 万 token 的上下文窗口,通过 Novita AI 兼容 Anthropic 的端点提供——这意味着 Claude Code 只需更改三行环境变量即可直接使用它。输入 token 价格仅为 $0.14/M,而 Claude Sonnet 为 $3/M,对于运行持续智能编码会话的团队来说,成本差异非常显著。
为什么在 Claude Code 中使用 DeepSeek V4 Flash
成本是最直接的原因。Claude Code 默认使用 Claude Sonnet,其输入价格为 $3/M token,输出价格为 $15/M token。而 Novita AI 上的 DeepSeek V4 Flash 输入价格为 $0.14/M,输出价格为 $0.28/M——输入成本大约降低 20 倍,输出成本降低 50 倍。对于一个在八小时工作日内运行 Claude Code 的团队来说,这种差异会迅速累积。
除了成本之外,V4 Flash 还带来了两项对智能编码特别重要的能力:
- 100 万 token 上下文窗口——Claude Code 可将整个代码库加载到上下文中,无需分块。多文件重构、跨仓库调试以及长对话历史都能保持连贯,无需手动管理上下文。
- 可选择的推理模式——非思考模式可为样板任务提供快速响应;思考模式和最大思考模式可为复杂的架构决策或困难的调试会话提供逐步推理。你可以按会话选择,无需切换模型。
Novita AI 公开了一个兼容 Anthropic 的端点(/anthropic),因此 Claude Code 将其视为即插即用的替代方案。无需更改 SDK,无需插件——只需环境变量。
什么是 DeepSeek V4 Flash
DeepSeek V4 Flash 是 DeepSeek AI 开发的一款混合专家(MoE)模型。它拥有 284B 总参数,但每次前向传播仅激活 13B,这使其延迟和每个 token 的成本接近 13B 的密集模型,同时保留更大网络的知识容量。
关键规格一览:
| 规格 | 值 |
|---|---|
| 模型 ID | deepseek/deepseek-v4-flash |
| 总参数 | 284B(每次推理激活 13B) |
| 上下文窗口 | 1,048,576 个 token |
| 最大输出 token | 393,216 个 |
| 输入价格(Novita AI) | $0.14/M token |
| 输出价格(Novita AI) | $0.28/M token |
| 缓存读取价格 | $0.028/M token |
| 推理模式 | 非思考、思考、最大思考 |
| 函数调用 | 是 |
| 结构化输出 | 是 |
| 许可证 | MIT |
三种推理模式让你可以根据每次会话调整成本与质量。非思考模式快速且便宜——适用于重复性的脚手架搭建或样板生成。思考模式为代码审查、架构工作和调试添加逐步推理。最大思考模式使用最大推理预算,在大多数编码基准测试中与 V4 Pro 持平。
Novita AI 提供完整的 100 万 token 上下文窗口和可靠的正常运行时间,使其成为生产环境中智能工作负载的实用选择。
获取你的 Novita AI API 密钥
注册 Novita AI 账户 即可获得免费试用额度。登录后,导航到 密钥管理页面,点击 创建新密钥。
立即复制密钥——之后将不再显示。将其保存在密码管理器或密钥存储中;下一步你会用到它。
安装 Claude Code
Claude Code 需要 Node.js 18 或更高版本。首先检查你的版本:
node --version
如果 Node 版本低于 18,请先前往 nodejs.org 更新后再继续。
Windows
打开命令提示符并运行:
npm install -g @anthropic-ai/claude-code
Mac 和 Linux
打开终端并运行:
npm install -g @anthropic-ai/claude-code
全局安装使得 claude 命令可以在任何目录下使用。
配置环境变量
以下四个变量将 Claude Code 重定向到 Novita AI 兼容 Anthropic 的端点,并将 DeepSeek V4 Flash 设为活动模型。
Windows
set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<你的 Novita API 密钥>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash
这些设置仅在当前命令提示符会话中有效。要使其永久生效,请通过 系统属性 → 环境变量 进行设置。
Mac 和 Linux
export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<你的 Novita API 密钥>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"
要在会话间持久化,请将这些行添加到你的 ~/.bashrc、~/.zshrc 或等效的 shell 配置文件中。
ANTHROPIC_SMALL_FAST_MODEL 控制 Claude Code 用于快速内部任务(如文件查找和摘要)的轻量级模型。将其设置为相同的模型 ID 可使所有流量保持在单一计费线上,并避免意外调用 Anthropic API。
启动 Claude Code
导航到你的项目目录并启动 Claude Code:
cd <你的项目目录>
claude .
Claude Code 将在当前目录打开一个交互式会话。一旦与 Novita AI 端点的连接建立,你就会看到提示符出现。从这里开始,用自然语言描述你的任务——Claude Code 会读取你的文件、提出更改建议,并在获得你的批准后应用它们。
处理大型代码库
100 万 token 的上下文窗口是 V4 Flash 相对于较小上下文替代方案最实用的优势。一个典型的中型生产代码库在展开后大约有 100K–300K 个 token。V4 Flash 可以将整个代码库完整地保存在上下文中,无需任何分块策略。
以下是一些直接受益的工作流程:
跨文件重构——要求 Claude Code 重命名数据模型、更改 API 契约,或重构所有引用它的文件中的服务接口。借助完整的上下文窗口,它可以同时看到所有依赖关系,而无需逐个文件处理。
长时间的调试会话——随着调试会话积累工具调用、文件读取和推理轨迹,较小的上下文窗口会截断早期历史记录。V4 Flash 会保留完整的会话,因此模型可以对 200 次工具调用之前看到的模式进行推理。
仓库范围的审查——将整个代码库提供给 V4 Flash 的思考或最大思考模式,并要求进行安全审查、架构评估或死代码分析。这会很快耗尽 128K 模型的容量,但在 V4 Flash 的窗口内则游刃有余。
系统提示开销——Claude Code 使用详细的系统提示,可能占用 10K–20K 个 token。在 128K 模型上,这种开销很重要。在 100 万 token 的窗口上,它是微不足道的,几乎将所有的上下文预算留给了实际代码。
为了在长时间会话中控制成本,非思考模式以最低成本处理大部分常规文件编辑。当任务需要设计推理时切换到思考模式,遇到困难的算法或调试问题时使用最大思考模式。Novita 的缓存读取价格($0.028/M)意味着重复的系统提示注入在规模上的成本非常低。
按会话选择推理模式
DeepSeek V4 Flash 支持三种推理模式,你可以按会话进行控制。非思考模式返回快速、直接的补全——适用于样板生成、常规编辑和快速查找。思考模式为代码审查、重构和架构决策启用逐步推理。最大思考模式分配最大的推理预算,在大多数编码基准测试中与 V4 Pro 持平。
将 Claude Code 导向更深层推理的最简单方法是使用自定义系统提示:
claude --system "对于架构决策和复杂调试,请使用扩展思考。"
对于程序化控制,Novita AI 的端点接受 budget_tokens 参数。将其设置为 0 则完全禁用思考;任何正值都会启用思考,直至达到该 token 预算。这在只有特定步骤需要深度推理的智能管道中非常有用:
import anthropic
client = anthropic.Anthropic(
base_url="https://api.novita.ai/anthropic",
api_key="<你的 Novita API 密钥>",
)
# 最大思考模式——为棘手问题分配最大推理预算
response = client.messages.create(
model="deepseek/deepseek-v4-flash",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 10000},
messages=[{"role": "user", "content": "审查此函数是否存在微妙的并发错误。"}],
)
对于注重成本的会话,从非思考模式开始,仅在遇到需要思考模式的问题时再切换。由于 Novita 的缓存读取价格为 $0.028/M token,即使在长时间的多步骤会话中,重复的系统提示注入也保持低成本。
结论
Novita AI 上的 DeepSeek V4 Flash 为 Claude Code 提供了一个强大且经济高效的基础——100 万上下文、可选择的推理、函数调用,且价格仅为 Claude Sonnet 的一小部分。设置只需不到五分钟。一旦环境变量配置完成,你现有的 Claude Code 工作流程即可无缝运行。
在 Novita AI 上尝试 DeepSeek V4 Flash,并查看 Novita AI LLM API 文档 获取更多配置选项。
常见问题解答
Claude Code 是否需要任何插件或扩展才能使用 Novita AI?
不需要。Claude Code 在启动时会读取 ANTHROPIC_BASE_URL 环境变量,并将所有 API 调用路由到该地址。无需插件、扩展或代码更改——完全通过环境变量即可切换。
使用 Novita AI 时,我还会被 Anthropic 收费吗?
不会。当 ANTHROPIC_BASE_URL 指向 Novita AI 时,所有流量和计费都通过你的 Novita AI 账户进行。你的 Anthropic 账户不会被使用。
我能否在不重新安装的情况下切换回 Claude Sonnet?
可以。取消设置 ANTHROPIC_BASE_URL 和 ANTHROPIC_MODEL——或者打开一个没有这些导出变量的新 shell——Claude Code 就会恢复为默认的 Anthropic 端点并使用 Claude Sonnet。
V4 Flash 是否适用于自动化 CI 管道?
V4 Flash 支持函数调用和结构化输出,这是 Claude Code 最依赖的两项能力。它是自动化编码管道、CI 集成以及需要上下文连续性和成本可预测性的长时间智能会话的实用选择。
如果上下文窗口满了会发生什么?
V4 Flash 拥有 1,048,576 个 token 的上下文窗口,足够大,大多数会话不会填满它。如果你正在运行一个极其长的会话——数天累积的历史记录、非常大的仓库——Claude Code 会开始截断最早的消息。实际上,为每个新任务启动一个新会话是保持在限制范围内的最简单方法。
Novita AI 是一个 AI 云平台,为开发者提供使用简单 API 部署 AI 模型的便捷方式,同时还提供经济实惠且可靠的 GPU 云服务用于构建和扩展应用。
