在 Claude Code 中使用 DeepSeek V4 Flash：通过 Novita AI 的配置指南

为什么在 Claude Code 中使用 DeepSeek V4 Flash
什么是 DeepSeek V4 Flash
获取 Novita AI API 密钥
安装 Claude Code
配置环境变量
启动 Claude Code
处理大型代码库
按会话选择推理模式
结论
常见问题
推荐文章

DeepSeek V4 Flash 是一个 284B 参数的 MoE 模型，拥有 100 万 token 的上下文窗口，可通过 Novita AI 的 Anthropic 兼容端点使用 —— 这意味着只需修改三行环境变量，Claude Code 就能直接使用它。输入 token 价格为 $0.14/M，而 Claude Sonnet 为 $3/M，对于运行持续 agentic 编码会话的团队来说，成本差异非常显著。

为什么在 Claude Code 中使用 DeepSeek V4 Flash

最直接的原因是经济性。Claude Code 默认使用 Claude Sonnet，输入价格 $3/M token，输出价格 $15/M token。而 Novita AI 上的 DeepSeek V4 Flash 输入价格为 $0.14/M，输出价格为 $0.28/M —— 输入成本降低约 20 倍，输出成本降低约 50 倍。对于在整个八小时工作日内运行 Claude Code 的团队来说，这一差异会迅速累积。

除了成本，V4 Flash 还带来了两项对 agentic 编码至关重要的能力：

1M token 上下文窗口 —— Claude Code 可以将整个代码库加载到上下文中，无需分块。多文件重构、跨仓库调试以及长时间的对话历史记录都能保持连贯，无需手动管理上下文。
可选择的推理模式 —— 非思考模式（Non-think）可快速响应样板代码任务；思考模式（Think）和最大思考模式（Think Max）能够为复杂的架构决策或困难的调试会话提供逐步推理。你可以在每个会话中按需选择，无需切换模型。

Novita AI 提供了一个 Anthropic 兼容端点（/anthropic），因此 Claude Code 可以将其视为直接替代品。无需更改 SDK，无需插件 —— 只需设置环境变量。

什么是 DeepSeek V4 Flash

DeepSeek V4 Flash 是 DeepSeek AI 开发的一款混合专家（MoE）模型。它拥有 284B 总参数，但每次前向传播仅激活 13B 参数，这使得延迟和每个 token 的成本接近 13B 的密集模型，同时保留了更大网络的知识容量。

关键规格一览：

规格	值
模型 ID	`deepseek/deepseek-v4-flash`
总参数	284B（每次推理激活 13B）
上下文窗口	1,048,576 tokens
最大输出 tokens	393,216
输入价格（Novita AI）	$0.14/M token
输出价格（Novita AI）	$0.28/M token
缓存读取价格	$0.028/M token
推理模式	非思考、思考、最大思考
函数调用	是
结构化输出	是
许可证	MIT

三种推理模式允许你根据每个会话在成本和质量之间进行权衡。非思考模式快速且便宜 —— 适合重复性的脚手架搭建或样板代码生成。思考模式增加了逐步推理，适用于代码审查、架构工作和调试。最大思考模式使用最大推理预算，在大多数编码基准测试中与 V4 Pro 相当。

Novita AI 提供完整的 1M token 上下文窗口和可靠的正常运行时间，这使其成为生产环境中 agentic 工作负载的实用选择。

获取 Novita AI API 密钥

请立即复制密钥 —— 它不会再次显示。将其保存在密码管理器或密钥存储中；下一步你将用到它。

安装 Claude Code

Claude Code 需要 Node.js 18 或更高版本。首先检查你的版本：

node --version

如果 Node 版本低于 18，请先访问 nodejs.org 更新后再继续。

Windows

打开命令提示符并运行：

npm install -g @anthropic-ai/claude-code

Mac 和 Linux

打开终端并运行：

npm install -g @anthropic-ai/claude-code

全局安装后，claude 命令即可在任何目录下使用。

配置环境变量

以下四个变量将把 Claude Code 重定向到 Novita AI 的 Anthropic 兼容端点，并将 DeepSeek V4 Flash 作为活动模型。

Windows

set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<你的 Novita API 密钥>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash

这些设置仅对当前命令提示符会话有效。要使其永久生效，请通过 系统属性 → 环境变量 进行设置。

Mac 和 Linux

export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<你的 Novita API 密钥>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"

要使其跨会话持久化，请将这些行添加到你的 ~/.bashrc、~/.zshrc 或等效的 shell 配置文件中。

ANTHROPIC_SMALL_FAST_MODEL 控制 Claude Code 用于文件查找和摘要等快速内部任务的轻量级模型。将其设置为相同的模型 ID，可以将所有流量集中到单一计费线，并避免意外调用 Anthropic API。

启动 Claude Code

导航到你的项目目录并启动 Claude Code：

cd <你的项目目录>
claude .

Claude Code 将在当前目录中打开一个交互式会话。一旦与 Novita AI 端点的连接建立，你将看到提示符出现。从这里开始，用自然语言描述你的任务 —— Claude Code 将读取你的文件、提出更改建议，并在你批准后应用它们。

处理大型代码库

与上下文较小的替代方案相比，1M token 的上下文窗口是 V4 Flash 最实用的优势。一个典型的中型生产代码库在扁平化后大约有 100K–300K token。V4 Flash 可以无需任何分块策略，将整个代码库保存在上下文中。

以下是一些直接受益的工作流程：

跨文件重构 —— 让 Claude Code 重命名数据模型、更改 API 契约或重构服务接口，涉及所有引用该接口的文件。有了完整的上下文窗口，它可以同时查看所有依赖关系，而不是逐个文件处理。

长时间调试会话 —— 随着调试会话累积工具调用、文件读取和推理痕迹，较小的上下文窗口会截断早期历史记录。V4 Flash 保留完整会话，因此模型可以推理 200 个工具调用之前看到的模式。

仓库级审查 —— 将整个代码库输入 V4 Flash 的思考或最大思考模式，要求进行安全审查、架构评估或死代码分析。这会很快耗尽 128K 模型的容量，但在 V4 Flash 的窗口内却能轻松容纳。

系统提示开销 —— Claude Code 使用详细的系统提示词，可能占用 10K–20K token。在 128K 模型上，这一开销不容忽视。而在 1M 窗口上，它几乎可以忽略不计，从而将大部分上下文预算留给实际代码。

对于长时间会话的成本控制，非思考模式以最低成本处理大部分常规文件编辑任务。当任务需要设计推理时切换到思考模式，对于困难的算法或调试问题则使用最大思考模式。Novita 的缓存读取价格（$0.028/M）意味着在规模下，重复的系统提示注入成本非常低。

按会话选择推理模式

DeepSeek V4 Flash 支持三种推理模式，你可以按会话进行控制。非思考模式返回快速、直接的补全 —— 适用于样板代码生成、常规编辑和快速查找。思考模式为代码审查、重构和架构决策提供逐步推理。最大思考模式分配最大推理预算，在大多数编码基准测试中与 V4 Pro 相当。

最简单的方式是通过自定义系统提示词来引导 Claude Code 进行更深入的推理：

claude --system "对于架构决策和复杂调试，请使用扩展思考。"

对于程序化控制，Novita AI 的端点接受 budget_tokens 参数。将其设置为 0 可完全禁用思考；任何正值将启用思考，并限制在该 token 预算内。这在 agentic 管道中非常有用，因为只有特定步骤需要深度推理：

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.novita.ai/anthropic",
    api_key="<你的 Novita API 密钥>",
)

# 最大思考模式 —— 为困难问题分配最大推理预算
response = client.messages.create(
    model="deepseek/deepseek-v4-flash",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "审查此函数以发现潜在的并发错误。"}],
)

对于成本敏感的会话，从非思考模式开始，仅在遇到需要时才切换到思考模式。由于 Novita 的缓存读取价格为 $0.028/M token，即使在长时间的多步骤会话中，重复的系统提示注入也保持低廉。

结论

Novita AI 上的 DeepSeek V4 Flash 为 Claude Code 提供了一个强大且经济高效的 backbone —— 1M 上下文、可选择的推理模式以及函数调用功能，价格仅为 Claude Sonnet 的一小部分。配置过程不超过五分钟。一旦环境变量设置好，你现有的 Claude Code 工作流将无变化地运行。

在 Novita AI 上试用 DeepSeek V4 Flash，并查看 Novita AI LLM API 文档以获取更多配置选项。

常见问题

Claude Code 是否需要插件或扩展来使用 Novita AI？

不需要。Claude Code 在启动时读取 ANTHROPIC_BASE_URL 环境变量，并将所有 API 调用路由到该地址。无需插件、扩展或代码更改 —— 完全通过环境变量进行切换。

使用 Novita AI 时，Anthropic 是否会向我收费？

不会。当 ANTHROPIC_BASE_URL 指向 Novita AI 时，所有流量和计费都通过你的 Novita AI 账户进行。你的 Anthropic 账户不会被使用。

我能否在不重新安装的情况下切换回 Claude Sonnet？

可以。取消设置 ANTHROPIC_BASE_URL 和 ANTHROPIC_MODEL —— 或者打开一个没有这些导出变量的新 Shell —— Claude Code 就会恢复为默认的 Anthropic 端点并使用 Claude Sonnet。

V4 Flash 是否适合自动化 CI 管道？

V4 Flash 支持函数调用和结构化输出，这是 Claude Code 最依赖的两项能力。对于自动化编码管道、CI 集成以及需要上下文连续性和成本可预测性的长时间 agentic 会话来说，它是一个实用的选择。

如果上下文窗口满了会怎样？

V4 Flash 的上下文窗口为 1,048,576 tokens，大多数会话不会将其填满。如果你在运行一个极长的会话 —— 数天的累积历史记录，非常大的仓库 —— Claude Code 将开始截断最旧的消息。在实践中，为新任务启动一个新会话是在限制范围内保持正常的最简单方法。

Novita AI 是一个 AI 云平台，为开发者提供通过简单 API 部署 AI 模型的便捷方式，同时提供价格实惠且可靠的 GPU 云服务，用于构建和扩展。

在 Claude Code 中使用 DeepSeek V4 Flash：通过 Novita AI 的配置指南

为什么在 Claude Code 中使用 DeepSeek V4 Flash

什么是 DeepSeek V4 Flash

获取 Novita AI API 密钥

安装 Claude Code

Windows

Mac 和 Linux

配置环境变量

Windows

Mac 和 Linux

启动 Claude Code

处理大型代码库

按会话选择推理模式

结论

常见问题

推荐文章

Product

RESOURCES

Partners

Company

为什么在 Claude Code 中使用 DeepSeek V4 Flash

什么是 DeepSeek V4 Flash

获取 Novita AI API 密钥

安装 Claude Code

Windows

Mac 和 Linux

配置环境变量

Windows

Mac 和 Linux

启动 Claude Code

处理大型代码库

按会话选择推理模式

结论

常见问题

推荐文章

相关文章

Product

RESOURCES

Partners

Company