在 Claude Code 中使用 Qwen3-235B-A22B-Thinking:节省 80% 成本

在 Claude Code 中使用 Qwen3-235B-A22B-Thinking:节省 80% 成本

开发者在构建智能编码助手时面临一个关键抉择:为 Claude Sonnet 4.5 等闭源模型支付每百万输出 Token 3-15 美元,还是转向承诺以极低价格提供类似能力的开源推理模型。 阿里巴巴推出的 Qwen3-235B-A22B-Thinking-2507 打破了这种权衡,通过专用的“思考模式”提供了强大的推理性能——而通过 Novita AI,其每百万输入/输出 Token 的价格仅为 0.30 美元/3.00 美元。

本指南将介绍如何将 Qwen3-235B-A22B-Thinking-2507 集成到 Claude Code 中,这是 Anthropic 兼容的终端代理,可实现智能编码工作流。你将看到这款 235B MoE 模型(每个 Token 激活 22B 参数)如何利用 Claude Code 丰富的工具环境,通过扩展的推理轨迹来自动完成复杂的编码任务。

立即尝试 Qwen3-235B-A22B-Thinking-2507!

Qwen3-235B-A22B-Thinking-2507 能否提供真正的推理能力?

Qwen3-235B-A22B-Thinking-2507 是 Qwen3 系列中最新具备思考能力的模型,在推理能力方面取得了重大进步。它在逻辑问题求解、数学、科学分析、编码和学术评估方面表现出色——达到或超越了人类专家级别的性能,并在开源推理模型中展现出极具竞争力的表现。除了推理优势外,它还提供了更强的通用能力,包括更准确的指令遵循、高级工具集成、高度自然的文本生成以及与人类意图更优的对齐。该模型还支持扩展的 131K Token 上下文,能够连贯且深入地处理长文档和复杂讨论。

架构与能力

技术参数 规格 描述
模型类型 因果语言模型 基于 Transformer 架构
总参数量 235B 22B 激活参数
非嵌入参数 234B 实际计算参数
层数 94 层 深度神经网络结构
注意力头数 Q: 64, KV: 4 使用 GQA 机制
专家数量 128 MoE 架构设计
激活专家数 8 动态专家选择
上下文长度 262,144 个 Token 原生长上下文支持

基准性能(推理任务)

Qwen3-235B-A22B-Thinking-2507 基准性能对比图

来源:Hugging Face

Qwen3-235B-A22B-Thinking-2507 在推理密集型任务和知识密集型任务中表现出色,尤其是在数学、多语言知识以及文档/视频理解方面。在复杂的认知和理解基准测试中,其性能始终与更大的模型相媲美。

成本与 Token 效率

每百万输入 Token 价格为 0.30 美元,每百万输出 Token 价格为 3.00 美元,与 Claude Sonnet 4.5(每百万 Token 价格 3/15 美元)相比,Qwen3-235B-A22B-Thinking-2507 在输入上可节省 90% 的成本,在输出上可节省 80% 的成本。对于扩展推理任务,该模型最多可输出 81K Token——这意味着单个复杂任务的输出 Token 成本可能仅为 0.24 美元,而 Claude 则需要 1.22 美元。

Qwen3 235B A22b Thinking 2507 价格低廉

立即尝试 Qwen3-235B-A22B-Thinking-2507!

为什么 Qwen3-235B-A22B-Thinking-2507 与 Claude Code 是最佳组合

Claude Code 是 Anthropic 发布的基于终端的智能编码界面。它通过调用工具(文件编辑、bash 命令、搜索)、跨任务管理上下文以及基于反馈进行迭代来编排多步骤工作流。Qwen3-235B-A22B-Thinking-2507 显式的推理轨迹与该智能体范式完美契合——该模型在执行工具调用之前会展示其规划步骤,使得复杂的工作流可调试且透明。

1. 针对智能交互进行优化

Qwen3-235B-A22B-Thinking-2507 被设计用于执行操作、使用工具和管理多步骤任务。其思考模式输出的结构化推理链与 Claude Code 预期的规划 → 执行 → 验证工作流相匹配。当模型规划跨 5 个文件进行重构时,你可以在任何文件编辑发生之前看到逐步的推理过程。

2. 丰富的工具链和 API 支持

Claude Code 提供对文件系统操作、bash 执行、grep/搜索、git 命令和外部工具集成的预配置访问。Qwen3 模型支持工具调用模式、JSON 模式和函数定义——使其能够无缝调用 Claude Code 的工具套件,用于自动化测试、部署脚本和多文件重构等任务。

3. 实时反馈循环

该模型的思考模式实现了自适应调试:如果工具调用失败(例如,测试套件出错),推理轨迹会显示模型的假设,使你能够在会话过程中纠正误解。这对于早期错误可能级联影响 20 多步骤的智能工作流至关重要。

4. 用于复杂推理的扩展输出

像“重构 8 个文件中的认证流程”或“通过性能分析器集成调试内存泄漏”这样的 Claude Code 任务需要包含 10K+ Token 输出的多步骤计划。Qwen3-235B-A22B-Thinking-2507 支持最多 81K Token 的复杂推理——远超标准模型限制——同时保持成本可控(81K 输出成本为 0.24 美元,而 Claude 为 1.22 美元)。

如何在 Claude Code 中使用 Qwen3-235B-A22B-Thinking-2507

Novita AI 提供了与 Anthropic 兼容的 API 端点,这意味着只需通过简单的环境变量配置,Claude Code 即可使用 Qwen3-235B-A22B-Thinking-2507——无需修改代码。该模型的 256K 上下文窗口和每百万输入/输出 Token 0.30/3.00 美元的定价使其非常适合扩展编码会话。

前提条件——获取 Novita AI API 密钥

步骤 1: 在 Novita AI 创建免费帐户并登录。

步骤 2: 导航至模型库并搜索 qwen/qwen3-235b-a22b-thinking-2507

步骤 3: 点击开始免费试用以激活访问权限(Novita 为新用户提供试用积分)。

步骤 4: 前往 设置 → API 密钥并点击生成 API 密钥。复制该密钥。

步骤 5: 使用以下 Python 测试验证 API 连接:

from openai import OpenAI

client = OpenAI(
    api_key="<你的 API 密钥>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="qwen/qwen3-235b-a22b-thinking-2507",
    messages=[
        {"role": "system", "content": "你是一个乐于助人的助手。"},
        {"role": "user", "content": "你好,你怎么样?"}
    ],
    max_tokens=32768,
    temperature=0.7
)

print(response.choices[0].message.content)

你应该会看到模型的响应,其中包含 thinking 标签包围的推理轨迹。

立即尝试 Qwen3-235B-A22B-Thinking-2507!

Claude Code 设置指南

步骤 1:安装 Claude Code

#macOS、Linux、WSL:
curl -fsSL https://claude.ai/install.sh | bash

#Windows PowerShell:
irm https://claude.ai/install.ps1 | iex

#Windows CMD:
curl -fsSL https://claude.ai/install.cmd -o install.cmd && install.cmd && del install.cmd

Windows 需要 Git for Windows 如果尚未安装,请先安装。

步骤 2:设置环境变量

Claude Code 使用 4 个环境变量将 API 请求路由到 Novita AI:

#对于 macOS/Linux (Bash/Zsh):
# 设置 Novita 提供的与 Anthropic SDK 兼容的 API 端点。
export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Novita API Key>"
# 设置 Novita 提供的模型。
export ANTHROPIC_MODEL="qwen/qwen3-235b-a22b-thinking-2507"
export ANTHROPIC_SMALL_FAST_MODEL="qwen/qwen3-235b-a22b-thinking-2507"

#对于 Windows (PowerShell):
$env:ANTHROPIC_BASE_URL = "https://api.novita.ai/anthropic"
$env:ANTHROPIC_AUTH_TOKEN = "Novita API Key"
$env:ANTHROPIC_MODEL = "qwen/qwen3-235b-a22b-thinking-2507"
$env:ANTHROPIC_SMALL_FAST_MODEL = "qwen/qwen3-235b-a22b-thinking-2507"

说明:

  • ANTHROPIC_BASE_URL:将 Claude Code 指向 Novita 的 Anthropic 兼容端点
  • ANTHROPIC_AUTH_TOKEN:你的 Novita API 密钥(非 Anthropic 密钥)
  • ANTHROPIC_MODEL:用于复杂任务的主模型(思考模式)
  • ANTHROPIC_SMALL_FAST_MODEL:用于快速操作的备用模型(如果希望保持一致的推理行为,则设置为相同模型)

步骤 3:启动 Claude Code

导航到你的项目目录并启动 Claude Code:

cd <你的项目目录>
claude .

你将在一个交互式会话中看到 Claude Code 提示符。对于复杂查询,模型的思考模式会自动激活。

示例任务:

> 重构认证模块以使用 JWT 令牌而非会话。更新所有 5 个相关文件并添加单元测试。

Claude Code 将分析请求,调用 Qwen3-235B-A22B-Thinking-2507 生成一个多步骤计划(在 thinking 块中可见),然后执行文件编辑、编写测试并验证更改。

专业提示: 对于数学密集型或算法设计任务,在你的 API 调用中将 max_tokens 增加到 131072,以充分利用 Qwen3-235B-A22B-Thinking-2507 的扩展推理能力。如果 Claude Code 的配置暴露了 Token 限制,你可以通过配置进行设置。

立即尝试 Qwen3-235B-A22B-Thinking-2507!

Qwen3-235B-A22B-Thinking-2507 以闭源模型零头不到的价格提供了先进的推理能力、长上下文处理和结构化的多步骤规划。与 Claude Code 结合使用时,它能够实现透明、可调试的智能编码工作流,使其成为寻求高性能推理和编码自动化而又不产生高昂 Token 费用的开发者的实用解决方案。

结论

Qwen3-235B-A22B-Thinking-2507 以闭源模型零头不到的成本,为 Claude Code 的智能工作流带来了扩展推理能力、透明的思维链输出和强大的工具使用能力。对于运行复杂编码任务的开发者来说,这种组合兼具高性能和成本效益。

关键要点: 设置四个环境变量,将 Claude Code 指向 Novita AI 的 Anthropic 兼容端点,几分钟内你就可以运行高级推理工作流。在 Novita AI 上立即尝试 Qwen3-235B-A22B-Thinking-2507 并开始构建吧。

Qwen3-235B-A22B-Thinking-2507 与标准编码模型有何不同?

它是一个纯思考模型,在生成代码之前会输出 thinking 块中的结构化推理轨迹,使得复杂的智能工作流透明且可调试。与通用指令模型不同,它专门针对推理密集型任务进行了优化,例如竞技编程、算法设计和多步骤调试。

我可以在 Claude Code 之外的其他工具中使用 Qwen3-235B-A22B-Thinking-2507 吗?

可以——它适用于任何支持 OpenAI 兼容 API 的工具。Trae(GUI IDE)、OpenCode(终端代理)、Cursor(代码编辑器)以及自定义 Python/Node.js 脚本都可以通过 Novita AI 的 https://api.novita.ai/v3/openai 端点使用它。

我是否需要 GPU 来本地运行 Qwen3-235B-A22B-Thinking-2507?

是的——估计需要 4×H100 80GB 用于 FP8。对于大多数开发者而言,除非你每月运行 10,000 个以上任务,否则 Novita AI 的 API 比自托管更具成本效益。

推荐阅读

Novita AI 是一个 AI 与代理云平台,帮助开发者和初创企业以高性能、高可靠性和高成本效益的方式构建、部署和扩展模型及智能代理应用。