Qwen3.5-397B-A17B 访问：网页、API与本地部署

什么是 Qwen3.5-397B-A17B？
Qwen3.5-397B-A17B 基准测试概览
方法一：网页聊天访问（最快）
方法二：通过 Novita AI 的 API 访问（生产环境）
方法三：本地部署（完全控制）
方法对比表

正在探索强大开源权重语言模型的开发者们面临一个常见问题：我到底该如何开始使用这个模型？Qwen3.5-397B-A17B 提供三种不同的访问路径：用于测试的即时网页聊天、用于生产环境的托管 API，以及用于完全控制的自托管部署。每种方法适用于不同的场景——从快速原型开发到企业级推理。

本指南将介绍所有访问方法，并提供设置说明、实际定价数据和硬件要求。你将了解哪种路径适合你的用例，以及如何快速上手。

什么是 Qwen3.5-397B-A17B？

Qwen3.5-397B-A17B 是阿里云推出的旗舰级开源权重混合专家（MoE）语言模型，拥有 4030 亿总参数，每个 token 激活 170 亿参数。该模型支持 262,144 个 token 的上下文（256k 上下文窗口），并且原生支持文本和图像等多模态输入。根据 Artificial Analysis 基准测试，Qwen3.5-397B-A17B 在 GDPval-AA 排行榜上得分 1,221，相比之前的 Qwen3 235B 模型（860 分）提升了 361 分。该模型在编程、推理和 Agent 任务上表现尤为出色，同时通过 MoE 架构保持了成本效率。

来自 Artificial Analysis

试用出色的 Qwen 3.5

Qwen3.5-397B-A17B 基准测试概览

类别	基准测试	得分	领先模型
指令遵循	IFBench	76.5	Qwen3.5
复杂任务	MultiChallenge	67.6	Qwen3.5
Agent / 浏览	BrowseComp	78.6	Qwen3.5
科学推理	GPQA Diamond	88.4	Qwen3.5（开源模型）
知识	MMLU-Pro	87.8	Gemini
知识	MMLU-Redux	94.9	Gemini
知识	C-Eval	93.0	有竞争力
编程	LiveCodeBench v6	83.6	Gemini / GPT
多模态	MMMU	85.0	有竞争力
多模态	MathVision	88.6	有竞争力
多模态	OCRBench	93.1	有竞争力
多模态	Video-MME	87.5	有竞争力

Qwen3.5-397B 在指令遵循和面向 Agent 的基准测试中取得了最强成绩，包括 IFBench、MultiChallenge 和 BrowseComp，领先于其他竞争模型。同时，它在 GPQA Diamond 上达到了开源模型中的最佳水平，显示出强大的科学推理能力。

在更广泛的知识基准测试（如 MMLU-Pro 和 MMLU-Redux）上，虽然性能较高，但通常略落后于领先的专有模型。编程基准测试显示出有竞争力的结果，但未达到领先地位。

总体而言，基准测试结果表明 Qwen3.5 针对复杂指令、工具使用和 Agent 工作流进行了优化，而不是纯粹追求传统学术基准测试（如编程或知识回忆）的最大化。

方法一：网页聊天访问（最快）

适用场景： 快速测试、实验、演示以及无需 API 密钥或基础设施即可立即访问的非生产用例。

设置时间：少于 1 分钟

官方 Qwen 聊天界面通过浏览器提供对 Qwen3.5-397B-A17B 的即时访问：

导航到 Novita AI
从模型下拉菜单中选择 Qwen3.5-397B-A17B
针对深度推理任务选择 “思考” 模式
立即开始聊天——无需创建账户或 API 密钥

局限性

无程序化访问——仅限网页 UI，无 API 集成
存在速率限制——专为交互式使用设计，不适用于批处理
无法微调——你使用的是基础模型本身
有限的上下文持久性——对话历史由界面管理

试用出色的 Qwen 3.5

方法二：通过 Novita AI 的 API 访问（生产环境）

适用场景： 生产应用程序、自定义集成、程序化访问、可扩展推理，以及需要 OpenAI 兼容 API 格式的应用程序。

设置时间：5 分钟

Novita AI 提供对 Qwen3.5-397B-A17B 的托管 API 访问，定价在主要提供商中具有竞争力：每 100 万个输入 token 0.60 美元，每 100 万个输出 token 3.60 美元。该服务提供与 OpenAI 兼容的端点，使已熟悉 OpenAI SDK 的开发人员能够轻松集成。

来自 HuggingFace

分步设置

步骤 1：登录并访问模型库

登录你的账户，点击 模型库 按钮。

步骤 2：选择模型

浏览可用选项，选择适合你需求的模型。

步骤 3：开始免费试用

开始免费试用，探索所选模型的功能。

试用出色的 Qwen 3.5

步骤 4：获取 API 密钥

为了通过 API 进行身份验证，我们将为你提供一个新的 API 密钥。进入“设置”页面，你可以按照图像所示复制 API 密钥。

步骤 5：安装 API

使用你的编程语言特定的包管理工具安装 API。你可以从 Novita AI 设置页面管理 API 密钥。

安装后，将必要的库导入到你的开发环境中。使用你的 API 密钥初始化 API，开始与 Novita AI LLM 交互。以下是为 Python 用户提供的聊天补全 API 示例。

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="qwen/qwen3.5-397b-a17b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=64000,
    temperature=0.7
)

print(response.choices[0].message.content)

API 功能

功能	可用性
OpenAI 兼容性	✅ 完全支持
流式响应	✅ 支持
函数调用	✅ 支持
上下文窗口	262,144 token
多模态输入	✅ 文本 + 图像
SLA/正常运行时间	企业级基础设施

Novita AI 针对 Qwen3.5-397B-A17B 的定价在市场上具有极强的竞争力。OpenAI 兼容的 API 意味着你只需更改基础 URL 和 API 密钥即可将其集成到现有应用程序中——无需重构代码。

与开发工具集成

通过 Novita AI 的统一 REST API，无需管理模型权重或基础设施，即可无缝地将 Qwen 3 连接到你的应用程序、工作流或聊天机器人。Novita AI 提供多语言 SDK（Python、Node.js、cURL 等）以及面向高级用户的高级参数控制。

Claude Code 集成

Claude Code 使用环境变量将请求路由到自定义模型端点。在启动 Claude Code 之前设置以下四个变量：

对于 macOS/Linux：

# 设置由 Novita 提供的 Anthropic SDK 兼容 API 端点。
export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Novita API Key>"
# 设置由 Novita 提供的模型。
export ANTHROPIC_MODEL="qwen/qwen3.5-397b-a17b"
export ANTHROPIC_SMALL_FAST_MODEL="qwen/qwen3.5-397b-a17b"

对于 Windows (PowerShell)：

$env:ANTHROPIC_BASE_URL = "https://api.novita.ai/anthropic"
$env:ANTHROPIC_AUTH_TOKEN = "Novita API Key"
$env:ANTHROPIC_MODEL = "qwen/qwen3.5-397b-a17b"
$env:ANTHROPIC_SMALL_FAST_MODEL = "qwen/qwen3.5-397b-a17b"

Trae IDE 集成

打开 Trae 并切换 AI 侧边栏
导航到 AI 管理 → 模型
点击 添加自定义模型
选择 Novita AI 作为提供商
输入你的 API 密钥并选择 qwen/qwen3.5-397b-a17b
保存配置并开始编程

OpenCode CLI 集成

# 启动 OpenCode
opencode

# 连接到 Novita AI
/connect

# 选择 Novita AI 作为提供商，粘贴 API 密钥
# 从模型列表中选择 qwen/qwen3.5-397b-a17b

方法三：本地部署（完全控制）

适用场景： 数据隐私要求、离线推理、自定义推理管道、研究环境，或需要完全控制模型执行的场景。

设置时间：1-2 小时

本地部署提供了完全控制权，但需要显著的硬件资源。完整模型权重在全精度下占用约 807GB 磁盘空间。

硬件要求

精度级别	所需 VRAM/RAM	推荐硬件
8-bit 量化	约 420GB	5× H100 80GB 或同等配置
4-bit 量化	约 200GB	M3 Ultra Mac（256GB 统一内存）或 1×24GB GPU + 256GB 系统内存

根据 Unsloth 的部署指南，在配备 24GB GPU 和 256GB 系统内存的系统上，使用 MoE 卸载技术，4-bit 量化版本可实现 每秒 25 个 token 以上 的速度。这使得 4-bit 量化成为高端消费者或小型企业部署中最实用的选择。

用于本地部署的云 GPU 租赁

如果你缺乏硬件但仍希望自行托管部署，云 GPU 实例提供了一种折中方案。根据 Novita AI GPU 实例定价：

配置	按需每小时成本	竞价实例每小时成本	用例
5× H100 80GB	$12.95/小时	$6.5/小时	8-bit 量化，生产级
1× RTX 4090 24GB	$0.73/小时	$0.37/小时	4-bit 量化，成本效益高

Novita AI 的竞价模式是一种成本优化的 GPU 租赁系统，利用平台空闲或未使用的 GPU 容量。与按需实例（预留专用硬件以获得稳定、连续使用）不同，竞价实例是可中断的——如果 GPU 被系统回收，你的任务可能会被暂停或终止。由于竞价模式重新分配原本未使用的 GPU 资源，其价格通常比按需定价便宜 40-60%。

立即试用高性价比 GPU！

方法对比表

方法	设置时间	成本	适用场景
网页聊天 (Novita AI LLM Playground)	<1 分钟	免费（有速率限制）	快速测试、演示、实验
通过 Novita AI 的 API	5 分钟	每 100 万 token $0.60/$3.60	生产应用、可扩展推理、自定义集成
本地部署 (INT4)	1-2 小时	硬件成本 + 256GB 内存系统	数据隐私、离线使用、完全控制
云 GPU 租赁 (INT4)	30 分钟	$0.37/小时	高吞吐量推理

Qwen3.5-397B-A17B 为不同的部署场景提供了灵活的访问路径。对于即时测试，Novita AI LLM Playground 无需任何设置，即可即时访问推理和快速两种模式。对于需要程序化访问的生产应用，Novita AI 的 API 以每 100 万输入/输出 token $0.60/$3.60 的价格提供了最佳性价比，并且具有 OpenAI 兼容端点，可无缝集成到现有代码库中。

对于具有特定隐私要求或极高吞吐量推理需求的团队，本地部署仍然是可行的选择。INT4 量化版本可以在配备 256GB 内存的高端消费级硬件上运行，实现每秒 25 个 token 以上的速度。然而，对于大多数开发者和中小型企业来说，托管 API 访问消除了基础设施的复杂性，同时提供了企业级的可靠性。

常见问题

通过 API 使用 Qwen3.5-397B-A17B 的费用是多少？

Novita AI 对 Qwen3.5-397B-A17B 收取每 100 万输入 token 0.60 美元、每 100 万输出 token 3.60 美元的费用——这是最具竞争力的费率之一。

我能在消费级硬件上运行 Qwen3.5-397B-A17B 吗？

是的，通过 INT4 量化，Qwen3.5-397B-A17B 可以在配备 256GB 内存（如 M3 Ultra Mac）的系统上以每秒 25+ token 的速度运行，需要约 214GB 磁盘空间。

Qwen3.5-397B-A17B 支持函数调用吗？

是的，当通过像 Novita AI 这样使用 OpenAI 兼容端点的 API 提供商访问时，Qwen3.5-397B-A17B 支持函数调用。

Novita AI 是一个 AI 与 Agent 云平台，帮助开发者和初创公司以高性能、高可靠性和高成本效益的方式构建、部署和扩展模型及 Agent 应用。

推荐阅读

Qwen3.5-397B-A17B 访问：网页、API与本地部署

什么是 Qwen3.5-397B-A17B？

Qwen3.5-397B-A17B 基准测试概览

方法一：网页聊天访问（最快）

设置时间：少于 1 分钟

局限性

方法二：通过 Novita AI 的 API 访问（生产环境）

设置时间：5 分钟

分步设置

步骤 1：登录并访问模型库

步骤 2：选择模型

步骤 3：开始免费试用

步骤 4：获取 API 密钥

步骤 5：安装 API

API 功能

与开发工具集成

Claude Code 集成

Trae IDE 集成

OpenCode CLI 集成

方法三：本地部署（完全控制）

设置时间：1-2 小时

硬件要求

用于本地部署的云 GPU 租赁

方法对比表

常见问题

Product

RESOURCES

Partners

Company

什么是 Qwen3.5-397B-A17B？

Qwen3.5-397B-A17B 基准测试概览

方法一：网页聊天访问（最快）

设置时间：少于 1 分钟

局限性

方法二：通过 Novita AI 的 API 访问（生产环境）

设置时间：5 分钟

分步设置

步骤 1：登录并访问模型库

步骤 2：选择模型

步骤 3：开始免费试用

步骤 4：获取 API 密钥

步骤 5：安装 API

API 功能

与开发工具集成

Claude Code 集成

Trae IDE 集成

OpenCode CLI 集成

方法三：本地部署（完全控制）

设置时间：1-2 小时

硬件要求

用于本地部署的云 GPU 租赁

方法对比表

常见问题

相关文章

Product

RESOURCES

Partners

Company