Qwen3.5-397B-A17B 访问:网页、API与本地部署

Qwen3.5-397B-A17B 访问:网页、API与本地部署

正在探索强大开源权重语言模型的开发者们面临一个常见问题:我到底该如何开始使用这个模型?Qwen3.5-397B-A17B 提供三种不同的访问路径:用于测试的即时网页聊天、用于生产环境的托管 API,以及用于完全控制的自托管部署。每种方法适用于不同的场景——从快速原型开发到企业级推理。

本指南将介绍所有访问方法,并提供设置说明、实际定价数据和硬件要求。你将了解哪种路径适合你的用例,以及如何快速上手。

什么是 Qwen3.5-397B-A17B?

Qwen3.5-397B-A17B 是阿里云推出的旗舰级开源权重混合专家(MoE)语言模型,拥有 4030 亿总参数,每个 token 激活 170 亿参数。该模型支持 262,144 个 token 的上下文(256k 上下文窗口),并且原生支持文本和图像等多模态输入。根据 Artificial Analysis 基准测试,Qwen3.5-397B-A17B 在 GDPval-AA 排行榜上得分 1,221,相比之前的 Qwen3 235B 模型(860 分)提升了 361 分。该模型在编程、推理和 Agent 任务上表现尤为出色,同时通过 MoE 架构保持了成本效率。

Qwen3.5-397B-A17B 的基准测试

来自 Artificial Analysis

试用出色的 Qwen 3.5

Qwen3.5-397B-A17B 基准测试概览

类别 基准测试 得分 领先模型
指令遵循 IFBench 76.5 Qwen3.5
复杂任务 MultiChallenge 67.6 Qwen3.5
Agent / 浏览 BrowseComp 78.6 Qwen3.5
科学推理 GPQA Diamond 88.4 Qwen3.5(开源模型)
知识 MMLU-Pro 87.8 Gemini
知识 MMLU-Redux 94.9 Gemini
知识 C-Eval 93.0 有竞争力
编程 LiveCodeBench v6 83.6 Gemini / GPT
多模态 MMMU 85.0 有竞争力
多模态 MathVision 88.6 有竞争力
多模态 OCRBench 93.1 有竞争力
多模态 Video-MME 87.5 有竞争力

Qwen3.5-397B 在指令遵循和面向 Agent 的基准测试中取得了最强成绩,包括 IFBench、MultiChallenge 和 BrowseComp,领先于其他竞争模型。同时,它在 GPQA Diamond 上达到了开源模型中的最佳水平,显示出强大的科学推理能力。

在更广泛的知识基准测试(如 MMLU-Pro 和 MMLU-Redux)上,虽然性能较高,但通常略落后于领先的专有模型。编程基准测试显示出有竞争力的结果,但未达到领先地位。

总体而言,基准测试结果表明 Qwen3.5 针对复杂指令、工具使用和 Agent 工作流进行了优化,而不是纯粹追求传统学术基准测试(如编程或知识回忆)的最大化。

方法一:网页聊天访问(最快)

适用场景: 快速测试、实验、演示以及无需 API 密钥或基础设施即可立即访问的非生产用例。

在网页中试用 Qwen3.5-397B-A17B

设置时间:少于 1 分钟

官方 Qwen 聊天界面通过浏览器提供对 Qwen3.5-397B-A17B 的即时访问:

  1. 导航到 Novita AI
  2. 从模型下拉菜单中选择 Qwen3.5-397B-A17B
  3. 针对深度推理任务选择 “思考” 模式
  4. 立即开始聊天——无需创建账户或 API 密钥

局限性

  • 无程序化访问——仅限网页 UI,无 API 集成
  • 存在速率限制——专为交互式使用设计,不适用于批处理
  • 无法微调——你使用的是基础模型本身
  • 有限的上下文持久性——对话历史由界面管理

试用出色的 Qwen 3.5

方法二:通过 Novita AI 的 API 访问(生产环境)

适用场景: 生产应用程序、自定义集成、程序化访问、可扩展推理,以及需要 OpenAI 兼容 API 格式的应用程序。

设置时间:5 分钟

Novita AI 提供对 Qwen3.5-397B-A17B 的托管 API 访问,定价在主要提供商中具有竞争力:每 100 万个输入 token 0.60 美元,每 100 万个输出 token 3.60 美元。该服务提供与 OpenAI 兼容的端点,使已熟悉 OpenAI SDK 的开发人员能够轻松集成。

Qwen3.5-397B-A17B 最便宜的 API 提供商

来自 HuggingFace

分步设置

步骤 1:登录并访问模型库

登录你的账户,点击 模型库 按钮。

登录并访问模型库

步骤 2:选择模型

浏览可用选项,选择适合你需求的模型。

选择模型

步骤 3:开始免费试用

开始免费试用,探索所选模型的功能。

开始 Qwen 3.5 397B A17B 的免费试用

试用出色的 Qwen 3.5

步骤 4:获取 API 密钥

为了通过 API 进行身份验证,我们将为你提供一个新的 API 密钥。进入“设置”页面,你可以按照图像所示复制 API 密钥。

获取 API 密钥

步骤 5:安装 API

使用你的编程语言特定的包管理工具安装 API。你可以从 Novita AI 设置页面 管理 API 密钥。

安装后,将必要的库导入到你的开发环境中。使用你的 API 密钥初始化 API,开始与 Novita AI LLM 交互。以下是为 Python 用户提供的聊天补全 API 示例。

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="qwen/qwen3.5-397b-a17b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=64000,
    temperature=0.7
)

print(response.choices[0].message.content)

API 功能

功能 可用性
OpenAI 兼容性 ✅ 完全支持
流式响应 ✅ 支持
函数调用 ✅ 支持
上下文窗口 262,144 token
多模态输入 ✅ 文本 + 图像
SLA/正常运行时间 企业级基础设施

Novita AI 针对 Qwen3.5-397B-A17B 的定价在市场上具有极强的竞争力。OpenAI 兼容的 API 意味着你只需更改基础 URL 和 API 密钥即可将其集成到现有应用程序中——无需重构代码。

与开发工具集成

通过 Novita AI 的统一 REST API,无需管理模型权重或基础设施,即可无缝地将 Qwen 3 连接到你的应用程序、工作流或聊天机器人。Novita AI 提供多语言 SDK(Python、Node.js、cURL 等)以及面向高级用户的高级参数控制。

Claude Code 集成

Claude Code 使用环境变量将请求路由到自定义模型端点。在启动 Claude Code 之前设置以下四个变量:

对于 macOS/Linux:

# 设置由 Novita 提供的 Anthropic SDK 兼容 API 端点。
export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Novita API Key>"
# 设置由 Novita 提供的模型。
export ANTHROPIC_MODEL="qwen/qwen3.5-397b-a17b"
export ANTHROPIC_SMALL_FAST_MODEL="qwen/qwen3.5-397b-a17b"

对于 Windows (PowerShell):

$env:ANTHROPIC_BASE_URL = "https://api.novita.ai/anthropic"
$env:ANTHROPIC_AUTH_TOKEN = "Novita API Key"
$env:ANTHROPIC_MODEL = "qwen/qwen3.5-397b-a17b"
$env:ANTHROPIC_SMALL_FAST_MODEL = "qwen/qwen3.5-397b-a17b"

Trae IDE 集成

  1. 打开 Trae 并切换 AI 侧边栏
  2. 导航到 AI 管理 → 模型
  3. 点击 添加自定义模型
  4. 选择 Novita AI 作为提供商
  5. 输入你的 API 密钥并选择 qwen/qwen3.5-397b-a17b
  6. 保存配置并开始编程

OpenCode CLI 集成

# 启动 OpenCode
opencode

# 连接到 Novita AI
/connect

# 选择 Novita AI 作为提供商,粘贴 API 密钥
# 从模型列表中选择 qwen/qwen3.5-397b-a17b

方法三:本地部署(完全控制)

适用场景: 数据隐私要求、离线推理、自定义推理管道、研究环境,或需要完全控制模型执行的场景。

设置时间:1-2 小时

本地部署提供了完全控制权,但需要显著的硬件资源。完整模型权重在全精度下占用约 807GB 磁盘空间

硬件要求

精度级别 所需 VRAM/RAM 推荐硬件
8-bit 量化 约 420GB 5× H100 80GB 或同等配置
4-bit 量化 约 200GB M3 Ultra Mac(256GB 统一内存)或 1×24GB GPU + 256GB 系统内存

根据 Unsloth 的部署指南,在配备 24GB GPU 和 256GB 系统内存的系统上,使用 MoE 卸载技术,4-bit 量化版本可实现 每秒 25 个 token 以上 的速度。这使得 4-bit 量化成为高端消费者或小型企业部署中最实用的选择。

用于本地部署的云 GPU 租赁

如果你缺乏硬件但仍希望自行托管部署,云 GPU 实例提供了一种折中方案。根据 Novita AI GPU 实例定价:

配置 按需每小时成本 竞价实例每小时成本 用例
5× H100 80GB $12.95/小时 $6.5/小时 8-bit 量化,生产级
1× RTX 4090 24GB $0.73/小时 $0.37/小时 4-bit 量化,成本效益高

Novita AI 的竞价模式是一种成本优化的 GPU 租赁系统,利用平台空闲或未使用的 GPU 容量。与按需实例(预留专用硬件以获得稳定、连续使用)不同,竞价实例是可中断的——如果 GPU 被系统回收,你的任务可能会被暂停或终止。由于竞价模式重新分配原本未使用的 GPU 资源,其价格通常比按需定价便宜 40-60%。

立即试用高性价比 GPU!

方法对比表

方法 设置时间 成本 适用场景
网页聊天 (Novita AI LLM Playground) <1 分钟 免费(有速率限制) 快速测试、演示、实验
通过 Novita AI 的 API 5 分钟 每 100 万 token $0.60/$3.60 生产应用、可扩展推理、自定义集成
本地部署 (INT4) 1-2 小时 硬件成本 + 256GB 内存系统 数据隐私、离线使用、完全控制
云 GPU 租赁 (INT4) 30 分钟 $0.37/小时 高吞吐量推理

Qwen3.5-397B-A17B 为不同的部署场景提供了灵活的访问路径。对于即时测试,Novita AI LLM Playground 无需任何设置,即可即时访问推理和快速两种模式。对于需要程序化访问的生产应用,Novita AI 的 API 以每 100 万输入/输出 token $0.60/$3.60 的价格提供了最佳性价比,并且具有 OpenAI 兼容端点,可无缝集成到现有代码库中。

对于具有特定隐私要求或极高吞吐量推理需求的团队,本地部署仍然是可行的选择。INT4 量化版本可以在配备 256GB 内存的高端消费级硬件上运行,实现每秒 25 个 token 以上的速度。然而,对于大多数开发者和中小型企业来说,托管 API 访问消除了基础设施的复杂性,同时提供了企业级的可靠性。

常见问题

通过 API 使用 Qwen3.5-397B-A17B 的费用是多少?

Novita AI 对 Qwen3.5-397B-A17B 收取每 100 万输入 token 0.60 美元、每 100 万输出 token 3.60 美元的费用——这是最具竞争力的费率之一。

我能在消费级硬件上运行 Qwen3.5-397B-A17B 吗?

是的,通过 INT4 量化,Qwen3.5-397B-A17B 可以在配备 256GB 内存(如 M3 Ultra Mac)的系统上以每秒 25+ token 的速度运行,需要约 214GB 磁盘空间。

Qwen3.5-397B-A17B 支持函数调用吗?

是的,当通过像 Novita AI 这样使用 OpenAI 兼容端点的 API 提供商访问时,Qwen3.5-397B-A17B 支持函数调用。

Novita AI 是一个 AI 与 Agent 云平台,帮助开发者和初创公司以高性能、高可靠性和高成本效益的方式构建、部署和扩展模型及 Agent 应用。

推荐阅读