Qwen 3 235B A22B：不烧显卡的 3 种便捷 API 调用方式

Qwen 3 235B A22B 是什么？
方案 1：直接 API 集成
方案 2：使用 OpenAI Agents SDK 实现多智能体工作流
方案 3：第三方 Qwen 3 API 集成

关键要点

Qwen 3 235B A22B 是一款强大的混合专家（MoE）模型，专为高级推理、编码和多语言任务而设计。

本地运行需要 约 1128GB 显存——相当于 16× A100 或 16× H100 GPU——对大多数个人开发者而言遥不可及。

如何通过 API 访问 Qwen 3 235B A22B：3 种简单方法：

直接 API 集成：使用兼容 OpenAI 的端点
多智能体工作流：使用 OpenAI Agents SDK
第三方集成：通过 Hugging Face、LangChain、Dify 等

Qwen 3 235B A22B 是目前功能最强大的大语言模型之一，在推理、数学和多语言任务中表现顶尖。然而，由于显存需求超过 1TB，大多数开发者几乎无法本地运行。幸运的是，基于 API 的访问让你无需沉重的基础设施就能利用其强大能力。

Qwen 3 235B A22B 是什么？

Qwen 3 235B A22B 基准测试

数据来源：Qwen

Qwen 3 235B A22B 硬件要求

本地运行 Qwen 3 235B A22B 需要 约 1128GB 显存，相当于：

16× A100（80GB） GPU
或 16× H100（80GB） GPU

这一配置远超大多数个人开发者或小团队的承受能力。

对多数开发者而言，API 是更明智的选择

零搭建成本或硬件成本
即时访问最新模型
按需扩展使用量
持续的模型更新与维护

方案 1：直接 API 集成

步骤 1：登录并访问模型库

登录你的账户，点击 “模型库” 按钮。

步骤 2：选择模型

浏览可选模型，选择符合需求的模型。

步骤 3：开始免费试用

开始免费试用，探索所选模型的功能。

立即试用 Qwen 3 235B A22B！

步骤 4：获取 API 密钥

为进行 API 身份验证，我们将提供一个新的 API 密钥。进入 “设置” 页面，按图中所示复制 API 密钥。

步骤 5：安装 API

使用编程语言对应的包管理器安装 API。

安装后，将必要的库导入开发环境。使用你的 API 密钥初始化客户端，开始与 Novita AI LLM 交互。以下是 Python 用户使用聊天补全 API 的示例。

from openai import OpenAI
  
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "qwen/qwen3-235b-a22b-fp8"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

方案 2：使用 OpenAI Agents SDK 实现多智能体工作流

OpenAI Agents SDK 是 OpenAI SWARM 项目的生产级进化版，旨在简化智能、协作且安全的 AI 智能体的开发。其核心是基于 LLM 的智能体，可配置自定义指令、角色和外部工具。SDK 提供强大的功能，如带 Pydantic 校验的自动函数工具转换、内置智能体循环实现无缝工具反馈、多智能体任务委派以及稳健的安全护栏。开发者可以享受 Python 原生编排、用于调试的内置追踪工具和高可定制性——所有这些都在一个轻量级框架内，学习成本极低。

1. 设置 Python 环境并安装 Agents SDK

python -m venv env
source env/bin/activate
pip install openai-agents

2. 设置你的 Novita API 密钥

前往控制台获取 10 个积分

3. Handoffs 示例

import os
from openai import AsyncOpenAI
from agents import (
    Agent,
    Runner,
    set_default_openai_api,
    set_default_openai_client,
    set_tracing_disabled,
)

BASE_URL = "https://api.novita.ai/v3/openai"
API_KEY = os.getenv("NOVITA_API_KEY")
MODEL_NAME = os.getenv("MODEL_NAME")

# Because Novita not support the responses API so we use the chat completions API instead.
set_default_openai_api("chat_completions")
set_default_openai_client(AsyncOpenAI(base_url=BASE_URL, api_key=API_KEY))
# Disable tracing for this example
# Refer to https://openai.github.io/openai-agents-python/tracing/#external-tracing-processors-list to use the custom spans.
set_tracing_disabled(disabled=True)

agent = Agent(name="Assistant",
              instructions="You are a helpful assistant", model=MODEL_NAME)

result = Runner.run_sync(
    agent, "Write a haiku about recursion in programming.")
print(result.final_output)

# Code within the code,
# Functions calling themselves,
# Infinite loop's dance.

方案 3：第三方 Qwen 3 API 集成

1. HuggingFace 集成

步骤 1：在 Hugging Face 上配置 API 密钥

进入账户设置面板，配置 API 密钥。
将你的 Novita AI 认证凭据输入到 Hugging Face 平台。

步骤 2：选择推理 API 模式

自定义密钥模式：请求直接发送到推理提供商，使用你自己的 API 密钥。
HF 路由模式：此模式无需提供商令牌。费用将计入你的 Hugging Face 账户，而非提供商账户。

步骤 3：点击设置按钮，选择 Novita AI 作为你的 API 提供商

2. 与 Novita AI 的智能体/框架集成

Novita AI 是许多流行智能体框架的 一级合作伙伴。
你可以在平台内 直接选择 Novita 作为提供商。
每个框架都配有 官方连接器 ** 和 ** 逐步指南，使多智能体工作流、工具调用智能体和复杂编排任务的集成变得顺畅。

Continue
AnythingLLM
LangChain
Dify
Langflow

3. 兼容 OpenAI 的 API 集成

对于基于 **OpenAI API 标准 ** 构建的工具，Novita AI 提供 ** 即插即用替代方案 **——你只需一个 base URL 和一个 **API 密钥 。此方法 ** 无需任何重构，支持已使用 OpenAI 兼容调用的应用即时迁移。

常见问题

Qwen 3 235B A22B 是什么？

阿里巴巴推出的最先进 MoE 语言模型，拥有 235B 参数（每次前向传播激活 22B），在逻辑、数学和多语言任务中表现出色。

为什么我无法本地运行 Qwen 3 235B A22B？

它需要约 1128GB 显存，远超消费级硬件的能力。你需要 16× A100 或 H100 GPU。

Qwen 3 235B A22B 有免费试用吗？

有的。Novita AI 提供免费积分，让你在投入前先探索模型。

Novita AI 是一个 AI 云平台，为开发者提供通过简单 API 部署 AI 模型的便捷途径，同时提供经济可靠的 GPU 云用于构建和扩展。

Qwen 3 235B A22B：不烧显卡的 3 种便捷 API 调用方式

关键要点

Qwen 3 235B A22B 是什么？

Qwen 3 235B A22B 基准测试

Qwen 3 235B A22B 硬件要求

方案 1：直接 API 集成

步骤 1：登录并访问模型库

步骤 2：选择模型

步骤 3：开始免费试用

步骤 4：获取 API 密钥

步骤 5：安装 API

方案 2：使用 OpenAI Agents SDK 实现多智能体工作流

1. 设置 Python 环境并安装 Agents SDK

2. 设置你的 Novita API 密钥

3. Handoffs 示例

方案 3：第三方 Qwen 3 API 集成

1. HuggingFace 集成

2. 与 Novita AI 的智能体/框架集成

3. 兼容 OpenAI 的 API 集成

常见问题

推荐阅读

Product

RESOURCES

Partners

Company

关键要点

Qwen 3 235B A22B 是什么？

Qwen 3 235B A22B 基准测试

Qwen 3 235B A22B 硬件要求

方案 1：直接 API 集成

步骤 1：登录并访问模型库

步骤 2：选择模型

步骤 3：开始免费试用

步骤 4：获取 API 密钥

步骤 5：安装 API

方案 2：使用 OpenAI Agents SDK 实现多智能体工作流

1. 设置 Python 环境并安装 Agents SDK

2. 设置你的 Novita API 密钥

3. Handoffs 示例

方案 3：第三方 Qwen 3 API 集成

1. HuggingFace 集成

2. 与 Novita AI 的智能体/框架集成

3. 兼容 OpenAI 的 API 集成

常见问题

推荐阅读

相关文章

Product

RESOURCES

Partners

Company