Qwen 3 235B A22B:不烧显卡的 3 种便捷 API 调用方式

Qwen 3 235B A22B:不烧显卡的 3 种便捷 API 调用方式

领取 $10 的 LLM API 额度

关键要点

Qwen 3 235B A22B 是一款强大的混合专家(MoE)模型,专为高级推理、编码和多语言任务而设计。

本地运行需要 约 1128GB 显存——相当于 16× A100 或 16× H100 GPU——对大多数个人开发者而言遥不可及。

如何通过 API 访问 Qwen 3 235B A22B:3 种简单方法

  1. 直接 API 集成:使用兼容 OpenAI 的端点
  2. 多智能体工作流:使用 OpenAI Agents SDK
  3. 第三方集成:通过 Hugging Face、LangChain、Dify 等

Qwen 3 235B A22B 是目前功能最强大的大语言模型之一,在推理、数学和多语言任务中表现顶尖。然而,由于显存需求超过 1TB,大多数开发者几乎无法本地运行。幸运的是,基于 API 的访问让你无需沉重的基础设施就能利用其强大能力

Qwen 3 235B A22B 是什么?

Qwen 3 235B A22B 简介

Qwen 3 235B A22B 基准测试

Qwen 3 235B A22B 基准测试

数据来源:Qwen

Qwen 3 235B A22B 硬件要求

本地运行 Qwen 3 235B A22B 需要 约 1128GB 显存,相当于:

  • 16× A100(80GB) GPU
  • 或 16× H100(80GB) GPU

这一配置远超大多数个人开发者或小团队的承受能力。

对多数开发者而言,API 是更明智的选择

  • 零搭建成本或硬件成本
  • 即时访问最新模型
  • 按需扩展使用量
  • 持续的模型更新与维护

方案 1:直接 API 集成

步骤 1:登录并访问模型库

登录你的账户,点击 “模型库” 按钮。

登录并访问模型库

步骤 2:选择模型

浏览可选模型,选择符合需求的模型。

选择模型

步骤 3:开始免费试用

开始免费试用,探索所选模型的功能。

开始免费试用

立即试用 Qwen 3 235B A22B!

步骤 4:获取 API 密钥

为进行 API 身份验证,我们将提供一个新的 API 密钥。进入 “设置” 页面,按图中所示复制 API 密钥。

获取 API 密钥

步骤 5:安装 API

使用编程语言对应的包管理器安装 API。

安装后,将必要的库导入开发环境。使用你的 API 密钥初始化客户端,开始与 Novita AI LLM 交互。以下是 Python 用户使用聊天补全 API 的示例。

from openai import OpenAI
  
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "qwen/qwen3-235b-a22b-fp8"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

方案 2:使用 OpenAI Agents SDK 实现多智能体工作流

OpenAI Agents SDK 是 OpenAI SWARM 项目的生产级进化版,旨在简化智能、协作且安全的 AI 智能体的开发。其核心是基于 LLM 的智能体,可配置自定义指令、角色和外部工具。SDK 提供强大的功能,如带 Pydantic 校验的自动函数工具转换、内置智能体循环实现无缝工具反馈、多智能体任务委派以及稳健的安全护栏。开发者可以享受 Python 原生编排、用于调试的内置追踪工具和高可定制性——所有这些都在一个轻量级框架内,学习成本极低。

1. 设置 Python 环境并安装 Agents SDK

python -m venv env
source env/bin/activate
pip install openai-agents

2. 设置你的 Novita API 密钥

获取 API 密钥

前往控制台获取 10 个积分

3. Handoffs 示例

import os
from openai import AsyncOpenAI
from agents import (
    Agent,
    Runner,
    set_default_openai_api,
    set_default_openai_client,
    set_tracing_disabled,
)

BASE_URL = "https://api.novita.ai/v3/openai"
API_KEY = os.getenv("NOVITA_API_KEY")
MODEL_NAME = os.getenv("MODEL_NAME")

# Because Novita not support the responses API so we use the chat completions API instead.
set_default_openai_api("chat_completions")
set_default_openai_client(AsyncOpenAI(base_url=BASE_URL, api_key=API_KEY))
# Disable tracing for this example
# Refer to https://openai.github.io/openai-agents-python/tracing/#external-tracing-processors-list to use the custom spans.
set_tracing_disabled(disabled=True)

agent = Agent(name="Assistant",
              instructions="You are a helpful assistant", model=MODEL_NAME)

result = Runner.run_sync(
    agent, "Write a haiku about recursion in programming.")
print(result.final_output)

# Code within the code,
# Functions calling themselves,
# Infinite loop's dance.

方案 3:第三方 Qwen 3 API 集成

1. HuggingFace 集成

步骤 1:在 Hugging Face 上配置 API 密钥

  • 进入账户设置面板,配置 API 密钥。
  • 将你的 Novita AI 认证凭据输入到 Hugging Face 平台。
    在 Hugging Face 中配置 API 密钥

步骤 2:选择推理 API 模式

  • 自定义密钥模式:请求直接发送到推理提供商,使用你自己的 API 密钥。
  • HF 路由模式:此模式无需提供商令牌。费用将计入你的 Hugging Face 账户,而非提供商账户。

步骤 3:点击设置按钮,选择 Novita AI 作为你的 API 提供商

deepsite with novita ai

2. 与 Novita AI 的智能体/框架集成

Novita AI 是许多流行智能体框架的 一级合作伙伴
你可以在平台内 直接选择 Novita 作为提供商
每个框架都配有 官方连接器 ** 和 ** 逐步指南,使多智能体工作流、工具调用智能体和复杂编排任务的集成变得顺畅。

3. 兼容 OpenAI 的 API 集成

对于基于 **OpenAI API 标准 ** 构建的工具,Novita AI 提供 ** 即插即用替代方案 **——你只需一个 base URL 和一个 **API 密钥 。此方法 ** 无需任何重构,支持已使用 OpenAI 兼容调用的应用即时迁移。

常见问题

Qwen 3 235B A22B 是什么?

阿里巴巴推出的最先进 MoE 语言模型,拥有 235B 参数(每次前向传播激活 22B),在逻辑、数学和多语言任务中表现出色。

为什么我无法本地运行 Qwen 3 235B A22B?

它需要约 1128GB 显存,远超消费级硬件的能力。你需要 16× A100 或 H100 GPU。

Qwen 3 235B A22B 有免费试用吗?

有的。Novita AI 提供免费积分,让你在投入前先探索模型。

Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的便捷途径,同时提供经济可靠的 GPU 云用于构建和扩展。

推荐阅读