Qwen 3 现已登陆 Novita AI

什么是 Qwen 3？
基准测试与性能
如何在 Novita AI 上访问 Qwen 3
优化 Qwen 3 性能的最佳实践
结论

阿里巴巴尖端的 Qwen 3 大型语言模型现已登陆 Novita AI 的模型 API 平台！

以下是 Novita AI 上当前 Qwen 3 的产品线及定价：

Qwen3-235B-A22B：输入 $0.20 / M tokens，输出 $0.80 / M tokens
Qwen3-30B-A3B：输入 $0.10 / M tokens，输出 $0.45 / M tokens
Qwen3-32B：输入 $0.10 / M tokens，输出 $0.45 / M tokens
Qwen3-14B：输入 $0.07 / M tokens，输出 $0.275 / M tokens
Qwen3-8B：输入 $0.035 / M tokens，输出 $0.138 / M tokens
Qwen3-4B：免费
Qwen3-1.7B：免费

用最先进的语言模型驱动你的聊天机器人、应用和工作流——只需一次 API 调用，即可使用 Qwen 3。

什么是 Qwen 3？

Qwen 3 是阿里云 Qwen 团队开发的最新、最先进的大型语言模型系列。基于 QwQ 和 Qwen2.5 的经验，Qwen 3 在推理、多语言和智能体能力方面实现了重大改进，为开源 AI 树立了新的标杆。

Qwen 3 的主要特性

不同规模的密集和混合专家（MoE）模型：Qwen 3 提供密集和 MoE 两种架构，型号从轻量级的 0.6B 和 1.7B，到大规模的 32B（密集）以及旗舰的 30B-A3B 和 235B-A22B（MoE）变体。
**混合思考模式 **：该模型允许在 “思考模式”（用于复杂、逐步的逻辑推理、数学和代码生成）和 “非思考模式”（用于快速、高效的通用聊天）之间无缝切换。
显著增强的推理能力：Qwen 3 在数学、代码生成和常识逻辑推理方面超越了之前的 Qwen 模型。它还针对不同任务提供了更稳定、可控制的推理预算。
卓越的人类偏好对齐：该模型在创意写作、角色扮演、多轮对话和指令遵循方面表现出色，从而带来更自然、更具吸引力的对话体验。
先进的智能体能力：Qwen 3 专为基于智能体的工作流而设计，支持与外部工具的无缝集成，并在两种推理模式下实现精确的函数调用。这使其在复杂的、由智能体驱动的任务中展现出顶尖的性能。
强大的多语言支持：支持 119 种语言和方言，Qwen 3 能够进行高质量的多语言指令遵循和翻译，为真正的全球应用打开了大门。

基准测试与性能

Qwen 3 系列在一整套 AI 基准测试中展现了行业领先的性能，在编程、数学、通用推理和多语言理解方面表现出色。

旗舰模型：Qwen3-235B-A22B

旗舰模型 Qwen3-235B-A22B 在与当今最先进的模型（如 DeepSeek-R1、OpenAI-01、OpenAI-o3-mini、Grok-3 Beta 和 Gemini-2.5-Pro）相比时，持续获得顶尖或接近顶尖的成绩。

来源：Qwen

复杂推理：在 ArenaHard 上获得最高分（95.6），优于或持平所有竞争对手。
数学：在 AIME’24（85.7）和 AIME’25（81.5）上取得领先成绩，远超大多数商业和开源模型。
编程：在 LiveCodeBench（70.7）和 CodeForces Elo（2056）上表现卓越，确认了其在软件和算法任务方面的实力。
多语言与通用能力：Qwen3-235B-A22B 在 LiveBench 和 MultiF 上取得强劲成绩，展示了稳健的现实世界理解和多语言理解能力。

其他更小的模型

Qwen 3 架构上的创新同样在更小的模型尺寸上转化为卓越性能：

来源：Qwen

Qwen3-32B（密集）：性能紧随旗舰模型，仍在所有类别中优于大多数其他模型。
Qwen3-30B-A3B（MoE）：尽管仅使用了十分之一的激活参数，仍优于 QwQ-32B——展示了 Qwen 的高效和智能扩展。
Qwen3-4B（密集）：即便是如此紧凑的模型，也能与像 Qwen2.5-72B-Instruct 这样更大的模型相媲美，尤其是在推理和多语言任务上。

如何在 Novita AI 上访问 Qwen 3

在 Novita AI 上开始使用 Qwen 3 既快速、简单，又无风险。通过推荐计划，你将获得 $10 免费额度——足以充分探索 Qwen 3 的能力、构建原型，甚至启动你的第一个用例，而无需任何前期成本。

使用 Playground（无需编程）

即时访问：注册，领取免费额度，立即开始体验 Qwen 3 和其他顶级模型。
交互式 UI：测试提示词、思维链推理，并实时可视化结果。
模型对比：在 Qwen 3、Llama 4、DeepSeek 等模型之间轻松切换，找到最适合你需求的模型。

通过 API 集成（面向开发者）

使用 Novita AI 的统一 REST API，将 Qwen 3 无缝连接到你的应用程序、工作流或聊天机器人——无需管理模型权重或基础设施。Novita AI 提供多语言 SDK（Python、Node.js、cURL 等）以及面向高级用户的高级参数控制。

选项1：直接 API 集成（Python 示例）

开始使用只需以下代码片段：

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<你的 Novita AI API 密钥>",
)

model = "qwen/qwen3-235b-a22b-fp8"
stream = True # 或 False
max_tokens = 2048
system_content = """做一个有用的助手"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "你好！",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

主要特性：

统一端点：/v3/openai 支持 OpenAI 的 Chat Completions API 格式。
灵活的控制：调整 temperature、top-p、惩罚系数等，以获得定制结果。
流式与批处理：选择你偏好的响应模式。

选项2：使用 OpenAI Agents SDK 的多智能体工作流

通过将 Novita AI 与 OpenAI Agents SDK 集成，构建先进的多智能体系统：

即插即用：在任何 OpenAI Agents 工作流中使用 Novita AI 的 LLM。
支持转交、路由和工具使用：设计能够委托、分类或运行函数的智能体，全部由 Novita AI 的模型驱动。
Python 集成：只需将 SDK 指向 Novita 的端点（https://api.novita.ai/v3/openai）并使用你的 API 密钥即可。

在第三方平台上连接 Qwen 3 API

Hugging Face：通过 Novita AI 端点，在 Spaces、管道或 Transformers 库中使用 Qwen 3。
智能体与编排框架：通过官方连接器和逐步集成指南，轻松将 Novita AI 与合作伙伴平台（如 Continue、AnythingLLM、LangChain、Dify 和 Langflow）连接起来。
OpenAI 兼容 API：享受与 Cline 和 Cursor 等工具的零摩擦迁移和集成，这些工具专为 OpenAI API 标准设计。

优化 Qwen 3 性能的最佳实践

采样参数设置

思考模式
enable_thinking=True
Temperature： 0.6
TopP： 0.95
TopK： 20
MinP： 0
提示： 避免贪心解码，以防性能下降或产生重复输出。

非思考模式
enable_thinking=False
Temperature： 0.7
TopP： 0.8
TopK： 20
MinP： 0

重复控制
对于支持的框架，将 presence_penalty 调整在 0 到 2 之间以减少重复。
注意： 较高的值可能导致一些语言混合或模型性能轻微下降。

输出长度建议

对于大多数查询，将输出长度设置为 32,768 tokens。
对于复杂的基准测试任务（如数学或编程竞赛），将最大输出长度增加到 38,912 tokens，以获得更全面的响应。

标准化输出格式

数学问题： 在提示词中包含：“请逐步推理，并将最终答案放在 \boxed{} 中。”
多项选择题： 使用 JSON 字段标准化响应：“请在 answer 字段中仅显示选项字母，例如 “answer”: “C”。”

聊天历史管理

在多轮对话中，在聊天历史中仅包含最终输出。省略任何中间的“思考”内容。
如果使用 Jinja2 聊天模板，这会自动处理。对于其他框架，请确保手动遵循此做法。

遵循这些建议，你将确保 Qwen 3 在所有用例中始终提供准确、高质量的结果。

结论

Qwen 3 在编程、推理和多语言任务中提供了同类最佳的性能——无论项目规模如何。准备好一睹为快了吗？

立即在 Novita AI 上试试 Qwen 3 演示，并领取你的免费额度！

Novita AI 是一个 AI 云平台，为开发者提供使用简单 API 部署 AI 模型的便捷方式，同时还提供经济实惠且可靠的 GPU 云用于构建和扩展。

Qwen 3 现已登陆 Novita AI