Qwen 3 现已登陆 Novita AI

Qwen 3 现已登陆 Novita AI

阿里巴巴尖端的 Qwen 3 大型语言模型现已登陆 Novita AI 的模型 API 平台!

以下是 Novita AI 上当前 Qwen 3 的产品线及定价:

  • Qwen3-235B-A22B:输入 $0.20 / M tokens,输出 $0.80 / M tokens
  • Qwen3-30B-A3B:输入 $0.10 / M tokens,输出 $0.45 / M tokens
  • Qwen3-32B:输入 $0.10 / M tokens,输出 $0.45 / M tokens
  • Qwen3-14B:输入 $0.07 / M tokens,输出 $0.275 / M tokens
  • Qwen3-8B:输入 $0.035 / M tokens,输出 $0.138 / M tokens
  • Qwen3-4B:免费
  • Qwen3-1.7B:免费

用最先进的语言模型驱动你的聊天机器人、应用和工作流——只需一次 API 调用,即可使用 Qwen 3。

什么是 Qwen 3?

Qwen 3 是阿里云 Qwen 团队开发的最新、最先进的大型语言模型系列。基于 QwQ 和 Qwen2.5 的经验,Qwen 3 在推理、多语言和智能体能力方面实现了重大改进,为开源 AI 树立了新的标杆。

Qwen 3 模型概览

Qwen 3 的主要特性

  • 不同规模的密集和混合专家(MoE)模型:Qwen 3 提供密集和 MoE 两种架构,型号从轻量级的 0.6B 和 1.7B,到大规模的 32B(密集)以及旗舰的 30B-A3B 和 235B-A22B(MoE)变体。
  • **混合思考模式 **:该模型允许在 “思考模式”(用于复杂、逐步的逻辑推理、数学和代码生成)和 “非思考模式”(用于快速、高效的通用聊天)之间无缝切换。
  • 显著增强的推理能力:Qwen 3 在数学、代码生成和常识逻辑推理方面超越了之前的 Qwen 模型。它还针对不同任务提供了更稳定、可控制的推理预算。
  • 卓越的人类偏好对齐:该模型在创意写作、角色扮演、多轮对话和指令遵循方面表现出色,从而带来更自然、更具吸引力的对话体验。
  • 先进的智能体能力:Qwen 3 专为基于智能体的工作流而设计,支持与外部工具的无缝集成,并在两种推理模式下实现精确的函数调用。这使其在复杂的、由智能体驱动的任务中展现出顶尖的性能。
  • 强大的多语言支持:支持 119 种语言和方言,Qwen 3 能够进行高质量的多语言指令遵循和翻译,为真正的全球应用打开了大门。

Qwen 3 的多语言支持

基准测试与性能

Qwen 3 系列在一整套 AI 基准测试中展现了行业领先的性能,在编程、数学、通用推理和多语言理解方面表现出色。

旗舰模型:Qwen3-235B-A22B

旗舰模型 Qwen3-235B-A22B 在与当今最先进的模型(如 DeepSeek-R1、OpenAI-01、OpenAI-o3-mini、Grok-3 Beta 和 Gemini-2.5-Pro)相比时,持续获得顶尖或接近顶尖的成绩。

Qwen3-235B-A22B 基准测试

来源Qwen

  • 复杂推理:在 ArenaHard 上获得最高分(95.6),优于或持平所有竞争对手。
  • 数学:在 AIME’24(85.7)和 AIME’25(81.5)上取得领先成绩,远超大多数商业和开源模型。
  • 编程:在 LiveCodeBench(70.7)和 CodeForces Elo(2056)上表现卓越,确认了其在软件和算法任务方面的实力。
  • 多语言与通用能力:Qwen3-235B-A22B 在 LiveBench 和 MultiF 上取得强劲成绩,展示了稳健的现实世界理解和多语言理解能力。

其他更小的模型

Qwen 3 架构上的创新同样在更小的模型尺寸上转化为卓越性能:

Qwen3-30B-A3B (MoE) 基准测试

来源Qwen

  • Qwen3-32B(密集):性能紧随旗舰模型,仍在所有类别中优于大多数其他模型。
  • Qwen3-30B-A3B(MoE):尽管仅使用了十分之一的激活参数,仍优于 QwQ-32B——展示了 Qwen 的高效和智能扩展。
  • Qwen3-4B(密集):即便是如此紧凑的模型,也能与像 Qwen2.5-72B-Instruct 这样更大的模型相媲美,尤其是在推理和多语言任务上。

如何在 Novita AI 上访问 Qwen 3

在 Novita AI 上开始使用 Qwen 3 既快速、简单,又无风险。通过推荐计划,你将获得 $10 免费额度——足以充分探索 Qwen 3 的能力、构建原型,甚至启动你的第一个用例,而无需任何前期成本。

使用 Playground(无需编程)

  • 即时访问注册,领取免费额度,立即开始体验 Qwen 3 和其他顶级模型。
  • 交互式 UI:测试提示词、思维链推理,并实时可视化结果。
  • 模型对比:在 Qwen 3、Llama 4、DeepSeek 等模型之间轻松切换,找到最适合你需求的模型。

通过 API 集成(面向开发者)

使用 Novita AI 的统一 REST API,将 Qwen 3 无缝连接到你的应用程序、工作流或聊天机器人——无需管理模型权重或基础设施。Novita AI 提供多语言 SDK(Python、Node.js、cURL 等)以及面向高级用户的高级参数控制。

选项1:直接 API 集成(Python 示例)

开始使用只需以下代码片段:

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<你的 Novita AI API 密钥>",
)

model = "qwen/qwen3-235b-a22b-fp8"
stream = True # 或 False
max_tokens = 2048
system_content = """做一个有用的助手"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "你好!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

主要特性:

  • 统一端点/v3/openai 支持 OpenAI 的 Chat Completions API 格式。
  • 灵活的控制:调整 temperature、top-p、惩罚系数等,以获得定制结果。
  • 流式与批处理:选择你偏好的响应模式。

选项2:使用 OpenAI Agents SDK 的多智能体工作流

通过将 Novita AI 与 OpenAI Agents SDK 集成,构建先进的多智能体系统:

  • 即插即用:在任何 OpenAI Agents 工作流中使用 Novita AI 的 LLM。
  • 支持转交、路由和工具使用:设计能够委托、分类或运行函数的智能体,全部由 Novita AI 的模型驱动。
  • Python 集成:只需将 SDK 指向 Novita 的端点(https://api.novita.ai/v3/openai)并使用你的 API 密钥即可。

在第三方平台上连接 Qwen 3 API

  • Hugging Face:通过 Novita AI 端点,在 Spaces、管道或 Transformers 库中使用 Qwen 3。
  • 智能体与编排框架:通过官方连接器和逐步集成指南,轻松将 Novita AI 与合作伙伴平台(如 ContinueAnythingLLMLangChainDifyLangflow)连接起来。
  • OpenAI 兼容 API:享受与 ClineCursor 等工具的零摩擦迁移和集成,这些工具专为 OpenAI API 标准设计。

优化 Qwen 3 性能的最佳实践

  1. 采样参数设置

思考模式
enable_thinking=True
Temperature: 0.6
TopP: 0.95
TopK: 20
MinP: 0
提示: 避免贪心解码,以防性能下降或产生重复输出。

非思考模式
enable_thinking=False
Temperature: 0.7
TopP: 0.8
TopK: 20
MinP: 0

重复控制
对于支持的框架,将 presence_penalty 调整在 02 之间以减少重复。
注意: 较高的值可能导致一些语言混合或模型性能轻微下降。

  1. 输出长度建议
  • 对于大多数查询,将输出长度设置为 32,768 tokens
  • 对于复杂的基准测试任务(如数学或编程竞赛),将最大输出长度增加到 38,912 tokens,以获得更全面的响应。
  1. 标准化输出格式
  • 数学问题: 在提示词中包含:“请逐步推理,并将最终答案放在 \boxed{} 中。”
  • 多项选择题: 使用 JSON 字段标准化响应:“请在 answer 字段中仅显示选项字母,例如 “answer”: “C”。”
  1. 聊天历史管理
  • 在多轮对话中,在聊天历史中仅包含最终输出。省略任何中间的“思考”内容。
  • 如果使用 Jinja2 聊天模板,这会自动处理。对于其他框架,请确保手动遵循此做法。

遵循这些建议,你将确保 Qwen 3 在所有用例中始终提供准确、高质量的结果。

结论

Qwen 3 在编程、推理和多语言任务中提供了同类最佳的性能——无论项目规模如何。准备好一睹为快了吗?

立即在 Novita AI 上试试 Qwen 3 演示,并领取你的免费额度

Novita AI 是一个 AI 云平台,为开发者提供使用简单 API 部署 AI 模型的便捷方式,同时还提供经济实惠且可靠的 GPU 云用于构建和扩展。