在快速发展的多模态人工智能领域,开发者面临着持续不断的挑战:传统的语言模型难以理解视觉信息、进行空间推理、与现实世界的界面交互,也难以处理冗长复杂的上下文。这些局限性限制了它们作为真正智能体的能力,使其无法跨模态地进行感知和决策。
本文介绍 Qwen3-VL阿里云最先进的 视觉语言模型(VLM)Qwen3-VL旨在克服这些障碍。通过整合改进的文本理解、视觉推理、空间认知和多模态交互,Qwen3-VL使人工智能系统能够看、理解、推理和行动。
与 Qwen-VL 或 Qwen2.5-VL 相比,Qwen3-VL 有哪些改进?
Qwen3-VL 代表了阿里云最先进的视觉语言模型 (VLM)。它提升了文本理解、视觉感知、空间推理和交互智能方面的能力,使 AI 能够跨模态(图像、视频、文本和界面)进行观察、理解、推理和行动。
| 市场问题 | 传统方法的局限性 LLMs | Qwen3-VL 如何解决这个问题 |
|---|---|---|
| 1. 缺乏视觉理解 | 纯文本模型无法解读图像或视频。 | 添加一个 视觉转换器编码器 以及用于理解视觉场景和细节的融合层。 |
| 2. 缺乏空间推理能力 | LLM无法对物体位置、遮挡或 3D 关系进行推理。 | 集成 二维/三维空间接地 以及用于具身智能的空间推理模块。 |
| 3. 缺乏现实世界的互动 | 模型无法操作软件或图形用户界面。 | 介绍一个 视觉代理 能够识别按钮、理解功能并执行工具操作。 |
| 4. 短上下文限制 | 标准型号无法处理长文档或视频。 | 支持 256K–1M 令牌上下文能够完整回忆长篇文本和数小时长的视频。 |
| 5. 多模态推理能力较弱 | 模型难以将文本、数学和视觉数据联系起来。 | 增强 逻辑推理和因果推理 跨学科(STEM、数学、问答)。 |
| 6. 视野范围狭窄 | 识别范围仅限于常见物体。 | 扩大认可范围 人物、产品、地标、植物、动物、动漫等等。 |
| 7. 脆弱的OCR性能 | 在图像模糊、倾斜或多语言情况下无法正常工作。 | 扩展 OCR识别支持32种语言能够有效应对噪声、罕见脚本和复杂布局。 |
| 8. 多模态融合中文本质量的损失 | 增加视觉功能通常会削弱文本处理能力。 | 实现 无损融合——文本理解等同于纯粹 LLMs. |
您可以直接使用 Novita AI 在网站用户界面中点击“拥抱脸”即可开始免费快速试用!
Qwen3-VL 模型完整指南:24 个开源权重
Qwen3-VL 提供两种基本架构—— 稠密 和 MoE(混合专家) — 实现灵活部署 边缘设备到云环境.
- 型号变体:
- 教师版: 针对指令跟踪、问答、总结和内容生成进行了优化。
- 思考版: 增强了多步骤推理和复杂分析或决策任务的能力。
- 核心组件:
- 文本主干: 此 Qwen3 变压器 语言模型。
- 视觉编码器: 改进的 ViT(视觉转换器) 集成了 跨模态融合层 用于统一的文本-视觉理解。
| 发布日期 | 型号 | 尺寸/规格 | 模式 |
|---|---|---|---|
| 2025-09-23 | Qwen3-VL-235B-A22B-指导/思考 | 235B 参数(22B 活动) | 教育部 |
| 2025-10-04 | Qwen3-VL-30B-A3B-指导/思考 | 30B(3B活跃) | 教育部 |
| 2025-10-15 | Qwen3-VL-4B(指导/思考) Qwen3-VL-8B(指导/思考) | 4B & 8B | 稠密 |
| 2025-10-21 | Qwen3-VL-2B(指导/思考) Qwen3-VL-32B(指导/思考) | 2B & 32B | 稠密 |
Qwen3-VL 在视觉任务上的表现如何?

| 任务维度 | 代表性基准 | Qwen3-VL 性能 |
|---|---|---|
| 文本识别/OCR | OCRBench 850–920 | 在所有模型中均处于领先地位;对模糊和多语言文本具有很强的鲁棒性。 |
| STEM/数学推理 | AIME,MathVerse | 从 8B 开始有显著改善;235B 平均为 80+。 |
| 视觉问答(VQA) | MMBench、RealWorldQA | 32B 和 MoE 型号优于 GPT-5 Mini。 |
| 空间和三维推理 | EmbSpatialBench > 80 | 具备较强的二维/三维空间感知能力;支持增强现实/虚拟现实理解。 |
| 视频理解 | VideoMME,LVBench ≈ 80 | 可处理 256K–1M 的上下文信息,用于一小时的视频分析。 |
| 代理能力 | ScreenSpot ≈ 95 | 展示图形用户界面操作和工具调用技能。 |
| 编码/可视化编程 | Design2Code ≈ 90+ | 将图像转换为可运行的 HTML/CSS/JS 代码。 |
| 多语言理解 | MMLU-ProX ≈ 80 | 与纯种相当 LLMs;实现了无缝的文本视觉融合。 |
Qwen3-VL 建立了一个全方位多模态智能系统 — 擅长 OCR、推理、视频、空间理解和自主交互。
从 2B至235B性能呈线性增长,而 8B 和 30B-A3B 这些型号具有最高的性价比。
说到底, Qwen3-VL变换 LLM将语言模型整合到统一的视觉-语言-动作系统中 能够跨模态进行感知、推理和执行。
在本地运行 Qwen3-VL 需要什么样的硬件?
| 型号型号 | 硬件要求 | 备注/建议 |
|---|---|---|
| 较小型号(4B / 8B) | 在本地运行 单 GPU (建议使用 24-40 GB 显存)。强烈建议消费者使用高量化(INT4/FP16)。 GPU如 RTX 4090 / 3090 / A6000. | 最适合本地开发、研究和边缘部署。 |
| 中档型号(32B) | 要求 ≥ 80 GB 显存 or 双-GPU 格局量化可以将内存需求降低至每台 40 GB。 GPU. | 适用于本地服务器或云端推理。 |
| 旗舰 MoE(Qwen3-VL-30B-A3B / 235B-A22B) | 需求 至少8 GPUs,每一个 ≥ 80 GB 显存 (例如,A100、H100、H200)。 | 默认设置在较小的设备上可能失效。 GPUs;请遵循以下精度和内存调优指南。 |
Novita 以其价格实惠而脱颖而出,提供同等品质的产品。 GPU价格大约只有 RunPod 和类似平台的一半。

对于开发者而言,使用 Qwen3-VL 构建多模态代理有哪些实际的见解?
1. 选择合适的变体
- 使用 指导 当任务涉及工作流程、UI自动化或内容生成时,则需要进行相应的调整。
- 使用 思维 当您需要深度推理、多步骤逻辑、STEM/数学处理或空间/视频理解时,可以使用此变体。
- 根据任务和硬件调整模型大小:较小的版本适用于响应迅速的本地代理,较大的版本适用于高保真推理或长上下文任务。
2. 构建您的多模态输入和工作流程
- 在一次调用中组合不同的模态:例如,图像(
"type":"image")+文本说明。该存储库显示了这种模式。 - 对于视频或长上下文任务,提供带有时间戳对齐的图像/帧+文本提示,以利用模型的长时域记忆。
- 构建操作图形用户界面或工具的代理时:首先捕获屏幕截图或用户界面状态,然后提示模型进行解释并决定执行什么操作。GitHub 上的示例代码包含“移动代理”和“计算机使用代理”演示。
3. 优化效率和部署
- 启用加速功能(例如 Flash Attention v2),并使用针对繁重多模态负载优化的后端。
- 对于硬件资源有限的部署环境:可以对模型进行量化或限制模式(例如,仅图像输入、限制帧数),以减少内存和计算资源消耗。社区指南针对大型模型提供了相关示例。
- 使用批量处理、视频时间采样和内存高效的推理框架(例如 vLLM 食谱)以支持长上下文和多帧任务。
4. 设计稳健的代理逻辑和回退机制
- 在自动化 UI 任务时:包含验证步骤(任务是否成功?如果没有,描述状态)以处理动态布局或失败情况。
- 对于视觉推理任务:设计提示,明确“观察什么”、“做什么”和“如何报告结果”。例如:屏幕截图 + “找到‘提交’按钮,点击它,然后总结确认信息。”
- 对于长视频或大型文档处理任务:构建检索或索引逻辑(例如,关键帧提取或子上下文分割)以控制延迟并避免内存溢出。社区文章提到可以使用关键帧提取来处理长达一小时的输入内容。
- Qwen3-VL 是否仅限于图像 + 文本模式,还是未来会支持视频、音频和更广泛的多模态输入?
如何获取 Qwen3-VL 系列产品?
Novita AI 提供 Qwen3-VL 235B 思维 API,上下文窗口大小为 131K,每个输入收费 0.98 美元,每个输出收费 3.95 美元。它还提供 Qwen3-VL 235B 指导 API 具有 131K 上下文窗口,每个输入 0.30 美元,每个输出 1.50 美元,支持结构化输出和函数调用。
1. Web 界面(最适合初学者)

2. API 访问(针对开发人员)
步骤 1:登录并访问模型库
登录您的帐户并点击 模型库 按钮。

步骤 2:选择您的型号
浏览可用的选项并选择适合您需求的模型。

第 3 步:开始免费试用
开始免费试用,探索所选型号的功能。

步骤 4:获取您的 API 密钥
为了通过 API 进行身份验证,我们将为您提供一个新的 API 密钥。进入“设置”页面,您可以按照图中所示复制 API 密钥。

步骤 5:安装 API
使用特定于您的编程语言的包管理器安装 API。
安装完成后,将必要的库导入到你的开发环境中。使用你的 API 密钥初始化 API,即可开始与 Novita AI LLM。这是 Python 用户使用聊天完成 API 的示例。
从 openai 导入 OpenAI 客户端 = OpenAI(base_url="https://api.novita.ai/openai”,api_key =“session_UxQ9B4FllYcK6ZwMw6OFh5Q15fFCM4gMHoTbNh4vB3ZF_Dc5yN4RzVXxOHjarOF-AhMO61lRJN8plthUCfFvZA==”,)model =“qwen/qwen3-vl-235b-a22b-thinking”stream = True # 或 False max_tokens = 16384 system_content =“成为一个有用的助手”temperature = 1 top_p = 1 min_p = 0 top_k = 50 presence_penalty = 0 frequency_penalty = 0 repetition_penalty = 1 response_format = {“type”:“text”} chat_completion_res = client.chat.completions.create(model=model,messages=[{“role”:“system”,“content”: system_content, }, { "role": "user", "content": "Hi there!", } ], stream=stream, max_tokens=max_tokens, temperature=temperature, top_p=top_p, presence_penalty=presence_penalty, frequency_penalty=frequency_penalty, response_format=response_format, extra_body={ "top_k": top_k, "repetition_penalty": repetition_penalty, "min_p": min_p } ) 如果流:对于 chat_completion_res 中的块:打印(chunk.choices[0].delta.content 或“”,end="”)否则:打印(chat_completion_res.choices[0].message.content)
3. 本地部署(高级用户)
申请条件:
- Qwen3-VL-235B-A22B:8 NVIDIA H200 GPUs.
安装步骤:
- 下载模型权重 ,来自 拥抱脸 或 ModelScope
- 选择推理框架:vLLM 或支持 SGLang
- 遵循部署指南 在官方 GitHub 仓库中
4。 积分
使用 CLI,如 Trae、Claude Code、Qwen Code
如果你想使用 Novita AI的顶级模型(如 Qwen3-Coder、Kimi K2、DeepSeek R1)用于在您的本地环境或 IDE 中进行 AI 编码辅助,过程很简单:获取您的 API 密钥、安装工具、配置环境变量并开始编码。
详细的设置命令和示例,请查看官方教程:
- TRAE : 在 IDE 中访问 AI 模型的分步指南
- 克劳德代码:如何在 Windows、Mac 和 Linux 上的 Claude Code 中使用 Kimi-K2
- Qwen代码:如何在 Qwen 代码中使用 OpenAI 兼容 API(60 年代设置!)
多代理工作流 OpenAI 经纪人 软件开发套件(SDK)
通过集成构建先进的多代理系统 Novita AI 使用 OpenAI Agents SDK:
- 即插即用: 绝大部分储备使用 Novita AI“ LLM在任何 OpenAI Agents 工作流程中。
- 支持切换、路由和工具使用: 设计可以委派、分类或运行功能的代理,全部由 Novita AI的模型。
- Python 集成: 只需将 SDK 端点设置为
https://api.novita.ai/v3/openai并使用您的 API 密钥。
连接第三方平台的API
OpenAI兼容API: 享受轻松的迁移和集成,例如 克莱因 和 光标,专为 OpenAI API 标准而设计。
抱脸: 在空间、管道或 Transformers 库中使用 Modeis Novita AI 端点。
代理和编排框架: 轻松连接 Novita AI 与合作伙伴平台 继续, 任何LLM,浪链, 迪菲 和 朗弗罗 通过官方连接器和分步集成指南。
具有弹性 稠密 和 教育部 架构,从 2B至235B Qwen3-VL 参数设置方面,既支持本地实验,也支持企业级部署。 8B 和 30B-A3B 各种型号兼顾成本和性能,而 235B-A22B 该模型达到了最先进的多模态推理水平。最终,Qwen3-VL 标志着向具身智能迈出了决定性的一步——它使开发人员能够构建不仅能分析信息,还能在数字和物理环境中智能行动的系统。
常見問題解答
Qwen3-VL 引入了增强的视觉理解、2D/3D 空间推理、高达 1 万个词元的长上下文理解,以及一个可以与软件界面交互的“视觉代理”。它还将 OCR 支持范围扩展到 32 种语言,并实现了无损的文本-视觉融合。
像Qwen3-VL-4B或Qwen3-VL-8B这样的小型型号可以在单个电源上运行。 GPU (24 – 40 GB 显存)支持量化。Qwen3-VL-30B-A3B 和 Qwen3-VL-235B-A22B 至少需要八个 GPU每款显卡均配备 80 GB 显存(例如 H100 / A100 / H200)。建议 H100 使用 FP8 模式以最大程度地提高效率。
在所有基准测试中,例如 MMBench, OCRBench和 数学诗Qwen3-VL 的性能优于前几代模型,OCRBench 得分在 850-920 分之间,并且在 VQA 测试中超越了 GPT-5 Mini。它在空间推理、视频推理和 STEM 推理方面表现出色。
Novita AI 是一个人工智能云平台,它为开发人员提供了一种使用我们简单的 API 轻松部署人工智能模型的方法,同时还提供经济实惠且可靠的 GPU 用于构建和扩展的云。
推荐阅读
- 如何在 Trae 中使用扩展上下文支持访问 Qwen3-Next-80B-A3B
- Kimi K2-0905 API 提供商比较:NovitaAI 为何脱颖而出
- 如何访问 Qwen3-VL-235B-A22B 并构建更智能的代码演示
探索 Novita 的更多内容
订阅即可将最新帖子发送到您的电子邮箱。






