Novita AI 上线 Qwen3-VL-235B-A22B:先进视觉语言模型

Novita AI 上线 Qwen3-VL-235B-A22B:先进视觉语言模型

Qwen3-VL-235B-A22B 现已上线 Novita AI 平台,通过我们优化的基础设施,为开发者带来 Qwen 系列迄今最强大的视觉语言模型。这一代模型实现了全方位全面升级:更出色的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、更强的空间与视频动态理解能力,以及更优的智能体交互能力。

模型提供指令版与推理增强的思维链(Thinking)两个版本,支持灵活按需部署,适配各类应用场景。无论你是开发视觉 AI 应用、构建自动化解决方案,还是探索先进多模态能力,Novita AI 上的 Qwen3-VL-235B-A22B 都能以开发者友好的集成方式,为你提供所需工具。

试用 Qwen3-VL-235B-A22B 演示

什么是 Qwen3-VL-235B-A22B?

Qwen3-VL-235B-A22B 是 Qwen 系列迄今最强大的视觉语言模型。这一代模型实现了全方位全面升级:更出色的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、更强的空间与视频动态理解能力,以及更优的智能体交互能力。

模型提供稠密(Dense)与混合专家(MoE)两种架构,覆盖从端侧到云端的全场景部署需求,同时支持指令版与推理增强的思维链版本,实现灵活按需部署。该模型代表了多模态 AI 能力的重大突破,将先进的视觉理解能力与复杂的推理能力深度融合。

两个版本基于同一核心架构,但针对不同使用场景做了优化:指令版适用于直接任务完成与交互式应用,思维链版则提供更强的推理能力,适配复杂问题求解场景。

核心升级点

视觉智能体:可操作 PC/移动端图形界面——识别界面元素、理解功能逻辑、调用工具、完成指定任务。这一突破性能力让模型能够直接与图形用户界面交互,实现复杂工作流自动化,还可构建可导航、可控制软件应用的高级 AI 智能体。

视觉编码增强:可根据图片/视频生成 Draw.io 图表、HTML/CSS/JS 代码。模型能够分析视觉设计与原型图,自动生成对应代码,大幅加速开发工作流,实现基于视觉输入的 AI 辅助编码。

先进空间感知:可判断物体位置、视角与遮挡关系,提供更强的 2D 定位能力,同时支持 3D 定位,适配空间推理与具身智能场景。这一升级让模型在机器人、自动驾驶系统以及需要复杂空间理解的应用中表现尤为突出。

长上下文与视频理解:原生支持 256K 上下文,可扩展至 1M;可处理书籍、数小时长的视频内容,实现全量召回与秒级索引。该能力支持对长文档、长视频内容进行全面分析,同时在整个序列中保持上下文连贯性。

增强多模态推理:在 STEM/数学领域表现优异,可进行因果分析、输出符合逻辑的循证答案。模型在科学与数学推理任务中表现突出,能够基于视觉与文本信息输出详细的分析性回答。

升级视觉识别:更广泛、更高质量的预训练让模型实现“全品类识别”——可识别名人、动漫角色、商品、地标、动植物等各类内容。这一全面的识别能力确保模型在各类视觉内容类型与领域中都表现稳定。

扩展 OCR 能力:支持 32 种语言(较此前 19 种大幅提升);在低光照、模糊、倾斜场景下表现稳健;对生僻字、古文字、专业术语的识别能力更强;长文档结构解析能力也有所提升。增强的光学字符识别能力让模型在文档处理、文本提取任务中表现优异。

文本理解达纯文本大模型水平:实现文本与视觉的无缝融合,提供无损、统一的理解能力。模型文本处理能力与专用语言模型相当,同时保持领先的多模态理解水平。

模型架构升级

交错式 MRoPE

交错式 MRoPE:通过鲁棒的位置编码,在时间、宽度、高度维度实现全频段分配,增强长周期视频推理能力。这一架构创新大幅提升了模型处理与理解视频内容时序序列的能力。

DeepStack 特征融合

DeepStack:融合多层级 ViT 特征,捕捉细粒度细节,优化图像-文本对齐效果。DeepStack 架构确保视觉与文本信息的最优融合,提升整体多模态性能。

文本-时间戳对齐

文本-时间戳对齐:突破传统 T-RoPE 限制,实现基于精确时间戳的事件定位,强化视频时序建模能力。这一先进方法让模型能够更准确地理解视频内容的时序关系、定位事件节点。

可用模型版本

Qwen3-VL-235B-A22B 指令版

这是 Qwen3-VL-235B-A22B 指令版的权重仓库。指令版针对直接任务完成与交互式应用优化,可即时响应用户查询与指令,在需要快速、准确处理多模态输入的场景中表现优异。

Qwen3-VL-235B-A22B 思维链版

这是 Qwen3-VL-235B-A22B 思维链版的权重仓库。思维链版集成了增强的推理能力,非常适合需要详细分析、逐步推理的复杂问题求解任务,在需要深度分析思维与全面评估的应用中价值突出。

性能基准测试

Qwen3-VL-235B-A22B 的指令版与思维链版在多个领域均表现优异,在视觉语言理解与推理能力上有显著提升。

思维链版性能

Qwen3-VL-235B-A22B 思维链版在视觉语言基准测试中表现突出:

Qwen3-VL 思维链版视觉语言性能

思维链版的文本推理能力表现同样优异:

Qwen3-VL 思维链版文本性能

指令版性能

Qwen3-VL-235B-A22B 指令版在视觉语言评估指标上具有竞争力:

Qwen3-VL 指令版视觉语言性能

指令版的文本理解与生成性能:

Qwen3-VL 指令版文本性能

这些基准测试结果凸显了该模型在多模态理解、推理、文本生成方面的卓越能力,覆盖各类评估标准。两个版本在各自适用领域表现强劲,能够高效满足目标场景的需求。

在 Novita AI 平台开始使用 Qwen3-VL-235B-A22B

通过 Novita AI 使用 Qwen3-VL-235B-A22B 提供多种路径,适配不同技术水平和使用场景。无论你是探索 AI 能力的业务用户,还是构建生产级应用的开发者,Novita AI 都能提供你需要的工具。

使用在线演练场(现已开放,无需编码)

  • 即时访问:注册后即可在数秒内开始试用 Qwen3-VL-235B-A22B 模型
  • 交互式界面:实时测试提示词、可视化输出结果
  • 模型对比:可根据你的具体使用场景,将 Qwen3-VL-235B-A22B 与其他领先模型进行对比

在线演练场无需任何技术配置即可测试各类提示词、获得即时结果,非常适合在全面落地前进行原型验证、想法测试与模型能力评估。

通过 API 集成(已正式上线,面向开发者)

你可以通过 Novita AI 统一的 REST API 将 Qwen3-VL-235B-A22B 接入你的应用。

选项1:直接 API 集成(Python 示例)

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="qwen/qwen3-vl-235b-a22b-thinking",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=32768,
    temperature=0.7
)

print(response.choices[0].message.content)

选项2:使用 OpenAI Agents SDK 构建多智能体工作流

利用 Qwen3-VL-235B-A22B 的先进能力构建复杂多智能体系统:

  • 即插即用集成:可在任意 OpenAI Agents 工作流中使用 Qwen3-VL-235B-A22B
  • 高级智能体能力:支持智能体交接、路由调度,以及带视觉理解能力的工具集成
  • 可扩展架构:可设计利用 Qwen3-VL-235B-A22B 多模态能力的智能体

选项3:接入第三方平台

开发工具:通过 OpenAI 兼容 API 与 Anthropic 兼容 API,可无缝集成 Cursor、Trae、Qwen Code、Cline 等主流 IDE 与开发环境。 编排框架:可通过官方连接器接入 LangChain、Dify、CrewAI、Langflow 等 AI 编排平台。 Hugging Face 集成:Novita AI 是 Hugging Face 官方推理服务提供商,确保广泛的生态兼容性。

使用场景与应用

视觉智能体开发

利用视觉智能体能力,构建可与图形界面交互、自动化工作流、通过视觉理解完成复杂任务的应用。

视觉编码与开发

利用视觉编码增强能力,从视觉输入生成 HTML、CSS、JavaScript 代码与 Draw.io 图表,加速开发工作流。

文档与视频分析

借助 256K 上下文长度与增强的 OCR 能力,实现全面的文档处理与视频内容分析。

STEM 与教育应用

将增强的多模态推理能力应用于教育科技、科学分析、数学问题求解等场景。

空间推理应用

应用先进的空间感知能力,适配机器人、自动驾驶系统以及需要 3D 理解的应用场景。

总结

Novita AI 上的 Qwen3-VL-235B-A22B 提供当今最先进的视觉语言能力,指令版与思维链版提供灵活的部署选项,适配各类应用场景。视觉感知、推理、智能体能力的全面升级,搭配超长上下文与领先的多模态理解能力,使其成为前沿 AI 开发的不二之选。

立即在 Novita AI 上探索 Qwen3-VL-235B-A22B 的革命性能力,通过我们开发者友好的平台与无缝集成选项,体验视觉语言 AI 的未来。

Novita AI 是一个 AI 云平台,为开发者提供简单的 API 来轻松部署 AI 模型,同时提供高性价比、可靠的 GPU 云服务,用于 AI 应用的构建与扩展。