Qwen3-VL-235B-A22B 上線 Novita AI:先進視覺語言模型

Qwen3-VL-235B-A22B 上線 Novita AI:先進視覺語言模型

Qwen3-VL-235B-A22B 現已上線 Novita AI 平台,透過我們優化後的基礎設施,為開發者帶來 Qwen 系列中最強大的視覺語言模型。本世代模型全面升級:文本理解與生成能力更強、視覺感知與推理更深層、上下文長度更長、空間與視頻動態理解更優異、代理互動能力也更強大。

模型提供 Instruct 與強化推理的 Thinking 兩個版本,可彈性依需求部署,適用於多元應用場景。無論您是開發視覺 AI 應用、建構自動化解決方案,還是探索先進多模態能力,Novita AI 上的 Qwen3-VL-235B-A22B 都能以對開發者友好的整合方式,提供您需要的工具。

試用 Qwen3-VL-235B-A22B 演示

什麼是 Qwen3-VL-235B-A22B?

Qwen3-VL-235B-A22B 是 Qwen 系列迄今最強大的視覺語言模型。本世代模型全面升級:文本理解與生成能力更優異、視覺感知與推理更深層、上下文長度更長、空間與視頻動態理解更強、代理互動能力也更突出。

模型提供從邊緣到雲端都能適配的 Dense 與 MoE 架構,並有 Instruct 與強化推理的 Thinking 版本可供彈性依需求部署。這是多模態 AI 能力的重大突破,結合了先進的視覺理解能力與成熟的推理能力。

兩個版本採用相同核心架構,但針對不同使用場景優化:Instruct 版本適用於直接任務完成與互動式應用,Thinking 版本則提供更強的推理能力,適合複雜問題解決場景。

關鍵升級亮點

視覺代理:可操作 PC/行動裝置圖形介面——辨識介面元素、理解功能、呼叫工具、完成任務。這項突破性能力讓模型能直接與圖形使用者介面互動,實現複雜工作流程自動化,並建構能導航與控制軟體應用程式的成熟 AI 代理。

視覺編碼增強:可根據圖片/視頻生成 Draw.io/HTML/CSS/JS 程式碼。模型能分析視覺設計與草圖,自動生成對應程式碼,大幅加速開發工作流程,實現基於視覺輸入的 AI 輔助編碼。

先進空間感知:可判斷物件位置、視角與遮擋情況;提供更強的 2D 定位能力,並支援 3D 定位以實現空間推理與具身 AI。這項升級讓模型在機器人、自動駕駛系統與需要複雜空間理解的應用中尤其實用。

長上下文與視頻理解:原生支援 256K 上下文,可擴展至 1M;可處理整本書與數小時長的視頻,實現完整記憶與秒級索引。這項能力讓模型能在維持全程上下文的情況下,全面分析大量文件與長視頻內容。

強化多模態推理:在 STEM/數學領域表現優異——能進行因果分析,輸出符合邏輯、有依據的答案。模型在科學與數學推理任務中表現突出,能根據視覺與文本資訊提供詳細的分析性回覆。

升級視覺辨識:更廣泛、更高品質的預訓練讓模型能「辨識萬物」——包含名人、動漫角色、商品、地標、動植物等。這項全面的辨識能力確保模型在多元視覺內容類型與領域中都能穩定運作。

擴展 OCR 能力:支援 32 種語言(從 19 種增加);在低光、模糊、傾斜的場景下仍能穩定運作;對罕見/古文字與專業術語的辨識能力更強;長文件結構解析效能提升。這項強化光學字元辨識能力讓模型在文件處理與文字擷取任務中非常高效。

文本理解與純 LLM 持平:實現無縫的文本-視覺融合,做到無損統一理解。模型的文本處理能力與專用語言模型相當,同時保有優異的多模態理解能力。

模型架構升級

Interleaved-MRoPE

交錯式 Interleaved-MRoPE:透過強健的位置嵌入,對時間、寬度、高度進行全頻段分配,強化長時程視頻推理能力。這項架構創新大幅提升了模型處理與理解視頻內容時間序列的能力。

DeepStack Feature Fusion

DeepStack:融合多層級 ViT 特徵,捕捉細粒度細節,強化影像-文本對齊。DeepStack 架構確保視覺與文本資訊的最佳整合,提升整體多模態效能。

Text-Timestamp Alignment

文本-時間戳對齊:超越 T-RoPE,實現精確的基於時間戳的事件定位,強化視頻時間建模能力。這項先進方法讓模型能更準確地理解視頻內容的時間資訊與事件定位。

可用模型版本

Qwen3-VL-235B-A22B-Instruct

這是 Qwen3-VL-235B-A22B-Instruct 的權重儲存庫。Instruct 版本針對直接任務完成與互動式應用優化,能對使用者查詢與指令提供即時回覆。此模型在需要對多模態輸入快速、準確回覆的場景中表現優異。

Qwen3-VL-235B-A22B-Thinking

這是 Qwen3-VL-235B-A22B-Thinking 的權重儲存庫。Thinking 版本搭載強化推理能力,非常適合需要詳細分析與逐步推理的複雜問題解決任務。此模型在需要深度分析思考與全面評估的應用中尤其有價值。

效能基準測試

Qwen3-VL-235B-A22B 的 Instruct 與 Thinking 兩個版本在多個領域都展現出卓越效能,在視覺語言理解與推理能力上有顯著提升。

Thinking 版本效能

Qwen3-VL-235B-A22B-Thinking 模型在視覺語言基準測試中表現優異:

Qwen3-VL Thinking 視覺語言效能

Thinking 版本的文本推理能力表現更為突出:

Qwen3-VL Thinking 文本效能

Instruct 版本效能

Qwen3-VL-235B-A22B-Instruct 模型在視覺語言評估指標上取得優異表現:

Qwen3-VL Instruct 視覺語言效能

Instruct 版本的文本理解與生成效能:

Qwen3-VL Instruct 文本效能

這些基準測試結果凸顯了模型在多元評估標準下,於多模態理解、推理與文本生成方面的卓越能力。兩個版本都在各自適用領域表現優異,能高效對應目標使用場景的需求。

在 Novita AI 平台開始使用 Qwen3-VL-235B-A22B

透過 Novita AI 使用 Qwen3-VL-235B-A22B 提供多種路徑,適合不同技術程度與使用場景。無論您是探索 AI 能力的企業使用者,還是建構生產應用的開發者,Novita AI 都能提供您需要的工具。

使用 Playground(現已開放,無需編碼)

  • 立即存取:註冊後即可在幾秒內開始實驗 Qwen3-VL-235B-A22B 模型
  • 互動介面:即時測試提示詞並可視化輸出結果
  • 模型比較:可針對您的特定使用場景,比較 Qwen3-VL-235B-A22B 與其他領先模型

Playground 讓您無需任何技術設定,即可測試各種提示詞並看到即時結果。非常適合在完整實作前進行原型驗證、想法測試與理解模型能力。

透過 API 整合(已上線,適合開發者)

使用 Novita AI 的统一 REST API,將 Qwen3-VL-235B-A22B 連接至您的應用程式。

選項 1:直接 API 整合(Python 範例)

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="qwen/qwen3-vl-235b-a22b-thinking",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=32768,
    temperature=0.7
)

print(response.choices[0].message.content)

選項 2:使用 OpenAI Agents SDK 建構多代理工作流程

運用 Qwen3-VL-235B-A22B 的進階能力,建構複雜的多代理系統:

  • 即插即用整合:可在任何 OpenAI Agents 工作流程中使用 Qwen3-VL-235B-A22B
  • 進階代理能力:支援交接、路由,以及結合視覺理解的工具整合
  • 可擴展架構:設計能運用 Qwen3-VL-235B-A22B 多模態能力的代理

選項 3:連接第三方平台

開發工具:透過 OpenAI 相容 API 與 Anthropic 相容 API,與 Cursor、Trae、Qwen Code、Cline 等熱門 IDE 與開發環境無縫整合。

編排框架:使用官方連接器,與 LangChain、Dify、CrewAI、Langflow 等其他 AI 編排平台連接。

Hugging Face 整合:Novita AI 是 Hugging Face 的官方推理提供者,確保廣泛的生態系統相容性。

使用場景與應用

視覺代理開發

運用視覺代理能力,建構能與圖形介面互動、自動化工作流程、透過視覺理解完成複雜任務的應用程式。

視覺編碼與開發

運用視覺編碼增強功能,根據視覺輸入生成 HTML、CSS、JavaScript 與 Draw.io 圖表,加速開發工作流程。

文件與視頻分析

運用 256K 上下文長度與強化 OCR 能力,進行全面的文件處理與視頻內容分析。

STEM 與教育應用

將強化多模態推理能力應用於教育科技、科學分析與數學問題解決等場景。

空間推理應用

運用先進空間感知能力,應用於機器人、自動駕駛系統與需要 3D 理解的場景。

總結

Novita AI 上的 Qwen3-VL-235B-A22B 提供當前最先進的視覺語言能力,Instruct 與 Thinking 兩個版本能為多元應用提供彈性部署選項。視覺感知、推理與代理能力的全面升級,搭配延伸上下文長度與優異的多模態理解能力,使其成為前沿 AI 開發的首選。

立即開始在 Novita AI 探索 Qwen3-VL-235B-A22B 的革命性能力,透過我們對開發者友好的平台與無縫整合選項,體驗視覺語言 AI 的未來。

Novita AI 是一個 AI 雲端平台,為開發者提供簡單的 API 以輕鬆部署 AI 模型,同時也提供實惠且可靠的 GPU 雲端服務,用於建構與擴展 AI 應用。