在 Novita AI 上運行 Qwen3-VL-30B-A3B:配備 256K 上下文的高級視覺語言模型

在 Novita AI 上運行 Qwen3-VL-30B-A3B:配備 256K 上下文的高級視覺語言模型

Qwen3-VL-30B-A3B 擁有 300 億參數,可同時處理圖像、文件、影片與文字。該模型功能涵蓋從 32 語言 OCR 到基於 256K 上下文的數小時影片分析,各類任務都能勝任。

Novita AI 提供兩個版本。Instruct 版本回應快速直接,Thinking 版本會展示複雜任務的推理過程。您可以透過 playground 或 API 使用這兩個版本。

試用 Qwen3-VL-30B-A3B 演示

什麼是 Qwen3-VL-30B-A3B?

Qwen3-VL-30B-A3B 源自阿里巴巴雲 Qwen 團隊。該模型採用 MoE(Mixture-of-Experts,混合專家)架構,總參數達 305 億,其中激活參數僅 33 億。這種設計在保持成本可控的同時,能提供強勁的效能。

該模型定位在較小的 Qwen3-VL 系列與旗艦款 Qwen3-VL-235B-A22B 之間,兼備能力與效率。235B 模型在最苛刻的推理任務上表現優異,而 30B 版本則以更低的成本、更快的推理速度提供相近的能力。

主要升級內容包括:

  • 原生支援 256K 上下文,可擴展至 100 萬 tokens
  • 支援 32 語言 OCR(從 19 種語言升級而來)
  • 2D 與 3D 空間定位
  • GUI 互動能力
  • 可從視覺輸入生成程式碼
  • 配備秒級索引的影片理解能力

兩個版本滿足不同需求:Instruct 版本專注速度,Thinking 版本勝任複雜推理。

主要功能與改進

視覺代理能力

該模型可識別介面元素,並在 PC 與行動裝置 GUI 上完成任務。它能理解按鈕功能與應用程式導航方式。

視覺編程

給 Qwen3-VL 提供一張截圖,即可獲得可運行的程式碼。該模型可從圖像與影片生成 Draw.io 圖表、HTML、CSS 與 JavaScript 程式碼。

空間感知

該模型可判斷物體位置、視角與遮擋情況,提供 2D 定位功能,並支援 3D 定位以滿足空間推理與具身 AI 應用的需求。

長影片擴展上下文

原生 256K 上下文可擴展至 100 萬 tokens。該模型可完整處理書籍與數小時長的影片,實現全量記憶。秒級索引功能讓您可以查詢特定時間點的內容。

進階 OCR

OCR 現已支援 32 種語言。該模型可在低光環境下運作,處理模糊、傾斜的文件,辨識罕見字元與古文字,同時在解析長文件時保留原有結構。

STEM 與數學推理

該模型擅長針對科學、技術、工程與數學問題進行因果分析,並提供基於證據的解答。

升級的辨識能力

更廣泛的預訓練讓該模型可以辨識名人、動漫角色、商品、地標、植物與動物。

模型架構與規格

架構: Qwen3VLMoeForConditionalGeneration,搭載整合式基於 ViT 的視覺編碼器

核心規格:

  • 總參數:30.5B
  • 激活參數:3.3B
  • 上下文長度:原生 256K tokens,可擴展至 1M
  • 支援格式:JPEG、PNG、WebP、BMP、影片

三大架構創新: Interleaved-MRoPE 透過位置嵌入,在時間、寬度與高度維度上分配完整頻率,提升長時程影片推理能力。

DeepStack 融合多層級 ViT 特徵,捕捉細微細節,強化圖像-文字對齊效果。

Text-Timestamp Alignment 提供精準的、基於時間戳的事件定位,強化影片時間建模能力。

Qwen3-VL-30B-A3B-Instruct 與 Qwen3-VL-30B-A3B-Thinking 比較

Instruct:快速直接

Instruct 版本會立即回應,不會展示推理過程,針對速度與吞吐量進行了最佳化。

適用場景:

  • 即時圖像分類
  • 文件 OCR 與文字提取
  • 大規模內容審核
  • 高流量 API 呼叫
  • 簡單視覺問答

Thinking:詳細推理

Thinking 版本會在回答前展示逐步分析過程,將複雜問題拆解為邏輯步驟,運作方式與更大的 Qwen3-VL-235B-A22B Thinking 版本 類似。

適用場景:

  • 圖像數學題
  • 多步驟視覺推理
  • 科學文件分析
  • 教育應用
  • 需要可解釋性的任務

大多數生產環境工作負載建議選擇 Instruct 版本;若需要透明推理或處理複雜分析任務,則切換至 Thinking 版本。

效能基準測試

Thinking 版本測試結果

Qwen/Qwen3-VL-30B-A3B-Thinking 效能基準

在多項測試中表現優異:

  • 數學推理: MathVista、MathVerse、GeoQA
  • 視覺問答: VQAv2、GQA、TextVQA
  • 文件處理: DocVQA、InfoVQA、ChartQA
  • 通用視覺: MMMU、MMBench、Seed-Bench
  • 影片處理: 時間推理與影片問答

鏈式思維推理會將多步驟問題拆解為邏輯階段來處理。

Instruct 版本測試結果

Qwen/Qwen3-VL-30B-A3B-Instruct 效能基準

效能表現均衡:

  • 視覺語言: 多模態理解基準測試
  • 文字任務: 閱讀理解與語言能力
  • OCR: 文字提取準確率
  • 速度: 低延遲且不犧牲品質
  • 語言支援: 多語言支援

Instruct 版本在保持準確率的同時實現更快的推理速度,是對速度有要求的場景的理想選擇。

如何選擇

  • Thinking 詳細推理、數學題、可解釋 AI
  • Instruct 快速回應、高吞吐量、簡單問答

MoE 架構讓這兩個版本都能以更低的成本與更大的模型競爭。

核心能力

視覺理解

該模型可生成從簡短標註到詳細分析的各類描述,能識別物體、人物、場景、空間關係與抽象概念。

文件處理

32 語言 OCR 可在低光、模糊、傾斜等惡劣條件下運作,能辨識罕見字元、古文字與專業術語,同時保留文件原有結構。

支援格式:

  • 掃描文件與 PDF
  • 收據與發票
  • 表單與表格
  • 圖表與圖解
  • 多欄排版

視覺問答

提出具體問題,即可獲得相關情境的解答,包括:

  • 物體數量與屬性
  • 空間關係
  • 動作與活動
  • 場景構成
  • 抽象概念

數學與科學

Thinking 版本可解決圖像中的問題,能讀取方程式、解讀圖解,並提供幾何、代數與應用題的解答。

影片分析

256K 上下文(可擴展至 100 萬 tokens)可處理數小時長的影片,秒級索引功能可追蹤跨時間的事件。

GUI 互動

該模型可識別介面元素、理解其功能並完成任務,實現視覺工作流程自動化。

視覺生成程式碼

可從圖像與影片生成 Draw.io 圖表、HTML、CSS 與 JavaScript 程式碼,提供一張 UI 介面草圖即可獲得可運行的程式碼。

空間推理

針對空間任務提供 2D 與 3D 定位功能,模型可判斷位置、視角與遮擋情況。

實際應用場景

電子商務

根據照片生成商品描述,提取顏色、尺寸、材質等屬性,自動標註庫存,將客戶查詢與商品圖像匹配。

醫療健康

處理醫療表單與報告,從臨床文件中提取結構化數據,辨識處方圖像,解讀手寫筆記與結構化表單。

教育

協助學生解答課本照片中的作業,解釋圖解、圖表與科學插圖,批改視覺類作業,Thinking 版本還可提供逐步解題過程。

金融

處理發票、收據與財務報表,提取明細項目、總額、日期與供應商資訊,32 語言支援可處理各類文件。

客戶支援

透過分析圖解回答產品手冊相關問題,根據客戶照片排查問題,視覺代理能力可引導使用者操作介面。

內容審核

篩選使用者上傳的圖像是否符合政策規範,理解物件檢測之外的上下文,處理需要視覺推理的邊緣案例。

研究

分析科學圖解,解讀圖表,從研究論文中提取數據,該模型在 STEM 與數學領域的因果分析能力表現優異。

在 Novita AI 平台開始使用 Qwen3-VL-30B-A3B

Novita AI 提供多種途徑存取 Qwen3-VL-30B-A3B,針對不同的技術水平與使用場景客製化。無論您是探索 AI 能力還是構建生產環境應用,該平台都能提供您需要的工具。

使用 playground(現已上線,無需編碼)

立即存取: 註冊後即可在幾秒內開始實驗 Qwen3-VL-30B-A3B

互動介面: 即時測試搭配圖像的提示詞,並可視化查看輸出結果。

模型比較: 針對您的具體使用場景比較 Qwen3-VL-30B-A3B 的 Instruct 與 Thinking 版本。

playground 讓您無需任何技術設定即可測試各類提示詞並查看即時結果,非常適合在完整實施前進行原型驗證、想法測試與了解模型能力。

透過 API 整合(已上線,開發者可立即使用)

使用 Novita AI 的统一 REST API 將 Qwen3-VL-30B-A3B 連接至您的應用程式。

選項 1:直接 API 整合

Python 範例:

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="qwen/qwen3-vl-30b-a3b-instruct",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=32768,
    temperature=0.7
)

print(response.choices[0].message.content)

選項 2:使用 OpenAI Agents SDK 構建多代理工作流

利用 Qwen3-VL-30B-A3B 的進階能力構建複雜的多代理系統:

  • 即插即用整合: 可將 Qwen3-VL-30B-A3B 無縫接入任何 OpenAI Agents 工作流。
  • 進階代理能力: 支援視覺理解相關的任務交接、路由與工具整合。
  • 可擴展架構: 設計可結合 Qwen3-VL-30B-A3B 多模態能力與其他專業模型的代理系統。

選項 3:連接第三方平台

  • 開發工具: 透過 OpenAI 相容 API 與 Anthropic 相容 API,與 Cursor、Trae、Qwen Code、Cline 等熱門 IDE 與開發環境整合。
  • 編排框架: 使用官方連接器與 LangChain、Dify、CrewAI、Langflow 等 AI 編排平台連接。
  • Hugging Face 整合: Novita AI 是 Hugging Face 的官方推理供應商,確保廣泛的生態系統相容性。

立即試用 Qwen3-VL-30B-A3B

Qwen3-VL-30B-A3B 提供 32 語言 OCR、256K 上下文影片理解、空間推理與 GUI 互動能力。Instruct 與 Thinking 兩個版本都能為文件處理、視覺問答與複雜多模態推理任務提供生產級效能。

立即在 Novita AI Playground 開始實驗 Qwen3-VL-30B-A3B。

Novita AI 是一個 AI 雲端平台,為開發者提供簡單的 API 以輕鬆部署 AI 模型,同時也提供平價且可靠的 GPU 雲端服務,用於構建與擴展 AI 應用。