Novita AI 現已推出 Qwen-Image:先進的 20B 文生圖模型,具備卓越文字渲染能力

Novita AI 現已推出 Qwen-Image:先進的 20B 文生圖模型,具備卓越文字渲染能力

我們很高興宣布 **Qwen-Image 現已在 Novita AI 上線 **,每張圖像僅需 0.02 美元!這款突破性的 20B MMDiT 圖像基礎模型,為我們的 AI 推理平台帶來了複雜文字渲染與精確影像編輯的重大進展。

關於 Qwen-Image

Qwen-Image 是一個 20B 的 MMDiT 圖像基礎模型,在複雜文字渲染與精確影像編輯方面取得了顯著進步。該模型代表了 AI 驅動圖像生成技術的重大突破。

主要特色包括:

  • 卓越的文字渲染:Qwen-Image 擅長處理複雜的文字渲染,包括多行佈局、段落級語義以及細微細節。它同時支援拼音文字(例如英文)和表意文字(例如中文),且保真度極高。
  • 一致的影像編輯:透過我們增強的多任務訓練範式,Qwen-Image 在編輯操作中能同時保留語義與視覺真實感,表現出色。
  • 強大的跨基準測試表現:在多個公開基準測試中,Qwen-Image 在各種生成與編輯任務上 consistently 優於現有模型,奠定了圖像生成的強大基礎模型地位。

Qwen-Image 架構概覽

來源:技術報告

經過驗證的表現

Qwen-Image 已在多個公開基準測試中接受全面評估,包括一般圖像生成的 GenEval、DPG 和 OneIG-Bench,以及影像編輯的 GEdit、ImgEdit 和 GSO。Qwen-Image 在所有基準測試中均達到最先進的表現,展現了其在圖像生成與編輯方面的強大能力。

此外,在 LongText-Bench、ChineseWord 和 TextCraft 上的結果顯示,它在文字渲染方面表現出色——尤其是在中文文字生成方面——大幅超越了現有的最先進模型。這凸顯了 Qwen-Image 作為領先圖像生成模型的獨特地位,它結合了廣泛的通用能力與卓越的文字渲染精確度。

Qwen-Image 基準測試

來源:📑 部落格

在 Novita AI 上存取 Qwen-Image

作為 AI 推理服務提供商,Novita AI 已將 Qwen-Image 整合為一個 20B 的 MMDiT 模型,用於次世代文生圖生成。該模型在創建含有原生文字的驚豔圖形海報方面尤其強大,非常適合需要高品質文字整合的專業應用。完整的實作細節,請參閱我們的文件

我們的 API 如何運作

我們將 Qwen-Image 實作為 非同步 API 系統。當您發出請求時,最初只會回傳 task_id。接著您使用該 task_id 向我們的 ** 任務結果 API** 請求,以取得圖像生成結果。

API 規格

端點: https://api.novita.ai/v3/async/qwen-image-txt2img

請求標頭:

  • Content-Type(字串,必填):支援 application/json
  • Authorization(字串,必填):Bearer 認證格式,例如:Bearer {{API Key}}

請求主體:

  • prompt(字串,必填):用於圖像生成的文字提示
  • size(字串):生成媒體的尺寸(以像素為單位,寬高)。預設為 1024*1024。每個維度範圍:256 ~ 1536

回應:

  • task_id(字串,必填):使用此 task_id 向我們的 ** 任務結果 API** 請求以取得生成的輸出

在 Novita AI 上開始使用 Qwen-Image

以下是如何透過我們的 API 使用 Qwen-Image:

步驟 1:產生 task_id

向我們的 Qwen-Image 文生圖 API 發送 POST 請求:

請求:

curl --location 'https://api.novita.ai/v3/async/qwen-image-txt2img' \
--header 'Authorization: Bearer {{API Key}}' \
--header 'Content-Type: application/json' \
--data '{
    "prompt": "A cinematic scene of a quiet girl with short brown hair sitting by a misty lake at dawn. She wears an oversized sweater, holding a warm mug. Soft morning light filters through the trees, cool tones, tranquil mood, light fog, 50mm photography style.",
    "size": "1024*1024"
}'

回應:

{
    "task_id": "{Returned Task ID}"
}

步驟 2:擷取您生成的圖像

使用 task_id 取得您的輸出圖像:

curl --location --request GET 'https://api.novita.ai/v3/async/task-result?task_id={Returned Task ID}' \
--header 'Authorization: Bearer {{API Key}}'

HTTP 狀態碼在 2xx 範圍內表示請求已成功接受,而 5xx 範圍內的狀態碼表示內部伺服器錯誤。您可以在回應的 images 欄位中取得圖像 URL。

為何我們將 Qwen-Image 加入平台

作為 AI 推理服務提供商,我們選擇整合 Qwen-Image,因為它解決了 AI 圖像生成中的一個關鍵缺口:高品質文字渲染。我們的用戶現在能夠:

  • 建立專業的圖形海報,帶有清晰可讀的文字
  • 生成多行文字佈局的圖像,並具備段落級語義
  • 同時支援英文和中文文字,且保真度極高
  • 在多個圖像生成基準測試中取得最先進的結果
  • 使用靈活的尺寸選項,從 256x256 到 1536x1536 像素

Qwen-Image 示範

前景有櫻花的富士山,晴朗的天空,寧靜的春日,柔和自然光,寫實風景。

一位穿著西裝的男人站在窗前,看著窗外明亮的月亮。男人手中拿著一張泛黃的紙,上面有手寫文字:「A lantern moon climbs through the silver night, Unfurling quiet dreams across the sky, Each star a whispered promise wrapped in light, That dawn will bloom, though darkness wanders by.」窗台上有一隻可愛的貓。

一位穿著制服的小女孩站在教室裡,在黑板上寫字。黑板的中央用整齊的白色粉筆寫著「Introducing Qwen-Image, a foundational image generation model that excels in complex text rendering and precise image editing」。柔和自然光從窗戶透入,投下溫柔的陰影。場景以寫實攝影風格呈現,細節精緻,景深淺,色調溫暖。女孩專注的表情和空氣中的粉筆灰增添了動感。背景元素包括書桌和教育海報,輕微模糊以突顯中心動作。超精細 32K 解像度、DSLR 品質、柔和散景效果、紀錄片式構圖。

一位穿著制服的小女孩站在教室裡

文字「Qwen-Image on Novita AI」以時尚的磨砂玻璃風格設計。每個字母看起來像由磨砂或亮面玻璃製成,帶有逼真的光影、柔和陰影和微妙的反射。背景極簡且現代——可能是柔和的漸層、抽象模糊或深色表面——以增強玻璃效果。整體風格優雅、未來感且視覺衝擊強。

文字「Qwen-Image on Novita AI」

立即開始使用 Qwen-Image

準備好體驗 AI 生成圖像中的卓越文字渲染了嗎?在我們的 AI 推理平台上開始使用 Qwen-Image:

  1. 註冊您的 Novita AI 帳戶
  2. 從控制台取得您的 API 金鑰
  3. 使用我們全面的 API 文件
  4. 開始生成具有卓越文字品質的圖像

Qwen-Image 現已在 Novita AI 上線 – 透過我們的 AI 推理平台,為您帶來次世代文生圖生成,並具備無與倫比的文字渲染能力。

Novita AI 是一個 AI 雲端平台,透過簡單的 API 幫助開發者輕鬆部署 AI 模型,並由經濟實惠且可靠的 GPU 雲端基礎設施作為後盾。透過支援用於 LLM 推理和服務的開源函式庫,Novita AI 正推動 AI 創新的未來。