Novita AIがQwen-Imageを提供開始:優れたテキストレンダリングを実現する先進の20Bテキスト・トゥ・イメージモデル

Novita AIがQwen-Imageを提供開始:優れたテキストレンダリングを実現する先進の20Bテキスト・トゥ・イメージモデル

**Qwen-Image がNovita AIでご利用いただけるようになりました **。価格は 1画像あたりわずか$0.02 です。この革新的な20B MMDiT画像基盤モデルは、複雑なテキストレンダリングと精密な画像編集において大きな進歩をもたらし、当社のAI推論プラットフォームに搭載されました。

Qwen-Imageについて

Qwen-Imageは20BのMMDiT画像基盤モデルであり、複雑なテキストレンダリングと精密な画像編集において顕著な進歩を達成しています。このモデルは、AIを活用した画像生成技術における大きなブレークスルーを表しています。

主な機能は以下のとおりです。

  • 優れたテキストレンダリング: Qwen-Imageは、複数行レイアウト、段落レベルのセマンティクス、微細なディテールなど、複雑なテキストレンダリングに優れています。アルファベット言語(例:英語)とロゴグラフィック言語(例:中国語)の両方を高忠実度でサポートします。
  • 一貫性のある画像編集: 強化されたマルチタスクトレーニングパラダイムにより、Qwen-Imageは編集操作中に意味的意味と視覚的リアリズムの両方を保持する卓越したパフォーマンスを実現します。
  • 強力なクロスベンチマーク性能: 複数の公開ベンチマークで評価されたQwen-Imageは、多様な生成・編集タスクにおいて既存モデルを一貫して上回り、画像生成のための強力な基盤モデルを確立しています。

Overview of the Qwen-Image architecture.

出典: テクニカルレポート

実証済みの性能

Qwen-Imageは、GenEval、DPG、OneIG-Bench(一般的な画像生成用)や、GEdit、ImgEdit、GSO(画像編集用)などの複数の公開ベンチマークで包括的に評価されています。Qwen-Imageはすべてのベンチマークで最先端のパフォーマンスを達成し、画像生成と編集の両方における強力な能力を実証しています。

さらに、LongText-Bench、ChineseWord、TextCraftでの結果は、テキストレンダリング、特に中国語テキスト生成において優れており、既存の最先端モデルを大幅に上回っていることを示しています。これは、Qwen-Imageが幅広い一般的な能力と卓越したテキストレンダリング精度を兼ね備えた、トップクラスの画像生成モデルとしての独自の地位を浮き彫りにしています。

benchmark of Qwen-Image

出典: 📑 ブログ

Novita AIでQwen-Imageにアクセス

AI推論プロバイダーとして、Novita AIはQwen-Imageを20B MMDiTモデルとして統合し、次世代のテキスト・トゥ・イメージ生成を実現しています。このモデルは、ネイティブテキストを含む魅力的なグラフィックポスターの作成に特に優れており、高品質なテキスト統合が求められるプロフェッショナルな用途に最適です。実装の詳細については、ドキュメントをご参照ください。

APIの仕組み

Qwen-Imageは 非同期APIシステムとして実装されています。リクエストを行うと、最初に task_id のみが返されます。その後、task_id を使用して Task Result API にリクエストを送り、画像生成結果を取得します。

API仕様

エンドポイント: https://api.novita.ai/v3/async/qwen-image-txt2img

リクエストヘッダー:

  • Content-Type (string, required): application/json をサポート
  • Authorization (string, required): Bearer認証形式、例: Bearer {{API Key}}

リクエストボディ:

  • prompt (string, required): 画像生成のためのテキストプロンプト
  • size (string): 生成されるメディアのサイズ(ピクセル、幅*高さ)。デフォルトは 1024*1024。範囲: 各次元256〜1536

レスポンス:

  • task_id (string, required): task_idを使用して Task Result API にリクエストし、生成された出力を取得します

Novita AIでQwen-Imageを始める

APIを通じてQwen-Imageを使用する方法は次のとおりです。

ステップ1: task_idを生成する

Qwen-Image Text to Image APIにPOSTリクエストを送信します。

リクエスト:

curl --location 'https://api.novita.ai/v3/async/qwen-image-txt2img' \
--header 'Authorization: Bearer {{API Key}}' \
--header 'Content-Type: application/json' \
--data '{
    "prompt": "A cinematic scene of a quiet girl with short brown hair sitting by a misty lake at dawn. She wears an oversized sweater, holding a warm mug. Soft morning light filters through the trees, cool tones, tranquil mood, light fog, 50mm photography style.",
    "size": "1024*1024"
}'

レスポンス:

{
    "task_id": "{返されたタスクID}"
}

ステップ2: 生成された画像を取得する

task_idを使用して出力画像を取得します。

curl --location --request GET 'https://api.novita.ai/v3/async/task-result?task_id={返されたタスクID}' \
--header 'Authorization: Bearer {{API Key}}'

2xx系のHTTPステータスコードはリクエストが正常に受け入れられたことを示し、5xx系のステータスコードは内部サーバーエラーを示します。レスポンスの images フィールドから画像URLを取得できます。

Qwen-Imageをプラットフォームに追加した理由

AI推論プロバイダーとして、Qwen-Imageを統合したのは、AI画像生成における重要なギャップである高品質なテキストレンダリングに対応するためです。これにより、ユーザーは以下のことが可能になります。

  • プロフェッショナルなグラフィックポスター を、明確で読みやすいテキストで作成
  • 複数行のテキストレイアウトと段落レベルのセマンティクス を持つ画像を生成
  • 英語と中国語のテキストの両方 を高忠実度でサポート
  • 複数の画像生成ベンチマークで 最先端の結果 を達成
  • 256x256から1536x1536ピクセルまでの 柔軟なサイズオプション を利用

Qwen-Imageデモ

手前に桜、晴れた空、穏やかな春の日、柔らかな自然光、リアルな風景の富士山。

スーツを着た男性が窓の前に立ち、窓の外の明るい月を見ている。男性は黄ばんだ紙を手にしており、そこには手書きの文字で「A lantern moon climbs through the silver night, Unfurling quiet dreams across the sky, Each star a whispered promise wrapped in light, That dawn will bloom, though darkness wanders by.」と書かれている。窓辺にはかわいい猫がいる。

制服を着た少女が教室に立ち、黒板に字を書いている。「Introducing Qwen-Image, a foundational image generation model that excels in complex text rendering and precise image editing」というテキストが黒板の中央に白いチョークで整然と書かれている。窓から柔らかな自然光が差し込み、かすかな影を落としている。シーンはリアルな写真スタイルで、細かいディテール、浅い被写界深度、暖色系の色調で表現されている。少女の集中した表情と空中のチョークの粉がダイナミズムを加えている。背景には机や教育ポスターが配置され、中央の動作を強調するために微妙にぼかされている。超詳細な32K解像度、DSLR画質、ソフトなボケ味、ドキュメンタリースタイルの構図。

制服を着た少女が教室に立っている

「Qwen-Image on Novita AI」というテキストが、洗練された半透明のガラススタイルでデザインされている。各文字はつや消しまたは光沢ガラスでできているかのように見え、リアルな照明、柔らかな影、微妙な反射を伴っている。背景はミニマルでモダン—ソフトなグラデーション、抽象的なぼかし、または暗い表面など—で、ガラスの効果を引き立てている。全体的なルックはエレガントで未来的、視覚的に印象的。

「Qwen-Image on Novita AI」というテキスト

今すぐQwen-Imageを使い始める

AI生成画像における優れたテキストレンダリングを体験する準備はできましたか?当社のAI推論プラットフォームでQwen-Imageを始めましょう。

  1. サインアップしてNovita AIアカウントを作成
  2. ダッシュボードからAPIキーを取得
  3. 包括的なAPIドキュメントを使用
  4. 卓越したテキスト品質で画像生成を開始

Qwen-Image がNovita AIでご利用いただけるようになりました – 比類のないテキストレンダリング機能を備えた次世代テキスト・トゥ・イメージ生成を、当社のAI推論プラットフォームを通じてお届けします。

Novita AI は、手頃で信頼性の高いGPUクラウドインフラストラクチャに支えられたシンプルなAPIを通じて、開発者がAIモデルを簡単にデプロイできるAIクラウドプラットフォームです。LLM推論とサービングのためのオープンソースライブラリをサポートすることで、Novita AIはAIイノベーションの未来を牽引しています。