Novita AI bietet jetzt Qwen-Image: Fortschrittliches 20B Text-zu-Bild-Modell mit hervorragender Textwiedergabe

Novita AI bietet jetzt Qwen-Image: Fortschrittliches 20B Text-zu-Bild-Modell mit hervorragender Textwiedergabe

Wir freuen uns, bekannt zu geben, dass Qwen-Image jetzt auf Novita AI verfügbar ist – zum Preis von nur $0,02 pro Bild! Dieses bahnbrechende 20B-MMDiT-Bildgrundmodell bringt bedeutende Fortschritte in der komplexen Textwiedergabe und präzisen Bildbearbeitung auf unsere KI-Inferenzplattform.

Über Qwen-Image

Qwen-Image ist ein 20B-MMDiT-Bildgrundmodell, das bedeutende Fortschritte in der komplexen Textwiedergabe und präzisen Bildbearbeitung erzielt. Das Modell stellt einen großen Durchbruch in der KI-gestützten Bildgenerierungstechnologie dar.

Zu den wichtigsten Funktionen gehören:

  • Überlegene Textwiedergabe: Qwen-Image zeichnet sich durch komplexe Textwiedergabe aus, einschließlich mehrzeiliger Layouts, semantischer Absatzebenen und feinster Details. Es unterstützt sowohl alphabetische Sprachen (z. B. Englisch) als auch logografische Sprachen (z. B. Chinesisch) mit hoher Genauigkeit.
  • Konsistente Bildbearbeitung: Durch unser verbessertes Multi-Task-Training erzielt Qwen-Image außergewöhnliche Leistungen bei der Erhaltung sowohl der semantischen Bedeutung als auch der visuellen Realität während Bearbeitungsvorgängen.
  • Starke sprachübergreifende Benchmark-Ergebnisse: Auf mehreren öffentlichen Benchmarks getestet, übertrifft Qwen-Image durchgängig bestehende Modelle bei verschiedenen Generierungs- und Bearbeitungsaufgaben und etabliert sich als starkes Grundmodell für die Bildgenerierung.

Übersicht über die Qwen-Image-Architektur.

Quelle: Technischer Bericht

Nachgewiesene Leistung

Qwen-Image wurde umfassend auf mehreren öffentlichen Benchmarks evaluiert, darunter GenEval, DPG und OneIG-Bench für die allgemeine Bildgenerierung sowie GEdit, ImgEdit und GSO für die Bildbearbeitung. Qwen-Image erzielt auf allen Benchmarks Spitzenleistungen und demonstriert damit seine starken Fähigkeiten sowohl in der Bildgenerierung als auch in der Bearbeitung.

Darüber hinaus zeigen die Ergebnisse auf LongText-Bench, ChineseWord und TextCraft, dass es sich in der Textwiedergabe auszeichnet – insbesondere bei der chinesischen Textgenerierung – und bestehende Spitzenmodelle deutlich übertrifft. Dies unterstreicht die einzigartige Position von Qwen-Image als führendes Bildgenerierungsmodell, das allgemeine Fähigkeiten mit außergewöhnlicher Textwiedergabepräzision vereint.

Benchmark von Qwen-Image

Quelle: 📑 Blog

Zugriff auf Qwen-Image auf Novita AI

Als KI-Inferenzanbieter hat Novita AI Qwen-Image als 20B-MMDiT-Modell für die nächste Generation der Text-zu-Bild-Generierung integriert. Das Modell ist besonders stark bei der Erstellung atemberaubender grafischer Poster mit nativen Texteinbettungen, was es ideal für professionelle Anwendungen macht, die eine hochwertige Textintegration erfordern. Vollständige Implementierungsdetails finden Sie in unserer Dokumentation.

Wie unsere API funktioniert

Wir haben Qwen-Image als asynchrones API-System implementiert. Wenn Sie eine Anfrage stellen, wird zunächst nur die task_id zurückgegeben. Anschließend verwenden Sie die task_id, um unsere Task Result API zur Abfrage der Bildgenerierungsergebnisse aufzurufen.

API-Spezifikationen

Endpunkt: https://api.novita.ai/v3/async/qwen-image-txt2img

Anfrage-Header:

  • Content-Type (string, erforderlich): Unterstützt application/json
  • Authorization (string, erforderlich): Bearer-Authentifizierungsformat, z. B.: Bearer {{API-Key}}

Anfrage-Body:

  • prompt (string, erforderlich): Text-Prompt für die Bildgenerierung
  • size (string): Die Größe des generierten Mediums in Pixeln (Breite*Höhe). Standard ist 1024*1024. Bereich: 256–1536 pro Dimension

Antwort:

  • task_id (string, erforderlich): Verwenden Sie die task_id, um unsere Task Result API zur Abfrage der generierten Ausgaben aufzurufen

Erste Schritte mit Qwen-Image auf Novita AI

So verwenden Sie Qwen-Image über unsere API:

Schritt 1: Generieren Sie eine task_id

Senden Sie eine POST-Anfrage an unsere Qwen-Image Text-zu-Bild-API:

Anfrage:

curl --location 'https://api.novita.ai/v3/async/qwen-image-txt2img' \
--header 'Authorization: Bearer {{API Key}}' \
--header 'Content-Type: application/json' \
--data '{
    "prompt": "A cinematic scene of a quiet girl with short brown hair sitting by a misty lake at dawn. She wears an oversized sweater, holding a warm mug. Soft morning light filters through the trees, cool tones, tranquil mood, light fog, 50mm photography style.",
    "size": "1024*1024"
}'

Antwort:

{
    "task_id": "{Zurückgegebene Task ID}"
}

Schritt 2: Rufen Sie Ihre generierten Bilder ab

Verwenden Sie die task_id, um Ihre Ausgabebilder zu erhalten:

curl --location --request GET 'https://api.novita.ai/v3/async/task-result?task_id={Zurückgegebene Task ID}' \
--header 'Authorization: Bearer {{API Key}}'

HTTP-Statuscodes im 2xx-Bereich zeigen an, dass die Anfrage erfolgreich angenommen wurde, während Statuscodes im 5xx-Bereich auf interne Serverfehler hinweisen. Sie erhalten die Bild-URL im Feld images der Antwort.

Warum wir Qwen-Image zu unserer Plattform hinzugefügt haben

Als KI-Inferenzanbieter haben wir uns für die Integration von Qwen-Image entschieden, weil es eine entscheidende Lücke in der KI-Bildgenerierung schließt: die hochwertige Textwiedergabe. Unsere Nutzer können jetzt:

  • Professionelle grafische Poster mit klarem, lesbarem Text erstellen
  • Bilder mit mehrzeiligen Textlayouts und semantischen Absätzen generieren
  • Sowohl englischen als auch chinesischen Text mit hoher Genauigkeit unterstützen
  • Spitzenleistungen bei mehreren Bildgenerierungs-Benchmarks erzielen
  • Flexible Größenoptionen von 256×256 bis 1536×1536 Pixeln nutzen

Qwen-Image Demo

Fuji-Berg mit Kirschblüten im Vordergrund, klarer Himmel, friedlicher Frühlingstag, weiches natürliches Licht, realistische Landschaft.

Ein Mann im Anzug steht vor dem Fenster und schaut auf den hellen Mond draußen. Der Mann hält ein vergilbtes Papier mit handgeschriebenen Worten: „Eine Laterne Mond steigt durch die Silberne Nacht, / Entfaltet stille Träume über den Himmel, / Jeder Stern ein geflüstertes Versprechen in Licht gehüllt, / Dass die Morgendämmerung blüht, obwohl die Dunkelheit umherstreift.“ Auf der Fensterbank sitzt eine süße Katze.

Ein junges Mädchen in Schuluniform steht in einem Klassenzimmer und schreibt an eine Tafel. Der Text „Introducing Qwen-Image, a foundational image generation model that excels in complex text rendering and precise image editing“ erscheint in sauberer weißer Kreide in der Mitte der Tafel. Sanftes natürliches Licht fällt durch Fenster und wirft sanfte Schatten. Die Szene ist in einem realistischen Fotografiestil mit feinen Details, geringer Schärfentiefe und warmen Tönen gehalten. Der konzentrierte Ausdruck des Mädchens und Kreidestaub in der Luft verleihen Dynamik. Hintergrundelemente wie Schreibtische und Bildungsposter sind weichgezeichnet, um die zentrale Handlung zu betonen. Ultra-detaillierte 32K-Auflösung, DSLR-Qualität, weicher Bokeh-Effekt, dokumentarischer Stil.

Ein junges Mädchen in Schuluniform steht in einem Klassenzimmer

Der Text „Qwen-Image on Novita AI“ gestaltet in einem eleganten, durchscheinenden Glasstil. Jeder Buchstabe wirkt wie aus mattiertem oder glänzendem Glas, mit realistischer Beleuchtung, weichen Schatten und subtilen Reflexionen. Der Hintergrund ist minimalistisch und modern – möglicherweise ein sanfter Farbverlauf, abstrakter Weichzeichner oder eine dunkle Oberfläche – um den Glaseffekt zu verstärken. Der Gesamteindruck ist elegant, futuristisch und visuell beeindruckend.

Der Text „Qwen-Image on Novita AI“

Jetzt mit Qwen-Image starten

Bereit, überlegene Textwiedergabe in KI-generierten Bildern zu erleben? Legen Sie mit Qwen-Image auf unserer KI-Inferenzplattform los:

  1. Registrieren Sie sich für Ihr Novita AI-Konto
  2. Holen Sie sich Ihren API-Schlüssel aus dem Dashboard
  3. Nutzen Sie unsere umfassende API-Dokumentation
  4. Beginnen Sie mit der Generierung von Bildern mit außergewöhnlicher Textqualität

Qwen-Image ist jetzt auf Novita AI verfügbar – und bringt Ihnen die nächste Generation der Text-zu-Bild-Generierung mit beispiellosen Textwiedergabefähigkeiten über unsere KI-Inferenzplattform.

Novita AI ist eine KI-Cloud-Plattform, die Entwicklern hilft, KI-Modelle einfach über eine einfache API bereitzustellen, unterstützt durch erschwingliche und zuverlässige GPU-Cloud-Infrastruktur. Durch die Unterstützung von Open-Source-Bibliotheken für LLM-Inferenz und Serving treibt Novita AI die Zukunft der KI-Innovation voran.