Novita AI propose désormais Qwen-Image : un modèle avancé de 20B de génération texte-image avec un rendu de texte supérieur

Novita AI propose désormais Qwen-Image : un modèle avancé de 20B de génération texte-image avec un rendu de texte supérieur

Nous sommes ravis d’annoncer que Qwen-Image est désormais disponible sur Novita AI à seulement 0,02 $ par image ! Ce modèle fondamental d’image 20B MMDiT apporte des avancées significatives dans le rendu de texte complexe et l’édition précise d’images à notre plateforme d’inférence IA.

À propos de Qwen-Image

Qwen-Image est un modèle fondamental d’image 20B MMDiT qui réalise des avancées significatives dans le rendu de texte complexe et l’édition précise d’images. Ce modèle représente une percée majeure dans la technologie de génération d’images par IA.

Les principales fonctionnalités incluent :

  • Rendu de texte supérieur : Qwen-Image excelle dans le rendu de texte complexe, y compris les dispositions multi-lignes, la sémantique au niveau du paragraphe, et les détails fins. Il prend en charge à la fois les langues alphabétiques (par exemple, l’anglais) et les langues logographiques (par exemple, le chinois) avec une haute fidélité.
  • Édition d’image cohérente : Grâce à notre paradigme d’entraînement multi-tâches amélioré, Qwen-Image atteint des performances exceptionnelles pour préserver à la fois le sens sémantique et le réalisme visuel lors des opérations d’édition.
  • Performances solides sur tous les benchmarks : Évalué sur plusieurs benchmarks publics, Qwen-Image surpasse systématiquement les modèles existants dans diverses tâches de génération et d’édition, établissant ainsi un modèle fondamental solide pour la génération d’images.

Aperçu de l'architecture de Qwen-Image.

Source : Rapport technique

Performances prouvées

Qwen-Image a été évalué de manière exhaustive sur plusieurs benchmarks publics, notamment GenEval, DPG et OneIG-Bench pour la génération d’images générales, ainsi que GEdit, ImgEdit et GSO pour l’édition d’images. Qwen-Image atteint des performances de pointe sur tous les benchmarks, démontrant ses solides capacités en génération et édition d’images.

De plus, les résultats sur LongText-Bench, ChineseWord et TextCraft montrent qu’il excelle dans le rendu de texte — en particulier dans la génération de texte en chinois — surpassant de loin les modèles de pointe existants. Cela met en évidence la position unique de Qwen-Image en tant que modèle de génération d’images leader, combinant une large capacité générale avec une précision exceptionnelle du rendu de texte.

benchmark de Qwen-Image

Source : 📑 Blog

Accéder à Qwen-Image sur Novita AI

En tant que fournisseur d’inférence IA, Novita AI a intégré Qwen-Image en tant que modèle 20B MMDiT pour la génération texte-image de nouvelle génération. Le modèle est particulièrement performant pour créer des affiches graphiques époustouflantes avec du texte natif, ce qui le rend parfait pour les applications professionnelles nécessitant une intégration de texte de haute qualité. Pour tous les détails d’implémentation, veuillez consulter notre documentation.

Comment fonctionne notre API

Nous avons implémenté Qwen-Image comme un système d’API asynchrone. Lorsque vous faites une requête, seul le task_id est renvoyé initialement. Vous utilisez ensuite le task_id pour interroger notre API de résultat de tâche afin de récupérer les résultats de génération d’images.

Spécifications de l’API

Endpoint : https://api.novita.ai/v3/async/qwen-image-txt2img

En-têtes de requête :

  • Content-Type (string, obligatoire) : Prend en charge application/json
  • Authorization (string, obligatoire) : Format d’authentification Bearer, par exemple : Bearer {{API Key}}

Corps de la requête :

  • prompt (string, obligatoire) : Texte de prompt pour la génération d’image
  • size (string) : La taille de l’image générée en pixels (largeur*hauteur). Valeur par défaut : 1024*1024. Plage : 256 ~ 1536 par dimension

Réponse :

  • task_id (string, obligatoire) : Utilisez le task_id pour interroger notre API de résultat de tâche afin de récupérer les sorties générées

Premiers pas avec Qwen-Image sur Novita AI

Voici comment utiliser Qwen-Image via notre API :

Étape 1 : Générer un task_id

Envoyez une requête POST à notre API Qwen-Image Text to Image :

Requête :

curl --location 'https://api.novita.ai/v3/async/qwen-image-txt2img' \
--header 'Authorization: Bearer {{API Key}}' \
--header 'Content-Type: application/json' \
--data '{
    "prompt": "A cinematic scene of a quiet girl with short brown hair sitting by a misty lake at dawn. She wears an oversized sweater, holding a warm mug. Soft morning light filters through the trees, cool tones, tranquil mood, light fog, 50mm photography style.",
    "size": "1024*1024"
}'

Réponse :

{
    "task_id": "{Returned Task ID}"
}

Étape 2 : Récupérer vos images générées

Utilisez le task_id pour obtenir vos images de sortie :

curl --location --request GET 'https://api.novita.ai/v3/async/task-result?task_id={Returned Task ID}' \
--header 'Authorization: Bearer {{API Key}}'

Les codes de statut HTTP dans la plage 2xx indiquent que la requête a été acceptée avec succès, tandis que les codes dans la plage 5xx indiquent des erreurs internes du serveur. Vous pouvez obtenir l’URL de l’image dans le champ images de la réponse.

Pourquoi nous avons ajouté Qwen-Image à notre plateforme

En tant que fournisseur d’inférence IA, nous avons choisi d’intégrer Qwen-Image car il comble une lacune critique dans la génération d’images par IA : le rendu de texte de haute qualité. Nos utilisateurs peuvent désormais :

  • Créer des affiches graphiques professionnelles avec un texte clair et lisible
  • Générer des images avec des dispositions de texte multi-lignes et une sémantique au niveau du paragraphe
  • Prendre en charge à la fois le texte en anglais et en chinois avec une haute fidélité
  • Obtenir des résultats de pointe sur plusieurs benchmarks de génération d’images
  • Accéder à des options de taille flexibles de 256x256 à 1536x1536 pixels

Démo de Qwen-Image

Mont Fuji avec des cerisiers en fleurs au premier plan, ciel dégagé, journée de printemps paisible, lumière naturelle douce, paysage réaliste.

Un homme en costume se tient devant la fenêtre, regardant la lune brillante à l’extérieur. L’homme tient un papier jauni avec des mots écrits à la main : « Une lune lanterne escalade la nuit argentée, Déployant des rêves silencieux à travers le ciel, Chaque étoile une promesse murmurée enveloppée de lumière, Que l’aube fleurira, bien que l’obscurité erre. » Il y a un joli chat sur le rebord de la fenêtre.

Une jeune fille en uniforme scolaire se tient dans une salle de classe, écrivant sur un tableau noir. Le texte « Introducing Qwen-Image, a foundational image generation model that excels in complex text rendering and precise image editing » apparaît en craie blanche nette au centre du tableau. Une douce lumière naturelle filtre à travers les fenêtres, projetant des ombres légères. La scène est rendue dans un style photographique réaliste avec des détails fins, une faible profondeur de champ et des tons chauds. L’expression concentrée de la fille et la poussière de craie dans l’air ajoutent du dynamisme. Les éléments d’arrière-plan comprennent des bureaux et des affiches éducatives, subtilement flous pour mettre l’accent sur l’action centrale. Résolution ultra-détaillée 32K, qualité DSLR, effet bokeh doux, composition documentaire

Une jeune fille en uniforme scolaire se tient dans une salle de classe

Le texte « Qwen-Image on Novita AI » conçu dans un style élégant en verre translucide. Chaque lettre semble faite de verre dépoli ou brillant, avec un éclairage réaliste, des ombres douces et des reflets subtils. L’arrière-plan est minimaliste et moderne — éventuellement un dégradé doux, un flou abstrait ou une surface sombre — pour renforcer l’effet de verre. L’ensemble a un aspect élégant, futuriste et visuellement frappant.

Le texte « Qwen-Image on Novita AI »

Commencez à utiliser Qwen-Image dès aujourd’hui

Prêt à découvrir un rendu de texte supérieur dans les images générées par IA ? Commencez avec Qwen-Image sur notre plateforme d’inférence IA :

  1. Inscrivez-vous pour un compte Novita AI
  2. Obtenez votre clé API depuis le tableau de bord
  3. Utilisez notre documentation API complète
  4. Commencez à générer des images avec une qualité de texte exceptionnelle

Qwen-Image est désormais disponible sur Novita AI – vous apportant la prochaine génération de génération texte-image avec des capacités de rendu de texte inégalées via notre plateforme d’inférence IA.

Novita AI est une plateforme cloud IA qui aide les développeurs à déployer facilement des modèles d’IA via une API simple, soutenue par une infrastructure cloud GPU abordable et fiable. En soutenant les bibliothèques open source pour l’inférence et le service des LLM, Novita AI fait avancer l’avenir de l’innovation en IA.