Alibaba’s Qwen-Image-Edit (20B parámetros) y el Gemini 2.5 Flash Image de Google (apodado Nano-Banana) son dos modelos avanzados de imágenes con IA lanzados a mediados de 2025.
Qwen-Image-Edit es un modelo de código abierto, construido sobre el sistema de generación Qwen-Image, y se centra en la edición de imágenes guiada por texto. Por el contrario, el Nano-Banana de Google es un modelo propietario que admite tanto generación como edición de imágenes, disponible a través de la API y la interfaz de usuario de Gemini.
Ambos modelos permiten transformaciones de imagen enriquecidas, pero difieren significativamente en capacidades, calidad de salida, rendimiento, usabilidad, licencias y coste. Las siguientes secciones ofrecen una comparación categoría por categoría basada en el marco solicitado.
Qwen-Image-Edit VS Nano Banana: Capacidades principales
Qwen-Image-Edit se especializa en edición de imagen a imagen (imagen de entrada + instrucción de texto → imagen modificada). Soporta inpainting (añadir/eliminar objetos) y outpainting limitado. La generación de texto a imagen se gestiona por separado mediante el modelo Qwen-Image. Por el contrario, Nano Banana puede generar a partir de indicaciones de texto, editar imágenes existentes y realizar fusión de múltiples imágenes (combinar varias fotos).
| Categoría | Qwen-Image-Edit | Nano-Banana |
|---|---|---|
| Edición semántica | Sí — rotación de objetos (incluso vistas novedosas de 90°/180°), transferencia de estilo, conversión de propiedad intelectual. | Sí — cambios de escena/estilo, ajustes de pose, combinación de múltiples estilos o fuentes en una sola indicación. |
| Edición de apariencia | Sí — ediciones detalladas (añadir letreros con reflejos, eliminar pelos sueltos, cambiar ropa, reemplazar fondos). | Sí — ediciones en lenguaje natural (difuminar fondo, reubicar objetos, recolorear elementos). |
| Edición de texto | Soporte robusto — edición precisa de texto en inglés y chino (insertar/eliminar/modificar) preservando la fuente, el tamaño y la disposición. | Soporte débil — no está diseñado para edición de texto fiable dentro de la imagen; se comporta como la mayoría de los modelos generativos, tiene dificultades con diseños de texto precisos. |
| Consistencia | Diseñado explícitamente para consistencia de personajes (por ejemplo, la mascota Qwen en diferentes atuendos y entornos). | Mantiene la consistencia del sujeto en todas las ediciones (rostros, animales, objetos) |
Qwen-Image-Edit
- Proporcionas una imagen de entrada + una instrucción de texto.
- Te permite añadir, eliminar o modificar selectivamente objetos o regiones específicas manteniendo el resto intacto.
Nano-Banana
- Puede tomar solo una indicación de texto, o una o varias imágenes como entradas.
- Con la fusión de múltiples imágenes, puedes proporcionar varias fotos o elementos, y el modelo decide cómo organizar, mezclar y colocar esos objetos en una escena coherente.
Qwen-Image-Edit VS Nano Banana: Calidad de salida
- Gemini 2.5 Flash Image es el modelo más completo, destacando especialmente en personajes, creatividad y preferencia general.
- Qwen Image Edit tiene una ventaja en la estilización, lo que lo hace atractivo para escenarios en los que la fidelidad de estilo o la expresión artística son más importantes.

Sin embargo, Banana puede ser menos eficaz en la generación de texto, y actualmente no hay datos concretos disponibles. Por el contrario, los resultados de Qwen en LongText-Bench, ChineseWord y TextCraft demuestran que destaca en la representación de texto, especialmente en la generación de texto en chino, superando por un margen significativo a los modelos de última generación existentes.

De Qwen
Qwen-Image-Edit VS Nano Banana: Velocidad
Nano Banana
- Velocidad informada: ~20 segundos por imagen en los servidores de Google
- Consistencia: Como se ejecuta exclusivamente en TPUs/GPUs de Google Cloud, la velocidad es relativamente estable para los usuarios finales.
- Limitación: Los usuarios no pueden ajustar u optimizar el rendimiento de forma local, ya que el modelo solo es accesible a través de la API/Studio de Google.
Qwen-Image-Edit
- Velocidad informada: ~20 segundos por edición en una GPU decente
- Flexibilidad: El rendimiento varía según el hardware (modelo de GPU, tamaño de VRAM, tamaño de lote, resolución).
- Despliegue local y en la nube: Se puede ejecutar de forma local si tienes suficiente memoria de GPU, o en varios proveedores de la nube.
Se trata de un modelo de 20B parámetros que requiere una cantidad sustancial de memoria de GPU. El rendimiento depende de las opciones de despliegue: los modelos de precisión completa necesitan más de 32 GB de VRAM, mientras que las versiones comprimidas o cuantizadas se pueden ejecutar en 24 GB o incluso alrededor de 16 GB de VRAM.
Qwen-Image-Edit VS Nano Banana: Facilidad de uso
Interfaces / Integración
- Qwen-Image-Edit
- Disponible a través de Qwen Chat (interfaz web)
- Se puede ejecutar mediante código, API o interfaces de demostración.
- Nodo de Hugging Face o ComfyUI.
- Nano Banana
- Integrado en la aplicación Gemini de Google (móvil + web).
- Disponible para desarrolladores a través de la API de Gemini,
- Apareciendo en plataformas de terceros (OpenRouter.ai, Fal.ai) a través de la API de Gemini.
- No hay pesos públicos ni nodo de ComfyUI disponible.
Dificultad de las indicaciones
- Qwen-Image-Edit
- Maneja indicaciones naturales simples
- Destaca en el refinamiento iterativo (paso a paso)
- Nano Banana
- Funciona con indicaciones descriptivas sencillas
- Destaca por entender indicaciones complejas y de varios pasos de una sola vez.
Ecosistema
- Qwen-Image-Edit
- Modelo de código abierto → la comunidad puede desarrollar LoRAs, ControlNets, GUIs.
- Ya tiene scripts de Diffusers y flujos de trabajo de ejemplo.
- Gran potencial de expansión impulsada por la comunidad.
- Nano Banana
- Código cerrado → no hay pesos ni código público.
- Ecosistema limitado a Google + socios.
- Existen algunas herramientas externas, pero solo como envoltorios de la API de Google.
Qwen-Image-Edit VS Nano Banana: Aplicaciones
Cambio de estilo:
Convierte esta foto en una figura de personaje. Detrás de ella, coloca una caja con la imagen del personaje impresa, y un ordenador que muestre el proceso de modelado en Blender en su pantalla. Delante de la caja, añade una base plástica redonda en la que se apoye la figura del personaje.

Qwen Image Edit

Nano banana
Edición de imagen:
Edita el cielo sobre el puente para convertirlo en nubes ígneas hermosas


Qwen Image Edit

Nano Banana
Edición de texto:
Crea una portada de revista de moda con una mujer posando con un vestido rojo, el título de la revista es Qwen Image Edit, no hay más texto

Qwen Image Edit

Nano Banana
Fusión de múltiples imágenes:

Mejores prácticas para Qwen-Image-Edit
Novita lanza la API de Qwen-Image-Edit, con un precio de solo $0.02 por imagen.
Paso 1: Inicia sesión y accede a la biblioteca de modelos
Inicia sesión en tu cuenta y haz clic en el botón Biblioteca de modelos.

Paso 2: Elige tu modelo
Explora las opciones disponibles y selecciona el modelo que se adapte a tus necesidades.

Paso 3: Obtén tu clave de API
Para autenticarte con la API, te proporcionaremos una nueva clave de API. Entrando en la página de “Configuración”, puedes copiar la clave de API como se indica en la imagen.

Paso 4: Instala la API
Instala la API usando el gestor de paquetes específico de tu lenguaje de programación.

¡Prueba Qwen-Image-Edit ahora!
Después de la instalación, importa las bibliotecas necesarias en tu entorno de desarrollo. Inicializa la API con tu clave de API para empezar a interactuar con Novita AI LLM. Este es un ejemplo de uso de la API de finalizaciones de chat para usuarios de Python.
Ejemplo de API de Qwen-Image-Edit a Video
import requests
url = "https://api.novita.ai/v3/async/qwen-image-edit"
payload = {
"prompt": "<string>",
"image": "<string>",
"seed": 123,
"output_format": "<string>"
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())
Extraer URL de imagen
import requests
url = "https://api.novita.ai/v3/async/task-result"
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.get(url, headers=headers)
print(response.json())
El Qwen-Image-Edit de Alibaba y el Gemini 2.5 Flash Image (Nano-Banana) de Google representan dos enfoques diferentes para la IA de imágenes de próxima generación en 2025.
- Qwen-Image-Edit destaca en edición detallada guiada por texto (reemplazo de objetos, inpainting, edición de texto, estilización). Es de código abierto, altamente personalizable y cuenta con el apoyo de un ecosistema comunitario en expansión. Sus principales fortalezas son la calidad de estilización, la edición de texto precisa (especialmente en chino) y las opciones de despliegue flexible. Sin embargo, requiere GPUs de alta capacidad (20B parámetros), con un rendimiento que depende de la cuantización y la configuración del hardware.
- Nano-Banana (Gemini 2.5 Flash Image) es un modelo cerrado, solo disponible en la nube diseñado para generación y edición de extremo a extremo, incluyendo fusión de múltiples imágenes. Funciona muy bien en preferencia general, creatividad y representación de personajes, además de ser fácil de usar a través del ecosistema de Google (aplicación Gemini, API, Studio, Vertex AI). Sus fortalezas radican en la comprensión de indicaciones complejas y de varios pasos y la integración perfecta, pero carece de pesos abiertos, capacidades avanzadas de edición de texto e innovación impulsada por la comunidad.
En resumen:
- Qwen-Image-Edit es el mejor para desarrolladores de código abierto, investigación y flujos de trabajo de estilización creativa.
- Nano-Banana es el mejor para casos de uso listos para usar, creación de contenido profesional y aplicaciones integradas con Google.
Preguntas frecuentes
¿Qué modelo tiene una calidad general más fuerte?
Nano-Banana obtiene puntuaciones más altas en personajes, creatividad y preferencia general.
Qwen-Image-Edit es competitivo en la mayoría de las categorías y tiene una ventaja clara en estilización.
¿Qué modelo maneja mejor el texto?
Qwen-Image-Edit → Soporte robusto para edición de texto en inglés y chino, control preciso de fuentes y diseños.
Nano-Banana → Más débil en la representación de texto, similar a otros modelos generativos que tienen dificultades con la consistencia de los textos.
¿Cuáles son las opciones de integración?
Qwen-Image-Edit → Interfaz web (Qwen Chat), API (Model Studio), pesos de Hugging Face, nodo de ComfyUI.
Nano-Banana → Aplicación Gemini, API de Gemini, Google AI Studio, Vertex AI, envoltorios de terceros (OpenRouter, Fal.ai).
Novita AI es la plataforma en la nube todo en uno que impulsa tus ambiciones de IA. APIs integradas, sin servidor, instancias de GPU: las herramientas económicas que necesitas. Elimina la infraestructura, empieza gratis y haz realidad tu visión de IA.
Lecturas recomendadas
PixVerse V4.5 T2V en Novita AI: La forma más económica de crear vídeos de IA cinematográficos
Aprovecha al máximo el potencial de Wan 2.2 I2V en hardware de consumo
Mercado de herramientas de IA para tomar notas de vídeos de YouTube 2024 y principales actores
