SD-Turbo obtiene puntuaciones significativamente más altas en estética, el impulso a SD-21 es notable.
Para contexto: tengo una RTX2060 de 6GB y estaba interesado en obtener generaciones utilizables en menos de 10 segundos. Anteriormente había creado un pipeline optimizado de SD-21 antes de SDXL. Los prompts para las imágenes de abajo están tomados de Microsoft Image Creator (que presumiblemente fueron elegidos para mostrar la amplitud de capacidad de los modelos de imagen).
https://thekitchenscientist.github.io/dalle-3_examples.txt
Para text2img puedes ver cuánto mejor es SDXL para captar los conceptos del prompt, pero para aquellos con hardware antiguo, SD-Turbo parece utilizable para pintura casi en tiempo real usando una herramienta como Krita. Se combina bien con DeepShrink de Koyha y FreeU_V2 para producir imágenes de 768x1024 sin artefactos en menos de 5 segundos. Si usas el muestreador LCM también puedes superar los 2 pasos sin quemar la imagen; simplemente la simplifica progresivamente hasta obtener una imagen vectorial muy simple.
Con 4 pasos (que es lo que se usa abajo) se solucionan la mayoría de los problemas de extremidades malformadas que ocurren con solo 2 pasos. Suceden cosas muy interesantes con prompts complejos cuando empiezas a llevar SD-Turbo a 7+ pasos con el muestreador LCM.

SD-Turbo

SDXL-Turbo

SXDL Base

SDXL-LCM

SSD-1B LCM

SSD-1B
| Método | Segundos por imagen en RTX2060 6GB ComfyUI |
|---|---|
| SDXL - uni_pc_bh2 | 30 |
| SDXL LCM Lora (parece que necesito usar el merge) | 60 |
| SDXL Turbo | 13 |
| SSD-1B | 18 |
| SSD-1B LCM Lora | 10 |
| SD-Turbo | 1.5 |
| SD-2.1 | 3 |
Clasifiqué las 2135 imágenes que generé usando el modelo estético simulacra. Para cada prompt calculé el promedio estético de todos los métodos y luego lo resté de la puntuación de cada imagen en ese grupo. La forma en que SSD-1B obtiene puntuaciones más altas que SDXL me hace pensar que el modelo estético simulacra o similar se usó en el proceso de destilación.

El puntaje promedio de cada prompt se restó del puntaje de cada imagen
Usé la semilla 1000000007, el muestreador lcm y el programador sge_uniform. Para turbo fueron 4 pasos y para LCM fueron 6 pasos. Las imágenes base se generaron con uni_pc_bh2 y 12 pasos. Los otros dos grupos de prompts están disponibles aquí:
https://thekitchenscientist.github.io/dalle-2_examples.txt
https://thekitchenscientist.github.io/artist-space_examples.txt
Los ejemplos de espacio de imagen son 244 prompts basados en: https://docs.google.com/spreadsheets/d/14xTqtuV3BuKDNhLotB_d1aFlBGnDJOY0BRXJ8-86GpA/edit#gid=0 Ejecuté 10k muestras de esta lista usando SSD-1B y luego analicé la composición y colores de las imágenes para muestrear un conjunto disperso/diverso/representativo de prompts de artistas desde el infinito espacio latente.
Gráfico adicional que muestra la distribución de puntuaciones en cada grupo:

SD Turbo para ideación de personas y paisajes; muestreo híbrido para muebles, esculturas y arquitectura; retardo de prompt para mantener la misma composición en múltiples estilos; lo principal es usar solo una semilla. Si quiero controlar uso IPadaptor, img2img o controlNet. Algunas semillas están sesgadas a dividir el sujeto, etc., así que una vez que encontré una semilla confiable, la he estado usando durante un año.
Hay un par de trucos más que no he mencionado aquí, que aún no están todos disponibles en Comfyui, que ayudan a que los modelos más débiles se resuelvan mejor:
[latent jitter
configura Stable Diffusion con dependencias mínimas y un solo pipeline multifunción - thekitchenscientist/sd_lite
GitHubthekitchenscientist
](https://github.com/thekitchenscientist/sd_lite/wiki/latent-jitter)
Uno que puedes probar ahora es usar un muestreador lento para el primer 15% de los pasos y luego cambiar a un método rápido como LCM para el resto. He encontrado que para arquitectura, muebles y escultura en SSD-1B esto da resultados mucho mejores en solo 10 pasos (4/14 lento + 6/6 LCM).
Publicado originalmente en Reddit @thkitchenscientist
