¿Qué es la difusión estable a escala CFG y cómo se utiliza?

Entender la escala CFG en difusión estable. Aprender a usarla para mejorar la calidad de la imagen en nuestro blog.

Introducción

La escala CFG, también conocida como escala de guía libre del clasificador, desempeña un papel crucial en el control de la adherencia de la difusión estable a su mensaje de texto, que se puede utilizar tanto en texto a imagen (txt2img) y imagen a imagen (img2img) generaciones.

En este blog, le brindaremos una introducción completa a la escala CFG en Stable Diffusion, incluida su relación con Stable Diffusion y la tecnología detrás de ella. Además, le mostraremos una guía detallada sobre cómo usarla en Stable Diffusion y cómo evitar errores comunes. ¡Sumerjámonos ahora en el mundo de la escala CFG!

Comprensión de la escala CFG en difusión estable

En difusión estable, el acrónimo CFG representa la escala “Classifier Free Guidance”, que juega un papel crucial en la determinación de la calidad de las imágenes de salida.

Evolución del CFG (Clasificador Libre de Guía)

Inicialmente, los modelos de difusión utilizaban un clasificador explícito para guiar el proceso de generación, lo que implicaba entrenar un clasificador con imágenes ruidosas para categorizar y guiar la generación de clases específicas, como gatos o perros. Sin embargo, esto requería un modelo adicional. Así surgió la orientación sin clasificador, que utiliza leyendas de imágenes para entrenar un modelo de difusión condicional.

¿Qué es la escala CFG?

La escala CFG, o escala de configuración, es un parámetro que controla la intensidad del proceso de difusión. Determina en qué medida se dispersan o difunden los valores de los píxeles, es decir, determina en qué medida la difusión estable sigue tus indicaciones.

¿Cómo funciona la escala CFG en la difusión estable?

De forma predeterminada, el valor de la escala CFG se establece en 7, logrando un equilibrio entre la libertad creativa y la orientación rápida.

Relación entre la escala CFG y la difusión estable

La difusión estable es un concepto en el campo del procesamiento de imágenes y gráficos por computadora que se refiere al proceso de propagación o dispersión de valores de píxeles en una imagen. Esta técnica se utiliza a menudo para crear una variedad de efectos, como desenfoque, nitidez y detección de bordes. El proceso está regido por un conjunto de parámetros, uno de los cuales es la escala CFG.

¿Cómo afecta la escala CFG a la calidad de la imagen?

La escala CFG determina el coeficiente que se aplica a las palabras clave en el proceso de difusión. Un valor más bajo de la escala CFG puede preservar más detalles, pero es posible que no logre el efecto de difusión deseado. Por otro lado, un valor más alto de la escala CFG puede crear un fuerte efecto de difusión, pero puede provocar la pérdida de detalles de la imagen. Por lo tanto, encontrar el equilibrio adecuado es clave para lograr imágenes de salida de alta calidad. 

El ajuste de la escala CFG en la difusión estable depende del resultado deseado. Si el objetivo es crear un efecto de difusión sutil, sería adecuado un valor de escala CFG más bajo. Por el contrario, si el objetivo es crear un efecto de difusión fuerte, sería necesario un valor de escala CFG más alto. 

Al utilizar la interfaz web de Stable Diffusion, CFG está limitado a números positivos que van del 1 al 30. Sin embargo, al utilizar Stable Diffusion a través de una terminal, CFG se puede configurar hasta 999 e incluso puede tomar valores negativos, lo que indica el deseo de que Stable Diffusion genere contenido opuesto a su mensaje de texto. 

¿Cómo utilizar la escala CFG en difusión estable?

Para aprender a utilizar la escala CFG en Stable Diffusion, debes tener el modelo Stable Diffusion en tu proyecto. En esta sección, te enseñaremos a utilizarlo paso a paso desde la integración de Stable Diffusion en tu programa.

Guía paso por paso

El beneficio de obtener Stable Diffusion mediante la integración de API en lugar de descargarla es que puede entrenar y realizar algunos ajustes a los modelos según sus necesidades.

  • Paso 1: abre el Novita AI sitio web y crear una cuenta en él.
  • Paso 2: Navega hasta “API” y busca la que deseas. Novita AI cuenta con varias API como “Texto a imagen,Imagen a imagen", etcétera.
  • Paso 3: Obtenga la clave API e intégrela en su proyecto.
  • Paso 4: Vaya a la interfaz de difusión estable.
  • Paso 5: Seleccione el modelo de difusión estable que desee de la lista e ingrese las indicaciones de su imagen. Novita AI Proporciona muchos modelos que incluyen Difusión estable XL y difusión estable 3.
  • Paso 6: Ajuste el valor de la escala CFG y genere la imagen.
  • Paso 7: Experimente con diferentes valores de la escala CFG para descubrir el específico que produzca el resultado más impresionante.

Consideraciones de hardware sobre el uso de la báscula CFG

El rendimiento y el resultado de Stable Diffusion pueden verse influenciados por el hardware utilizado.

  • Unidad de procesamiento gráfico (GPU): Un poderoso GPU es esencial para el funcionamiento eficiente de Stable Diffusion. El modelo aprovecha la GPU para las tareas computacionalmente intensivas involucradas en la generación de imágenes. 
  • Memoria de acceso aleatorio (RAM): una memoria RAM adecuada es importante para la capacidad de respuesta general del sistema y para manejar grandes conjuntos de datos. Se recomienda un mínimo de 16 GB de RAM y 32 GB para tareas más exigentes.
  • Sistema operativo: Stable Diffusion es compatible con varios sistemas operativos, incluidos Windows, macOS y Linux. Sin embargo, la versión específica y las actualizaciones pueden afectar la compatibilidad y el rendimiento.

Casos de uso de la escala CFG para difusión estable

La escala CFG en difusión estable permite a los usuarios ajustar el proceso de generación de imágenes según sus necesidades.

Optimización de la calidad de la imagen

Los usuarios pueden ajustar la escala CFG para optimizar la calidad de la imagen. Se suele recomendar un valor de 7, ya que proporciona un buen equilibrio entre realismo y fidelidad a la indicación de entrada. 

Indicaciones negativas

La escala CFG se puede utilizar junto con indicaciones negativas, que pueden ayudar a crear imágenes que excluyan ciertos elementos sin dejar de adherirse a la indicación de texto principal.

Casos de éxito

Al ajustar el valor de la escala CFG en el caso de estudio, podemos observar cómo los diferentes niveles de guía afectan las imágenes generadas, comprendiendo aún más la importancia del papel de la escala CFG para lograr imágenes de salida de alta fidelidad.

Además en Novita AI También dispone de un parque infantil para “imagen a imagen”. Puedes llevar tu caso de estudio sobre ello.

Conclusión

En conclusión, la escala CFG es un parámetro vital en la difusión estable que controla la intensidad del proceso de difusión. Entender cómo ajustar la escala CFG en función del resultado deseado y la calidad de la imagen original puede mejorar significativamente los resultados de la difusión estable. Como sucede con muchas cosas en el procesamiento de imágenes y los gráficos por computadora, encontrar el valor óptimo de la escala CFG a menudo implica un proceso de prueba y error y depende de los requisitos específicos de cada proyecto.

Novita AI es la plataforma en la nube todo en uno que potencia tus ambiciones de IA. Con API perfectamente integradas, computación sin servidor y GPU Aceleración: le proporcionamos las herramientas rentables que necesita para desarrollar y escalar rápidamente su negocio basado en IA. Elimine los problemas de infraestructura y comience gratis. Novita AI hace realidad tus sueños de IA.

Lectura recomendada

  1. La API Stable Diffusion 3 ya está disponible en Novita AI
  2. Modelos de difusión estables para cualquier cosa V3
  3. API de difusión estable: una guía completa

Descubra más de Novita

Suscríbete para recibir las últimas publicaciones en tu correo electrónico.

Deja Tu Comentario

Ir al Inicio

Descubra más de Novita

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Continuar leyendo