Compreendendo a escala CFG no Stable Diffusion. Aprendendo a usá-la para melhorar a qualidade da imagem no nosso blog.
Introdução
A escala CFG, também conhecida como escala de Orientação Livre de Classificador (Classifier Free Guidance), desempenha um papel crucial no controle da aderência do Stable Diffusion ao seu prompt de texto, podendo ser usada tanto em gerações de texto para imagem (txt2img) quanto de imagem para imagem (img2img).
Neste blog, apresentaremos uma introdução abrangente sobre a escala CFG no Stable Diffusion, incluindo sua relação com o Stable Diffusion e a tecnologia por trás dela. Além disso, mostraremos um guia detalhado de como usá-la no Stable Diffusion e como evitar erros comuns. Vamos mergulhar no mundo da escala CFG agora!
Compreendendo a Escala CFG no Stable Diffusion
No Stable Diffusion, a sigla CFG representa a escala de “Orientação Livre de Classificador”, que desempenha um papel crucial na determinação da qualidade das imagens de saída.
Evolução da CFG (Orientação Livre de Classificador)
Inicialmente, os modelos de difusão usavam um classificador explícito para orientar o processo de geração, envolvendo o treinamento de um classificador em imagens ruidosas para categorizar e guiar a geração de classes específicas, como gatos ou cães. No entanto, isso exigia um modelo extra. Então surgiu a Orientação Livre de Classificador, que utiliza legendas de imagens para treinar um modelo de difusão condicional.
O que é a Escala CFG?
A escala CFG, ou escala de Configuração, é um parâmetro que controla a intensidade do processo de difusão. Ela determina o quanto os valores dos pixels são espalhados ou dispersos, ou seja, determina até que ponto o Stable Diffusion segue o seu prompt.

Como a Escala CFG Funciona no Stable Diffusion?
Por padrão, o valor da escala CFG é definido como 7, equilibrando liberdade criativa e orientação do prompt.
Relação entre Escala CFG e Stable Diffusion
A difusão estável é um conceito no campo do processamento de imagens e computação gráfica que se refere ao processo de espalhar ou dispersar valores de pixel em uma imagem. Essa técnica é frequentemente usada para criar uma variedade de efeitos, como desfoque, nitidez e detecção de bordas. O processo é governado por um conjunto de parâmetros, um dos quais é a escala CFG.
Como a Escala CFG Afeta a Qualidade da Imagem?
A Escala CFG determina o coeficiente aplicado às palavras do prompt no processo de difusão. Um valor mais baixo da escala CFG pode preservar mais detalhes, mas pode não alcançar o efeito de difusão desejado. Por outro lado, um valor mais alto da escala CFG pode criar um forte efeito de difusão, mas pode resultar na perda de detalhes da imagem. Portanto, encontrar o equilíbrio certo é fundamental para obter imagens de saída de alta qualidade.

Ajustar a escala CFG na difusão estável depende do resultado desejado. Se o objetivo é criar um efeito de difusão sutil, um valor mais baixo da escala CFG seria apropriado. Por outro lado, se o objetivo é criar um efeito de difusão forte, um valor mais alto da escala CFG seria necessário.
Ao usar a Interface Web do Stable Diffusion, a CFG é limitada a números positivos variando de 1 a 30. No entanto, ao utilizar o Stable Diffusion via Terminal, a CFG pode ser configurada até 999 e pode até assumir valores negativos, o que indica o desejo de que o Stable Diffusion gere conteúdo oposto ao seu prompt de texto.

Como Usar a Escala CFG no Stable Diffusion?
Para aprender a usar a escala CFG no Stable Diffusion, você deve ter o modelo Stable Diffusion em seu projeto. Nesta seção, ensinaremos como usá-la passo a passo, desde a integração do Stable Diffusion ao seu programa.
Guia Passo a Passo
A vantagem de obter o Stable Diffusion integrando uma API em vez de baixá-lo é que você pode treinar e fazer ajustes nos modelos conforme sua necessidade.
- Passo 1: Acesse o site da Novita AI e crie uma conta.
- Passo 2: Navegue até “API” e encontre a que deseja. A Novita AI oferece diversas APIs como “Texto para Imagem”, “Imagem para Imagem” e assim por diante.

- Passo 3: Obtenha a chave da API e integre-a ao seu projeto.
- Passo 4: Acesse sua interface do Stable Diffusion.
- Passo 5: Selecione um modelo Stable Diffusion desejado na lista e insira os prompts da sua imagem. A Novita AI oferece muitos modelos, incluindo Stable Diffusion XL e Stable Diffusion 3.

- Passo 6: Ajuste o valor da escala CFG e gere a imagem.
- Passo 7: Experimente diferentes valores da escala CFG para descobrir aquele que produz o resultado mais impressionante.

Considerações de Hardware sobre o Uso da Escala CFG
O desempenho e o resultado do Stable Diffusion podem ser influenciados pelo hardware utilizado.
- Unidade de Processamento Gráfico (GPU): Uma GPU poderosa é essencial para executar o Stable Diffusion de forma eficiente. O modelo aproveita a GPU para as tarefas computacionalmente intensivas envolvidas na geração de imagens.
- Memória de Acesso Aleatório (RAM): Uma quantidade adequada de RAM do sistema é importante para a responsividade geral do sistema e a capacidade de lidar com grandes conjuntos de dados. Recomenda-se no mínimo 16 GB de RAM, sendo 32 GB para tarefas mais exigentes.
- Sistema Operacional: O Stable Diffusion é compatível com vários sistemas operacionais, incluindo Windows, macOS e Linux. No entanto, a versão específica e as atualizações podem afetar a compatibilidade e o desempenho.

Casos de Uso da Escala CFG para Stable Diffusion
A Escala CFG no Stable Diffusion permite aos usuários ajustar o processo de geração de imagens conforme suas necessidades.
Otimizando a Qualidade da Imagem
Os usuários podem ajustar a Escala CFG para otimizar a qualidade da imagem. Um valor de 7 é frequentemente recomendado, pois fornece um bom equilíbrio entre realismo e fidelidade ao prompt de entrada.
Prompts Negativos
A Escala CFG pode ser usada em conjunto com prompts negativos, o que pode ajudar a criar imagens que excluem certos elementos enquanto ainda seguem o prompt de texto principal.

Estudo de Caso
Ajustando o valor da escala CFG no estudo de caso, podemos observar como diferentes níveis de orientação afetam as imagens geradas, compreendendo ainda mais a importância do papel da escala CFG na obtenção de imagens de saída de alta fidelidade.
Além disso, a Novita AI também oferece um playground de “imagem para imagem”. Você pode realizar seu estudo de caso nele.

Conclusão
Em conclusão, a escala CFG é um parâmetro vital na difusão estável que controla a intensidade do processo de difusão. Compreender como ajustar a escala CFG com base no resultado desejado e na qualidade da imagem original pode melhorar significativamente os resultados da difusão estável. Como acontece com muitas coisas no processamento de imagens e computação gráfica, encontrar o valor ideal da escala CFG geralmente envolve um processo de tentativa e erro e depende dos requisitos específicos de cada projeto.
Novita AI é a plataforma tudo-em-um na nuvem que impulsiona suas ambições de IA. Com APIs integradas de forma contínua, computação sem servidor e aceleração de GPU, fornecemos as ferramentas econômicas que você precisa para construir e escalar rapidamente seu negócio impulsionado por IA. Elimine as dores de cabeça de infraestrutura e comece gratuitamente — a Novita AI torna seus sonhos de IA realidade.
Leitura recomendada
