API do Stable Diffusion 3 agora disponível na Novita AI

API do Stable Diffusion 3 agora disponível na Novita AI

Alerta de mudança de jogo! O Stable Diffusion 3 chegou – e foi oficialmente lançado como código aberto pela Stability AI.

Seja um dos primeiros! Junte-se à lista de espera da Novita AI para acesso antecipado à API do modelo Stable Diffusion 3 Medium e liberte sua imaginação.

Os pesos abertos do Stable Diffusion 3 Medium permitem criar imagens hiper-realistas e intricadas com uma facilidade sem precedentes. O lançamento como código aberto deste modelo marca uma nova era empolgante, onde a comunidade pode desbloquear todo o potencial dessa ferramenta de IA generativa revolucionária.

Neste blog, forneceremos uma introdução abrangente ao Stable Diffusion 3, incluindo seus novos recursos e detalhes técnicos. Também orientaremos sobre como obter o modelo e integrá-lo em seus próprios projetos. Vamos mergulhar!

Introdução ao Stable Diffusion 3

O Stable Diffusion 3 (SD 3) fez grandes avanços em qualidade de imagem, compreensão de prompts e eficiência operacional, tornando-se a melhor escolha para criar todos os tipos de imagens.

O que é o Stable Diffusion 3?

O Stable Diffusion 3 é uma série de modelos avançados de texto para imagem com faixas de parâmetros variando de 800 milhões a 8 bilhões, projetados para criar imagens detalhadas e realistas com base em prompts de texto gerados pelo usuário. Mais parâmetros aumentam a qualidade das imagens que ele cria, mas custa mais e leva mais tempo. Enquanto isso, modelos com menos parâmetros são perfeitos para tarefas rápidas e simples. O Stable Diffusion 3 é a iteração mais recente da tecnologia de geração de imagens por IA, tornando-se uma ferramenta poderosa para desenvolvedores e criadores de conteúdo.

Principais Recursos do Stable Diffusion 3

O SD3 Medium é um modelo SD3 de 2 bilhões de parâmetros que oferece alguns recursos notáveis:

  • Qualidade Geral e Fotorrealismo: Produz imagens com detalhes, cores e iluminação excepcionais, possibilitando resultados fotorrealistas e de alta qualidade em estilos flexíveis. O sucesso em evitar problemas comuns de outros modelos, como realismo em mãos e rostos, é alcançado por meio de inovações como o VAE de 16 canais.
  • Compreensão de Prompts: Compreende prompts longos e complexos envolvendo raciocínio espacial, elementos composicionais, ações e estilos. Utilizando todos os três codificadores de texto ou uma combinação deles, os usuários podem equilibrar desempenho e eficiência.
  • Tipografia: Alcança qualidade de texto sem precedentes com menos erros de ortografia, kerning, formação de letras e espaçamento, aproveitando a arquitetura Diffusion Transformer.
  • Eficiência de Recursos: Ideal para execução em GPUs de consumo padrão sem degradação de desempenho, graças ao seu baixo consumo de VRAM.
  • Fine-Tuning: Capaz de absorver nuances detalhadas de pequenos conjuntos de dados, tornando-se perfeito para personalização.

O que há de Novo no Stable Diffusion 3?

  • SD3 vs Midjourney: Em comparação, o SD3 tende a produzir imagens com maior apelo visual, superando o Midjourney em termos de estética visual.
  • SD3 vs Dall-E-3: O SD3 supera o Dall-E-3 em termos de seguimento de prompts, pois pode gerar resultados que refletem com mais precisão os elementos e temas especificados.
  • SD3 vs SD1.5 e SDXL: O SD3 demonstra desempenho superior em comparação com SD1.5 e SDXL em termos de tipografia com base em avaliações humanas.

Tecnologias por trás do Stable Diffusion 3

Detalhes Técnicos do Stable Diffusion 3

  • Arquitetura Diffusion Transformer (DiT): A arquitetura Diffusion Transformer (DiT) é uma classe de modelos de difusão que utiliza arquitetura transformer para geração de imagens. Diferente das abordagens tradicionais que dependem do backbone U-Net, os DiTs operam em patches latentes, permitindo a geração eficiente e eficaz de imagens de alta qualidade condicionadas à entrada textual.
  • Tecnologia Flow Matching (FM): Flow Matching (FM) é uma técnica de treinamento de modelo que redefine Continuous Normalizing Flows (CNFs) ao focar na regressão de campos vetoriais de caminhos de probabilidade condicional fixos. FM pode fornecer uma alternativa mais estável para treinar modelos de difusão — os caminhos são mais eficientes, o treinamento e a amostragem são mais rápidos e o desempenho de generalização é aprimorado.

Como o Stable Diffusion 3 Funciona?

A arquitetura SD3 baseia-se no DiT, no entanto, para geração de texto para imagem, ela deve considerar ambas as modalidades: texto e imagem. Assim, o SD3 cria uma nova arquitetura chamada Multimodal Diffusion Transformer (MMDiT), que também utiliza modelos pré-treinados para obter representações adequadas de texto e imagem. Ele usa três diferentes incorporadores de texto — dois modelos CLIP e T5 — para codificar representações de texto, e um modelo de autoencoding aprimorado para codificar tokens de imagem.

O Stable Diffusion 3 emprega uma formulação de Rectified Flow (RF), onde dados e ruído são conectados em uma trajetória linear durante o treinamento. Isso resulta em caminhos de inferência mais retos, que permitem amostragem com menos etapas. Além disso, no processo de treinamento, um cronograma de amostragem de trajetória inovador é introduzido no SD3, que dá mais peso às partes intermediárias da trajetória. Em contraste, a variante RF reponderada melhora consistentemente o desempenho. Em seguida, a formulação RF reponderada e o backbone MMDiT são escalados, fazendo com que os modelos SD3 transformem de 15 blocos com 450M de parâmetros para 38 blocos com 8B de parâmetros.

Como Acessar a API do Stable Diffusion 3?

A Novita AI agora oferece suporte ao modelo Stable Diffusion 3 Medium — você pode testá-lo.

A integração da API está atualmente em versão beta. Você pode participar da lista de espera para acesso à API para integrá-la ao seu gerador de imagens AI existente e desenvolver novos recursos. Agora, você pode entrar na lista de espera para acesso antecipado.

Desenvolvimento Futuro do Stable Diffusion 3

Embora o SD3 seja uma tecnologia de IA de ponta, ele possui algumas limitações. Atualmente, a opção de download direto dos pesos do modelo Stable Diffusion 3 não está imediatamente disponível ao público, e o auto-hospedagem direta do Stable Diffusion 3 não está disponível. Mas, no geral, o Stable Diffusion 3 ainda tem muito espaço para desenvolvimento no futuro, e temos grandes expectativas para ele.

Conclusão

Em resumo, o Stable Diffusion 3 é um modelo inovador de geração de imagens por IA que oferece melhorias significativas em relação aos seus antecessores. Com suas capacidades robustas e recursos inovadores, o Stable Diffusion 3 não é apenas uma ferramenta, mas uma potência criativa que coloca a criação de imagens de alta qualidade ao seu alcance. Criadores de todas as origens podem aproveitar o potencial criativo das imagens geradas por IA e explorar novas fronteiras em seus empreendimentos artísticos ou de negócios.

Novita AI, a plataforma completa para criatividade sem limites que oferece acesso a mais de 100 APIs. Desde geração de imagens e processamento de linguagem até aprimoramento de áudio e manipulação de vídeo, com pagamento conforme o uso acessível, libera você das preocupações com manutenção de GPU enquanto constrói seus próprios produtos. Experimente gratuitamente.

Leitura Recomendada

  1. Stable Diffusion API: Um Guia Abrangente
  2. Modelos Stable Diffusion para Anything V3
  3. Prompt do Stable Diffusion: Um Guia Completo