مقارنة بين 5 طرق تقطير حديثة لنماذج SD لمستخدمي الذاكرة المنخفضة: SSD، LCM، Turbo

مقارنة بين 5 طرق تقطير حديثة لنماذج SD لمستخدمي الذاكرة المنخفضة: SSD، LCM، Turbo

تسجل SD-Turbo درجات أعلى بكثير في الجماليات، والتحسين الذي أضافته إلى SD-21 ملحوظ.

للتوضيح: لدي بطاقة RTX2060 بسعة 6GB وكنت مهتمًا بالحصول على توليدات قابلة للاستخدام في أقل من 10 ثوانٍ. سبق أن قمت بإنشاء أنبوب SD-21 محسّن قبل SDXL. المطالبات (prompts) للصور أدناه مأخوذة من Microsoft Image Creator (والتي تم اختيارها على الأرجح لإظهار اتساع قدرة نماذج الصور).

https://thekitchenscientist.github.io/dalle-3_examples.txt

بالنسبة لتحويل النص إلى صورة (text2img)، يمكنك رؤية مدى قدرة SDXL الأفضل على فهم مفاهيم المطالبة، لكن لمن لديهم أجهزة أقدم، تبدو SD-turbo قابلة للاستخدام للرسم شبه الفوري باستخدام أداة مثل Krita. تتحد بشكل جيد مع Koyha’s DeepShrink و FreeU_V2 لإنتاج صور بحجم 768×1024 بدون تشوهات في أقل من 5 ثوانٍ. إذا استخدمت أداة أخذ العينات LCM، يمكنك أيضًا تجاوز خطوتين دون حرق الصورة - فهي تبسطها تدريجيًا حتى تحصل على صورة متجهة بسيطة جدًا.

عند 4 خطوات (وهو ما يُستخدم أدناه)، يتم إصلاح معظم مشاكل الأطراف المشوهة التي تحدث مع خطوتين فقط. تحدث بعض الأمور المثيرة للاهتمام مع المطالبات المعقدة عندما تبدأ بدفع SD-Turpo إلى 7+ خطوات باستخدام أداة أخذ العينات LCM.

SD-Turbo

SDXL-Turbo

SXDL Base

SDXL-LCM

SSD-1B LCM

SSD-1B

الطريقة عدد الثواني لكل صورة على RTX2060 6GB مع ComfyUI
SDXL - uni_pc_bh2 30
SDXL LCM Lora (يبدو أنني بحاجة لاستخدام الدمج) 60
SDXL Turbo 13
SSD-1B 18
SSD-1B LCM Lora 10
SD-Turbo 1.5
SD-2.1 3

لقد قمت بترتيب جميع الصور الـ 2135 التي أنشأتها باستخدام نموذج الجماليات simulacra. لكل مطالبة، حسبت متوسط الجماليات عبر جميع الطرق ثم طرحته من درجة كل صورة في تلك المجموعة. الطريقة التي يسجل بها SSD-1B أعلى من SDXL تجعلني أعتقد أن نموذج الجماليات simulacra أو ما شابهه قد استُخدم في عملية التقطير.

تم طرح متوسط الدرجة لكل مطالبة من درجة كل صورة

استخدمت البذرة 1000000007، وأداة أخذ العينات lcm وجدولة sge_uniform. بالنسبة لـ turbo كانت 4 خطوات و LCM كانت 6 خطوات. تم إنشاء الصور الأساسية باستخدام uni_pc_bh2 و 12 خطوة. مجموعتا المطالبات الأخريان متاحتان هنا:

https://thekitchenscientist.github.io/dalle-2_examples.txt

https://thekitchenscientist.github.io/artist-space_examples.txt

أمثلة فضاء الصورة هي 244 مطالبة مبنية على: https://docs.google.com/spreadsheets/d/14xTqtuV3BuKDNhLotB_d1aFlBGnDJOY0BRXJ8-86GpA/edit#gid=0 قمت بتشغيل 10 آلاف عينة من هذه القائمة باستخدام SSD-1B ثم حللت تكوين الصورة والألوان لأخذ عينة من مجموعات من المطالبات الفنية المتباعدة/المتنوعة/التمثيلية من لا نهاية الفضاء الكامن.

مخطط إضافي يوضح انتشار الدرجات عبر كل مجموعة:

SD Turbo لتوليد الأفكار حول الأشخاص والمناظر الطبيعية؛ أخذ العينات الهجين للأثاث والنحت والعمارة؛ تأخير المطالبة (prompt delay) للحفاظ على نفس التركيبة بعدة أنماط؛ الشيء الرئيسي هو استخدام بذرة واحدة فقط. إذا أردت التحكم، استخدم IPadaptor أو img2img أو controlNet. بعض البذور متحيزة لتقسيم الموضوع وما إلى ذلك، لذا بمجرد أن وجدت بذرة موثوقة، كنت أستخدمها منذ عام.

هناك أيضًا بعض الحيل الإضافية التي لم أذكرها هنا، والتي ليست كلها متوفرة بعد في Comfyui، والتي تساعد النماذج الأضعف على التحسن بشكل أفضل:

[latent jitter

إعداد Stable Diffusion بأقل التبعيات وأنبوب واحد متعدد الوظائف - thekitchenscientist/sd_lite

GitHubthekitchenscientist

.png](https://github.com/thekitchenscientist/sd_lite/wiki/latent-jitter)

إحدى الحيل التي يمكنك تجربتها الآن هي استخدام أداة أخذ عينات بطيئة لأول 15% من الخطوات ثم التبديل إلى طريقة سريعة مثل LCM لباقي الخطوات. لقد وجدت أنه بالنسبة للعمارة والأثاث والنحت في SSD-1B، يعطي هذا نتائج أفضل بكثير في 10 خطوات فقط (4/14 بطيئة + 6/6 LCM)

نُشر في الأصل على Reddit بواسطة thkitchenscientist