CFG スケール安定拡散とは何か、どのように使用するのか?

Stable Diffusion の CFG スケールを理解します。ブログで、これを使用して画像の品質を向上させる方法を学習します。

イントロダクション

CFGスケールは分類子自由ガイダンススケールとも呼ばれ、テキストプロンプトへの安定拡散の遵守を制御する上で重要な役割を果たします。 テキストから画像へ (txt2img) と 画像から画像へ (img2img) 世代。

このブログでは、Stable Diffusion の CFG スケールについて、Stable Diffusion との関係やその背後にあるテクノロジーを含めて包括的に紹介します。さらに、Stable Diffusion で CFG スケールを使用する方法と、よくある間違いを避ける方法についての詳細なガイドを紹介します。今すぐ CFG スケールの世界に飛び込みましょう。

安定拡散における CFG スケールの理解

Stable Diffusion では、頭字語 CFG は「Classifier Free Guidance」スケールを表し、出力画像の品質を決定する上で重要な役割を果たします。

CFG (分類器フリーガイダンス) の進化

当初、拡散モデルは、生成プロセスをガイドするために明示的な分類器を使用していました。これには、ノイズの多い画像で分類器をトレーニングして、猫や犬などの特定のクラスを分類し、生成をガイドすることが含まれていました。ただし、これには追加のモデルが必要でした。そこで、画像キャプションを使用して条件付き拡散モデルをトレーニングする、分類器フリー ガイダンスが登場しました。

CFG スケールとは何ですか?

CFG スケール (構成スケール) は、拡散プロセスの強度を制御するパラメータです。ピクセル値がどの程度広がるか、または分散されるかを決定します。つまり、安定した拡散がプロンプトに従う範囲を決定します。

CFG スケールは安定拡散でどのように機能しますか?

デフォルトでは、CFG スケールの値は 7 に設定されており、創造的な自由と迅速なガイダンスのバランスが取れています。

CFGスケールと安定拡散の関係

安定拡散は、画像処理およびコンピュータ グラフィックスの分野における概念で、画像全体にピクセル値を拡散または分散させるプロセスを指します。この手法は、ぼかし、シャープ化、エッジ検出などのさまざまな効果を作成するためによく使用されます。このプロセスは一連のパラメータによって制御され、その 1 つが CFG スケールです。

CFG スケールは画像の品質にどのように影響しますか?

CFG スケールは、拡散プロセスでプロンプト ワードに適用される係数を決定します。CFG スケールの値が小さいほど、より多くの詳細を保持できますが、望ましい拡散効果が得られない可能性があります。一方、CFG スケールの値が大きいほど、強い拡散効果が得られますが、画像の詳細が失われる可能性があります。したがって、適切なバランスを見つけることが、高品質の出力画像を実現する鍵となります。 

安定した拡散における CFG スケールの調整は、望ましい結果によって異なります。微妙な拡散効果を生み出すことが目的の場合は、CFG スケール値を低くすることが適切です。逆に、強い拡散効果を生み出すことが目的の場合は、CFG スケール値を高くする必要があります。 

Stable Diffusion Web UI を使用する場合、CFG は 1 から 30 までの正の数に制限されます。ただし、ターミナル経由で Stable Diffusion を使用する場合、CFG は最大 999 に設定でき、負の値を取ることもできます。これは、Stable Diffusion がテキスト プロンプトとは反対のコンテンツを生成することを望んでいることを示します。 

安定拡散で CFG スケールを使用するにはどうすればよいでしょうか?

Stable Diffusion で CFG スケールを使用する方法を学ぶには、プロジェクトに Stable Diffusion モデルが必要です。このセクションでは、Stable Diffusion をプログラムに統合するところから、その使用方法を段階的に説明します。

ステップバイステップガイド

ダウンロードするのではなく、API を統合して Stable Diffusion を取得する利点は、ニーズに応じてモデルをトレーニングし、調整できることです。

  • ステップ 3: API キーを取得してプロジェクトに統合します。
  • ステップ 4: Stable Diffusion インターフェイスに切り替えます。
  • ステップ 5: リストから必要な安定拡散モデルを選択し、画像のプロンプトを入力します。 Novita AI 多くのモデルを提供します 安定拡散XL および安定拡散3。
  • ステップ 6: CFG スケール値を調整し、画像を生成します。
  • ステップ 7: さまざまな CFG スケール値を試して、最も印象的な結果をもたらす特定の値を見つけます。

CFGスケールの使用に関するハードウェアの考慮事項

Stable Diffusion のパフォーマンスと結果は、使用するハードウェアによって影響を受ける可能性があります。

  • グラフィックス プロセッシング ユニット (GPU): 強力な GPU 安定拡散を効率的に実行するには不可欠です。このモデルは GPU 画像生成に伴う計算集約的なタスク向け。 
  • ランダム アクセス メモリ (RAM): 十分なシステム RAM は、システム全体の応答性と大規模なデータセットの処理能力にとって重要です。最低でも 16 GB の RAM が推奨されますが、より要求の厳しいタスクの場合は 32 GB が必要です。
  • オペレーティング システム: Stable Diffusion は、Windows、macOS、Linux などのさまざまなオペレーティング システムと互換性があります。ただし、特定のバージョンと更新によって互換性とパフォーマンスが影響を受ける可能性があります。

安定拡散のためのCFGスケールの使用例

Stable Diffusion の CFG スケールを使用すると、ユーザーはニーズに応じて画像生成プロセスを微調整できます。

画質の最適化

ユーザーは CFG スケールを調整して画像の品質を最適化できます。入力プロンプトのリアリズムと忠実度のバランスが適切に保たれるため、値 7 が推奨されることがよくあります。 

否定的なプロンプト

CFG スケールは、否定的なプロンプトと組み合わせて使用​​することができ、メインのテキスト プロンプトに準拠しながら特定の要素を除外した画像を作成するのに役立ちます。

ケーススタディ

ケーススタディで CFG スケール値を調整することで、さまざまなレベルのガイダンスが生成された画像にどのように影響するかを観察でき、高忠実度の出力画像を実現する上での CFG スケールの役割の重要性をさらに理解できます。

さらに、 Novita AI 「画像から画像へ」。ケーススタディに活用できます。

まとめ

結論として、CFG スケールは、拡散プロセスの強度を制御する安定拡散における重要なパラメータです。希望する結果と元の画像の品質に基づいて CFG スケールを調整する方法を理解することで、安定拡散の結果を大幅に改善できます。画像処理やコンピューター グラフィックスの多くのことと同様に、最適な CFG スケール値を見つけるには、試行錯誤のプロセスが必要になることが多く、各プロジェクトの特定の要件によって異なります。

Novita AI AIへの野心を実現するオールインワンのクラウドプラットフォームです。シームレスに統合されたAPI、サーバーレスコンピューティング、そして GPU AIを活用したビジネスを迅速に構築・拡張するために必要な、費用対効果の高いツールを提供します。インフラの煩わしさを解消し、無料で始めましょう。 Novita AI AI の夢を現実にします。

お勧めの読書

  1. Stable Diffusion 3 APIが利用可能になりました Novita AI
  2. あらゆるもののための安定拡散モデル V3
  3. 安定拡散 API: 総合ガイド

Novitaの詳細を見る

最新の投稿をメールで受け取るには購読してください。

コメント

上へスクロール

Novitaの詳細を見る

今すぐ購読して読み続け、完全なアーカイブにアクセスしてください。

続きを読む