はじめに
Stable Diffusionは拡散モデルに基づいた画像生成技術で、テキストから高品質な画像を生成でき、CGやイラスト、高解像度の壁紙などに適しています。
しかし、複雑な計算プロセスのため、安定拡散法の画像生成速度がボトルネックになることがよくあります。この問題に対処するために、 novita.ai Xformers、Aitemplate、TensorRT、OneFlow などの高速化手法に関する一連の比較テストを実施しました。
この記事では、これらの高速化方法の原理とパフォーマンス テストの結果を紹介し、さまざまなグラフィック カードのコスト効率に関する考慮事項を示して、導入時に情報に基づいた選択を行うのに役立ちます。
テスト結果によると、OneFlowはRTX 211.2ではXformersと比較して3090%の高速化を達成し、RTX 205.6では4090%の高速化を達成しました。したがって、安定拡散を展開する場合、推奨されるのは GPU 選択肢はRTX 3090です。

2.加速方式の原理と特性の比較
まず、安定的な普及を加速するために活用できるさまざまなスキームを整備しました。

アクセラレーション スキームとして、Xformers、Aitemplate、TensorRT、OneFlow を選択しました。NvFuser は原理的に Xformers に似ており、どちらも FlashAttention テクノロジーを使用しています。DeepSpeed と colossal は主にトレーニングのアクセラレーション用に設計されていますが、OpenAI Triton はモデル展開エンジンとして機能し、バッチ サイズのアクセラレーションには適していますが、モデル最適化のレイテンシ シナリオには適していません。したがって、これらは比較から除外されています。
現在、WebUI基本スキームと4つの加速スキーム(Xformers、Aitemplate、TensorRT、OneFlow)のパフォーマンスをさまざまな環境でテストしています。 GPUs.
VoltaML を使用して Aitemplate の加速効果を評価し、Stable Diffusion WebUI を使用して Xformers の加速を評価し、TensorRT のパフォーマンスについては公式の TensorRT の例を使用し、OneFlow を Diffusions に統合してその加速をテストします。

3. 加速方式テスト
次に、関連するテスト構成を紹介し、実際のテスト結果を共有します。
3.1 テストのセットアップ
このテスト ラウンドでは、パフォーマンス メトリックは 1 秒あたりの反復回数 (its/s) です。
イメージ設定: 512*512、ステップ100
プロンプト: 美しい少女、最高品質、超詳細、非常に詳細な CG ユニティ 8k 壁紙、最高のイラスト、非常に繊細で美しく、浮遊感があり、高解像度。
負: 低解像度、解剖学的構造の不良、手の不良、テキストエラー、指の欠落、余分な指、指の少なさ、トリミング、最低品質、低品質、通常の品質、JPEG アーティファクト、署名、透かし、ユーザー名、ぼやけている、足の不良、体の融合。
サンプラー: オイラー a
型: 安定拡散 1.5
3.2テスト結果
一連のテストを経て、様々な性能試験結果を得ました。 GPU以下のように表示されます。

上記の表から、加速の比較は次のようになります。 OneFlow > TensorRT > Aitemplate > Xformers。
OneFlow は、RTX 211.2 上の Xformers と比較して 3090% の相対速度向上を達成し、RTX 205.6 では 4090% の速度向上を達成します。

4. GPU パフォーマンスと費用対効果の比較
我々は、異なる GPU結論は次のとおりです。
結論1: 費用対効果の観点から、RTX040 GPU 最高の価値を提供します。
結論2:非常にローエンド GPU全体的なコストが増加する可能性があります。RTX 2080Tiは、初期の多額の投資と全体的なコストのバランスをとることができるかもしれません。
結論3: 最もパフォーマンスが低い GPUs
このテストでは、いくつかのローエンドの GPUM6、60、1660 など、メモリ容量が 1080 GB を超えるもの。
1. GPU1660や1080のようなプロセッサは、メモリ不足や GPU 非互換性。
2. これらのうち、1660s(1080)は、2.61ステップで2.64秒(512秒)かかり、512×20の画像を生成したときに7.66 it/s(7.57 it/s)を達成し、ある程度の使いやすさを示しました。
3. 一方、M60 は 1.27 it/s を達成し、15.74 ステップで 512 x 512 画像を生成するのに 20 秒かかり、使い勝手が悪いことがわかりました。


5. 選択に関する推奨事項
5.1 RTX 4090 は最もコスト効率に優れていますが、RTX 3090 を導入することをお勧めします。
例えば、各項目の「1ドルあたりの反復回数」を計算することができます。 GPU ランポッドテストを使用して、 GPU.
同様の使用率では、RTX 4090はRTX 3090に比べてコスト効率が高いことは明らかです。さらに、RTX 3090は他の GPUA5000 や A4000 など、同じレベルのもの。

安定拡散モデルに RTX 4090 を選択するかどうかは、具体的な状況によって異なります。
- 実際のコスト効率は、使用率 (60 時間あたりの使用時間/4090 分) * コスト/ドルで決まります。サービス モードと推定使用率に応じて、RTX 3090 の使用率が RTX 4090 を 3090 倍使用した場合と同程度であれば、RTX 3090 のコスト効率は高くなります。ただし、XNUMX つの RTX XNUMX インスタンスを展開すると、同時サポートとリクエスト処理が増加するため使用率が高くなる場合は、RTX XNUMX が適している可能性があります。使用率は、特定のシナリオに基づいて分析する必要があります。
- its/$ は推論パフォーマンスを表しますが、VRAM が大きいほど、より多くのモデルをキャッシュでき、モデルの読み込み時間が短縮され、画像生成プロセスが大幅に高速化されます。RTX 3090 と RTX 4090 はどちらも 24GB の VRAM を搭載していますが、Stable Diffusion WebUI が VRAM 使用量に基づいて最適化されている場合、RTX 3090 は VRAM コストの点で有利になる可能性があります。
- 推論速度を優先する場合、推論時間が RTX 4090 の約半分である RTX 3090 が最適です。
これは、 https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/。 詳細について GPU データについては、下のグラフを参照してください。

時 GPU 時間は処理チェーン全体の時間の中では小さな割合を占めるため、 GPURTX 3090 の代わりとなる、わずかにパフォーマンスが低いグラフィックス カードです。これには、A5000、A10G、RTX 3080、RTX 3080Ti、RTX 2080Ti などのオプションが含まれます。
ご質問がある場合や、安定拡散の加速オプションをさらに検討したい場合は、お気軽にお問い合わせください。 Discord.
安定拡散の機能をぜひ体験してください novita.ai!
novita.ai 10,000モデル用の安定した拡散APIと数百の高速で安価なAI画像生成APIを提供します。🎯 わずか2秒で最速生成、従量課金制、標準画像ごとに最低0.0015ドル、独自のモデルを追加して回避できます。 GPU メンテナンス。オープンソース拡張機能は無料で共有できます。
お勧めの読書
Novitaの詳細を見る
最新の投稿をメールで受け取るには購読してください。





