拡散モデルは画像生成における色表現に役割を果たし、生成モデルの新時代を推進します。 Stable Diffusion、DALLE、Imagen、SORA などの大規模なモデルが登場し、生成 AI のアプリケーション背景がさらに充実しました。しかし、現在の拡散モデルは理論的には完璧ではなく、サンプリング期間の終点における未定義の特異点の問題に注目した研究はほとんどありません。さらに、アプリケーションの特異点問題によって引き起こされる平均グレーレベルや、生成される画像の品質に影響を与えるその他の問題は解決されていません。
この問題を解決するために、WeChat ビジョン チームは中山大学と協力して拡散モデルの特異点問題を共同で調査し、プラグアンドプレイ手法を提案しました。初期段階のサンプリング問題は解決されます。この方法は、平均グレーレベルの問題を解決し、既存の拡散モデルの生成能力を大幅に向上させます。この研究結果はCVPR 2024カンファレンスで発表されました。
拡散モデルは、画像、音声、テキスト、ビデオの生成など、マルチモーダルなコンテンツ生成タスクで目覚ましい成功を収めています。これらのモデルのモデリングが成功するかどうかは、主に、 拡散プロセスの逆プロセスもガウス特性 に準拠するという仮定に依存しています。ただし、この仮説は完全には証明されていません。特にエンドポイント、つまり t=0 または t=1 では特異点の問題が発生し、特異点でのサンプリングを研究する既存の方法が制限されます。
さらに、特異点問題は拡散モデルの生成能力にも影響し、モデルに 平均グレースケール問題が発生します。以下に示すように、明るさが強いまたは弱い画像を生成することは困難です。これにより、現在の普及モデルの適用範囲もある程度制限されます。
時間エンドポイントにおける拡散モデルの特異点問題を解決するために、WeChat ビジュアル チームは中山大学と協力し、理論と実践の両方から徹底的な研究を実施しました。側面。まず、チームは、特異点の瞬間における逆過程の近似ガウス分布を含む誤差上限を提案しました。これは、その後の研究に理論的基礎を提供しました。この理論的保証に基づいて、チームは特異点でのサンプリングを研究し、2 つの重要な結論に達しました。1) t=1 の特異点は、極限を見つけることで分離可能な特異点に変換できる、2) t=0 での特異点これは拡散モデルの固有の特性であり、回避する必要はありません。これらの結論に基づいて、チームは初期瞬間における拡散モデルのサンプリングの問題を解決するためのプラグアンドプレイ手法 SingDiffusion を提案しました。
多数の実験を通じて、SingDiffusion モジュールは 1 回のトレーニングだけで既存の拡散モデルにシームレスに適用でき、平均グレー値の問題を大幅に解決できることが証明されています。 SingDiffusion は、分類器のないガイダンス技術を使用せずに、現在の手法の生成品質を大幅に向上させることができ、特に Stable Diffusion 1.5 (SD-1.5) に適用した後、生成される画像の品質は 33% 向上しました。
論文アドレス: https://arxiv.org/pdf/2403.08381.pdf
プロジェクトアドレス: https://pangzecheung.github.io/SingDiffusion/
論文のタイトル: 拡散モデルにおける時間間隔の終点における特異点への取り組み
拡散モデルの特異点問題を研究するには、過程全体の特異点における逆過程が成り立つことを検証する必要があります。ガウス特性を満たします。まず # を拡散モデルのトレーニング サンプルとして定義します。トレーニング サンプルの分布は次のように表現できます:
ここで、δはディラック関数を表します。 [1] の連続時間拡散モデルの定義によれば、任意の 2 つの瞬間 0≤s,t≤1 について、順方向プロセスは次のように表すことができます:
その中で、、、時間の経過とともに単調になる1から0に変化します。先ほど定義したトレーニング サンプル分布を考慮すると、 の単一瞬間周辺確率密度は次のように表すことができます。
##したがって、逆プロセスの条件付き分布はベイズの公式を通じて計算できます。
# ただし、得られた分布は混合ガウス分布です。ネットワークを使用してフィッティングを実行するのは困難です。したがって、主流の拡散モデルは通常、この分布が単一のガウス分布に適合すると仮定します。この仮説を検証するために、研究では命題 1 のこのフィッティングの誤差を推定します。
ただし、研究では、t=1 の場合、s が 1 に近づくにつれて、 も 1 に近づくことがわかりました。 、エラーは無視できません。したがって、命題 1 は t=1 における逆ガウス特性を証明しません。この問題を解決するために、この研究は新しい命題を与えます:
命題 2 によると、t=1 のとき、s は次のようになります。 1、 は 0 に近づきます。したがって、本研究は特異点モーメントを含む逆過程全体がガウス特性に従うことを証明した。
特異点の瞬間におけるサンプリング
逆過程のガウス特性が保証されているため、この研究は特異点のサンプリングに基づいています。逆サンプリング公式に基づくモーメントの研究が開始されました。 まず、時間 t=1 における特異点の問題を考えます。 t=1、
=0 の場合、次のサンプリング式では分母が 0 で除算されます。研究チームは、次のことを発見しました。極限を計算すると、特異点は非特異点に変換できます:
ただし、この制限はテスト中に計算できません。この目的を達成するために、この研究では、 を時間 t=1 でフィッティングすることができ、「x - 予測」を使用して初期特異点でのサンプリング問題を解決できることを提案します。
# 次に、時刻 t=0 を考えます。ガウス分布フィッティングの逆プロセスは、分散 0 のガウス分布、つまりディラック関数になります。 ## #### ############で#########。このような特異点により、サンプリング プロセスが正しいデータに収束します
。したがって、t=0 での特異点は拡散モデルの優れた特性であり、回避する必要はありません。
さらに、この調査では、付録で DDIM、SDE、および ODE の特異点の問題についても調査しています。 プラグアンドプレイ SingDiffusion モジュール
特異点でのサンプリングは拡散モデルの生成に影響します 画像品質。たとえば、高輝度または低輝度のキューを入力する場合、既存の方法では多くの場合、平均グレースケールの画像しか生成できません。これは、平均グレースケール問題と呼ばれます。この問題は、既存の方法が t=0 の特異点でのサンプリングを無視し、1-ϵ の瞬間でのサンプリングの初期分布として
標準ガウス分布このようなギャップの下では、命題 3 によれば、既存の方法は t= で平均値 0 の画像に向かって移動することと等価です。 1 つまり、平均的なグレースケール画像を生成します。したがって、既存の手法では、明るさが極端に強い画像や弱い画像を生成することは困難です。この問題を解決するために、この研究では、標準的なガウス分布と実際のデータ分布の間の変換をフィッティングすることによってこのギャップを埋めるプラグアンドプレイの SingDiffusion 手法を提案します。 SingDiffuion のアルゴリズムは次の図に示されています。
の結論によると、前のセクション、この研究 「x - 予測」法は、特異点でのサンプリング問題を解くために時間 t=1 で使用されます。画像とテキストのデータ ペア
の場合、このメソッドは
に適合するように Unet
をトレーニングします。損失関数は次のように表されます: モデルが収束したら、以下の DDIM サンプリング式に従い、新しく取得したモジュールを使用できますサンプリング。
DDIM のサンプリング式は、生成された が 1-ε 時間でのデータ分布に一致することを保証します。 これにより、平均グレースケールの問題。このステップの後、事前トレーニングされたモデルを使用して、 が生成されるまで後続のサンプリング ステップを実行できます。このメソッドはサンプリングの最初のステップにのみ関与し、その後のサンプリング プロセスとは何の関係もないため、SingDiffusion はほとんどの既存の拡散モデルに適用できることに注意してください。さらに、分類子ガイダンス操作がないことによって引き起こされるデータ オーバーフローの問題を回避するために、このメソッドは次の正規化操作も使用します。分類子ガイダンス操作を行わなかった後の結果、neg は否定的なプロンプトの下での出力を表し、pos は肯定的なプロンプトの下での出力を表し、ω はガイダンスの強度を表します。
実験
まず、この研究では、SD-1.5、SD-2.0 ベース、SD-2.0 の 3 つのモデルで SingDiffusion を検証しました。平均グレースケールの問題を解決します。今回の研究では、生成条件として「真っ白/黒背景」「白/黒背景にモノクロ線画ロゴ」を含む4つの極端なプロンプトを選択し、生成された画像の平均グレースケール値を計算したところ、下表のようになりました。表示:
#表からわかるように、この研究は平均グレー値の問題を大幅に解決し、明るさに一致する色を生成できます。入力テキストの説明の画像。さらに、この研究では、次の図に示すように、これら 4 つのプロンプト ステートメントに基づく生成結果も視覚化しました。図 にあるように、このメソッドを追加すると、既存の拡散モデルで白または黒の画像を生成できるようになります。
この方法によって達成される画質の向上をさらに研究するために、研究では COCO データセットでのテストのために 30,000 の記述を選択しました。まず、この研究では、次の表に示すように、分類子を使用しないガイダンスを使用せずにモデル自体の生成機能を実証しています。表 提案手法により、生成された画像の FID が大幅に削減され、CLIP インデックスが向上することがわかります。 SD-1.5 モデルでは、この論文の方法により、元のモデルと比較して FID インデックスが 33% 減少することは注目に値します。
さらに、分類器ガイダンスなしで提案された方法の生成能力を検証するために、この研究では、さまざまなガイダンス サイズ ω∈[1.5,2,3 ,4,5,6,7,8] CLIP 対 FID のパレート曲線:
図からわかるように、At同じCLIPレベルであれば、提案手法はより低いFID値を取得し、より現実的な画像を生成できます。
さらに、この研究では、次の図に示すように、さまざまな CIVITAI 事前トレーニング モデルの下で提案された方法の一般化能力も実証しています。
この研究で提案された方法は 1 回のトレーニングのみを必要とし、既存の拡散モデルに簡単に適用して平均グレースケール問題を解決できることがわかります。
最後に、この調査で提案された方法は、次の図に示すように、事前トレーニングされた ControlNet モデルにもシームレスに適用できます。
##結果から、この方法が ControlNet の平均グレースケール問題を効果的に解決できることがわかります。
以上が非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。