単一の自然画像から拡散モデルを学習することは GAN よりも優れており、SinDiffusion は新しい SOTA を実現します-AI-php.cn

1 枚の自然画像から画像を生成する技術は広く普及しており、ますます注目を集めています。この研究は、パッチの内部統計を取得することで、単一の自然画像から無条件生成モデルを学習し、同様の視覚コンテンツを持つさまざまなサンプルを生成することを目的としています。トレーニングが完了すると、モデルは高品質で解像度に依存しない画像を生成できるだけでなく、画像編集、画像の調和、画像間の変換などのさまざまなアプリケーションに簡単に適応させることもできます。

SinGAN は上記の要件を満たすことができ、この方法では複数のスケールの自然画像を構築し、一連の GAN をトレーニングして単一画像内のパッチの内部統計を学習できます。 SinGAN の中心となるアイデアは、段階的に拡大するスケールで複数のモデルをトレーニングすることです。ただし、これらの方法で生成された画像は、小規模な詳細エラーが発生し、生成された画像に明らかなアーティファクトが発生するため、満足のいくものではない可能性があります (図 2 を参照)。

単一の自然画像から拡散モデルを学習することは GAN よりも優れており、SinDiffusion は新しい SOTA を実現します

この記事では、中国科学技術大学、マイクロソフトリサーチアジア、その他の機関の研究者が、新しいフレームワーク - 単一画像拡散 (SinDiffusion、単一画像拡散)。ノイズ除去拡散確率モデル (DDPM) に基づく単一の自然画像から学習します。拡散モデルは複数段階の生成プロセスですが、累積誤差の問題はありません。その理由は、拡散モデルには体系的な数式があり、中間ステップでのエラーは干渉とみなされ、拡散プロセス中に改善できるためです。

SinDiffusion のもう 1 つの核となる設計は、拡散モデルの受容野を制限することです。この研究では、以前の拡散モデル [7] で一般的に使用されていたネットワーク構造をレビューし、より強力なパフォーマンスとより深い構造を備えていることがわかりました。ただし、このネットワーク構造の受容野は画像全体をカバーするのに十分な大きさであるため、モデルは記憶トレーニング画像に依存してトレーニング画像とまったく同じ画像を生成する傾向があります。画像全体を記憶するのではなく、モデルにパッチ統計を学習させるために、研究ではネットワーク構造を慎重に設計し、パッチごとのノイズ除去ネットワークを導入しました。以前の拡散構造と比較して、SinDiffusion は元のノイズ除去ネットワーク構造におけるダウンサンプリングの数と ResBlock の数を削減します。このようにして、SinDiffusion は 1 つの自然画像から学習し、高品質で多様な画像を生成できます (図 2 を参照)。

単一の自然画像から拡散モデルを学習することは GAN よりも優れており、SinDiffusion は新しい SOTA を実現します

#論文アドレス: https://arxiv.org/pdf/2211.12445.pdf
プロジェクトアドレス: https://github.com/WeilunWang/SinDiffusion

SinDiffusion の利点は、さまざまなシナリオで柔軟に使用できることです (図 1 を参照)。モデルを再トレーニングすることなく、さまざまなアプリケーションで使用できます。 SinGAN では、ダウンストリームアプリケーションは主に、さまざまなスケールで事前トレーニングされた GAN に条件を入力することによって実装されます。したがって、SinGAN の適用は、空間的に揃った条件が与えられたものに限定されます。これに対し、SinDiffusion はサンプリング手順を設計することで、より幅広い用途に使用できます。 SinDiffusion は、無条件トレーニングを通じてデータ分布の勾配を予測する方法を学習します。生成された画像と条件 (つまり、L-p 距離または CLIP などの事前学習済みネットワーク) 間の相関関係を記述するスコアリング関数があると仮定すると、この研究では相関スコアの勾配を利用して SinDiffusion のサンプリングプロセスをガイドします。このようにして、SinDiffusion はデータ分布と指定された条件の両方に適合する画像を生成できます。

単一の自然画像から拡散モデルを学習することは GAN よりも優れており、SinDiffusion は新しい SOTA を実現します

研究では、提案されたフレームワークの利点を実証するために、さまざまな自然画像に対して実験を実施しました。有名な芸術。定量的結果と定性的結果の両方で、SinDiffusion が高忠実度で多様な結果を生成できることが確認され、下流のアプリケーションでは SinDiffusion の有用性と柔軟性がさらに実証されています。

方法

以前の研究における漸進的成長設計とは異なり、SinDiffusion では、トレーニングに単一スケールの単一ノイズ除去モデルを使用し、エラーの蓄積を防ぎます。さらに、本研究では、拡散ネットワークのパッチレベルの受容野が内部パッチ分布の捕捉に重要な役割を果たしていることを発見し、新しいノイズ除去ネットワーク構造を設計しました。これら 2 つのコア設計に基づいて、SinDiffusion は 1 枚の自然画像から高品質で多様な画像を生成します。

このセクションの残りの部分は次のように構成されています。最初に SinGAN をレビューし、SinDiffusion の動機を示し、次に SinDiffusion の構造設計を紹介します。

まず、SinGAN について簡単におさらいしましょう。図 3(a) は SinGAN の生成プロセスを示しています。単一の画像からさまざまな画像を生成するために、SinGAN の重要な設計は、画像ピラミッドを構築し、生成される画像の解像度を徐々に高めることです。

図 3(b) は、SinDiffusion の新しいフレームワークを示しています。 SinGAN とは異なり、SinDiffusion は、単一のスケールで単一のノイズ除去ネットワークを使用して、複数ステップの生成プロセスを実行します。 SinDiffusion も SinGAN と同じマルチステップ生成プロセスを使用しますが、生成された結果は高品質です。これは、拡散モデルが数式の体系的な導出に基づいており、中間ステップで生成された誤差が拡散プロセス中に繰り返しノイズに精製されるためです。

単一の自然画像から拡散モデルを学習することは GAN よりも優れており、SinDiffusion は新しい SOTA を実現します

SinDiffusion

この記事では研究しました世代の多様性とノイズ除去ネットワークの受容野の関係 - ノイズ除去ネットワークのネットワーク構造を変更すると受容野が変化する可能性があり、受容野は異なるが同等の性能を持つ 4 つのネットワーク構造がこれらのモデルを 1 つの自然画像でトレーニングするように設計されました。。図 4 は、さまざまな受容野の下でモデルによって生成された結果を示しています。受容野が小さいほど、SinDiffusion によって生成される結果はより多様になり、またその逆も同様であることが観察できます。しかし、研究により、非常に小さな受容野モデルでは画像の合理的な構造を維持できないことが判明しました。したがって、適切な受容野は重要であり、適切なパッチ統計を取得するために必要です。

単一の自然画像から拡散モデルを学習することは GAN よりも優れており、SinDiffusion は新しい SOTA を実現します

#この研究では、一般的に使用される拡散モデルを再設計し、単一画像生成用のパッチ単位のノイズ除去ネットワークを導入します。図 5 は、SinDiffusion のパッチ単位のノイズ除去ネットワークの概要であり、以前のノイズ除去ネットワークとの主な違いを示しています。まず、ダウンサンプリングとアップサンプリングの操作を減らすことでノイズ除去ネットワークの深さが減り、それによって受容野が大幅に拡大します。同時に、ノイズ除去ネットワークで元々使用されていたディープアテンション層は自然に削除され、SinDiffusion はあらゆる解像度での生成に適した完全な畳み込みネットワークになります。第二に、SinDiffusion の受容野は、各解像度での埋め込み時間の再ブロックを減らすことによってさらに制限されます。この方法は、適切な受容野を備えたパッチ単位のノイズ除去ネットワークを取得するために使用され、現実的で多様な結果が得られます。

単一の自然画像から拡散モデルを学習することは GAN よりも優れており、SinDiffusion は新しい SOTA を実現します

実験

SinDiffusion がランダムに生成した画像の定性的結果を図 6 に示します。

さまざまな解像度で、SinDiffusion がトレーニング画像と同様のパターンを持つ実際の画像を生成できることがわかります。

さらに、この記事では、単一の画像から高解像度の画像を生成する SinDiffusion についても説明します。図 13 は、トレーニング画像と生成された結果を示しています。トレーニング画像は、雲、山、草、花、湖などの豊富なコンポーネントを含む解像度 486 × 741 の風景画像です。高解像度画像の生成に対応するために、SinDiffusion は、より大きな受容野とネットワーク機能を備えた拡張バージョンにアップグレードされました。 SinDiffusion の拡張バージョンは、解像度 486 × 2048 の高解像度の長いスクロール画像を生成します。生成されたエフェクトは、トレーニング画像の内部レイアウトを変更せずに維持し、図 13 に示すように、新しいコンテンツを要約します。

単一の自然画像から拡散モデルを学習することは GAN よりも優れており、SinDiffusion は新しい SOTA を実現します

以前の方法との比較

表 1 は、次の方法との違いを示しています。 SinDiffusion 生成された定量的結果は、いくつかの困難な方法 (つまり、SinGAN、ExSinGAN、ConSinGAN、GPNN) と比較されます。以前の GAN ベースの手法と比較して、SinDiffusion は段階的な改善を経て SOTA パフォーマンスを達成しました。この記事の研究方法により、生成される画像の多様性が大幅に向上したことは注目に値します。Places50 データセットでトレーニングされた 50 モデルの平均で、この方法は、現在最も困難な方法を 0.082 LPIPS のスコアで上回りました。

単一の自然画像から拡散モデルを学習することは GAN よりも優れており、SinDiffusion は新しい SOTA を実現します