拡散モデルに基づく画像生成-AI-php.cn

拡散モデルに基づく画像生成

王林

リリース： 2023-04-14 14:58:20

転載

2217 人が閲覧しました

Part 01 #● 開発の歴史

##1.1 起源

2015 年、論文「非平衡熱力学を使用した教師なし学習」の中で、VAE などの当時の生成モデルには大きな問題があったことが提案されました。このタイプのモデルは、最初に条件付き分布を定義し、次に適応のための変分事後分布を定義するため、最終的には条件付き分布と変分事後分布を同時に最適化する必要がありますが、これは非常に困難です。データ分布を標準ガウスにマッピングする単純なプロセスを定義できれば、「ジェネレーター」のタスクは、このプロセスの逆プロセスの各小さなステップを単純にフィッティングするだけになります。これが拡散モデルの中心的な考え方です。。しかし、この記事は当時、何の話題にもなりませんでした。

1.2 開発

先人たちの考えをもとに、2020 年に DDPM モデル (Denoising Diffusion Probabilistic Models) )、基本的な拡散モデルと比較して、作成者は拡散モデルとノイズ除去スコアを組み合わせてトレーニングとサンプリングのプロセスをガイドし、生成された画像サンプルに適切な改善をもたらし、トレーニングをより簡単かつ安定させます。結果は GAN モデルと同等です。

拡散モデルに基づく画像生成

#図 2 - DDPM の生成結果

ただし、DDPM モデルは完全ではなく、拡散プロセスはマルコフ連鎖であるため、より良い結果を得るには比較的多くの拡散ステップが必要となり、サンプル生成が非常に遅くなるという欠点があります。

そこで、DDPM の後、2021 年に、Song らは DDIM (Denoising Diffusioin Implicit Model) を提案しました。これは、DDPM の拡散プロセスを変革しました。サンプリング手法は、従来の手法を拡張します。マルコフ拡散プロセスを非マルコフプロセスに変換し、より小さなサンプリングステップを使用してサンプル生成を加速し、効率を大幅に向上させることができます。

また、VAE モデルと DM モデルの組み合わせなど、拡散モデルを従来の生成ネットワークと統合するためのフォローアップ作業にもいくつかの改善が加えられています。 GAN DM などの組み合わせについては、ここでは詳しく説明しません。

1.3 アウトブレイク

2022 年、Google は、テキストによる説明を可能にする普及モデルに基づいた新しい AI システムを開始しました。リアルな映像に生まれ変わりました。

拡散モデルに基づく画像生成 #画像 3

拡散モデルに基づく画像生成 #図 4

Google が提供する模式図から、入力テキストはまずエンコードされ、テキストから画像への拡散モデルによって 64*64 の小さな画像に変換されることがわかります。解像度拡散モデル、画像の解像度はさらなる反復プロセスで改善され、最終的に生成された結果 (1024*1024 の最終画像) が得られます。この魔法のようなプロセスは、誰もが使用時に感じるものとまったく同じです。赤い点のタートルネックと青い市松模様の帽子をかぶったゴールデンレトリバーの犬のテキストを入力すると、プログラムが上記のテキストを自動的に生成します。見た。

もう 1 つの人気のある現象レベルのアプリケーション - novalAI、これはもともと AI ライティング専用の Web サイトでした。現在注目の画像生成に基づいて、インターネット上の画像リソースを組み合わせてトレーニングします。画像生成モデルに焦点を当てています。二次元上の絵画が開発され、その効果は人間の画家のレベルに達し始めています。

拡散モデルに基づく画像生成

#図 5

画像を生成するための従来のテキスト入力に加えて、参照として画像を入力することもサポートされており、AI が既知の画像に基づいて新しい画像を生成できるようになります。これにより、AI によって生成された制御不能な結果の問題がある程度解決されます。

#パート 02

##●

原理の説明 #それでは、このような強力な AI テクノロジーの作業プロセスはどのようなものなのでしょうか?ここでは、より古典的な DDPM モデルを例として、簡単なプロセスを示します。

2.1 転送プロセス

フォワード処理は、トレーニングサンプルGTを構築するために画像にノイズを加える処理である。

与えられた初期データ分布 x0~q(x) に対して、データ分布にガウスノイズを徐々に追加します。このプロセスには T 回、各ステップがかかります。結果は x1、

##前述したように、これはマルコフ連鎖プロセスです。最終的に、データは等方性ガウス分布になる傾向があります。

#2.2 逆拡散プロセス拡散モデルに基づく画像生成

逆拡散プロセスはノイズ除去プロセスです。

#, x0 は完全な標準ガウス分布から復元できます。

がガウス分布と ## を満たしている場合、x0 は証明されています。

# が十分に小さい場合、は依然としてガウス分布であり、拡散モデルに基づく画像生成は単純に推論できません。パラメーター # を含む深層学習モデルを使用して予測するため、次のようになります。

拡散モデルに基づく画像生成

#x0 が既知の場合は、ベイジアン公式を使用します:

拡散モデルに基づく画像生成

##2.3 トレーニングプロセス

機械学習についてある程度の知識がある読者は、すべてのモデルのトレーニングが、信頼できる平均と分散を取得するためにモデルのパラメーターを最適化することであることを知っているはずです。モデルの予測分布の対数を最大化します。尤度、つまり:

拡散モデルに基づく画像生成一連の導出の後、DDPM モデルは最終的な損失関数式を取得しました。

拡散モデルに基づく画像生成

## トレーニングプロセスを要約します。

#1.

入力 x0 を取得し、t をランダムにサンプリングします from 1...T 2. 標準ガウス分布からノイズをサンプリングします
3.
損失を計算し、損失関数を繰り返し最小化します

#図 6 拡散モデルに基づく画像生成

パート 03

●

概要

● 普及モデルは大きな可能性を示しています。VAEとの比較モデルを使用すると、事後分布を揃える必要がなく、GAN のような追加の識別器をトレーニングする必要もありません。コンピュータビジョン、バイオインフォマティクス、音声処理が含まれます。画像生成やその他の側面に応用できます。画像生成への応用は役立ちます。画像作成の効率が向上します。AI が条件に基づいて複数の絵を生成し、人間がその結果をフィルタリングおよび修正できるようになる可能性があります。これは、将来 2D ペインティングの分野における新しいトレンドとなるでしょう。 2D デジタルアセットの生産効率を向上させます。

しかし、AI技術の発展に伴い、画像生成の分野においても例外ではなく、AI技術そのものの問題だけでなく、生成された画像構造が間違っていたり不合理だったり、AI作品自体の著作権問題など、いくつかの法的紛争も伴います。技術的な問題は技術自体の開発によって解決できますが、AI 技術の発展により、最終的には画像生成が非常に高いレベルに達し、それによって下位の塗装関連の仕事のほとんどが排除されると考える理由があります。人間の生産性を大きく解放します。著作権問題を解決するには、政府部門が関連産業の発展に十分な注意を払い、関連する政策や制度を改善する必要があり、そのためには、AI技術が私たちに役立つよう、新興分野についてもっと考える必要がある。