2015 年、論文「非平衡熱力学を使用した教師なし学習」の中で、VAE などの当時の生成モデルには大きな問題があったことが提案されました。このタイプのモデルは、最初に条件付き分布を定義し、次に適応のための変分事後分布を定義するため、最終的には条件付き分布と変分事後分布を同時に最適化する必要がありますが、これは非常に困難です。データ分布を標準ガウスにマッピングする単純なプロセスを定義できれば、「ジェネレーター」のタスクは、このプロセスの逆プロセスの各小さなステップを単純にフィッティングするだけになります。これが拡散モデルの中心的な考え方です。 。しかし、この記事は当時、何の話題にもなりませんでした。
先人たちの考えをもとに、2020 年に DDPM モデル (Denoising Diffusion Probabilistic Models) )、基本的な拡散モデルと比較して、作成者は拡散モデルとノイズ除去スコアを組み合わせてトレーニングとサンプリングのプロセスをガイドし、生成された画像サンプルに適切な改善をもたらし、トレーニングをより簡単かつ安定させます。結果は GAN モデルと同等です。
#図 2 - DDPM の生成結果
ただし、DDPM モデルは完全ではなく、拡散プロセスはマルコフ連鎖であるため、より良い結果を得るには比較的多くの拡散ステップが必要となり、サンプル生成が非常に遅くなるという欠点があります。
そこで、DDPM の後、2021 年に、Song らは DDIM (Denoising Diffusioin Implicit Model) を提案しました。これは、DDPM の拡散プロセスを変革しました。サンプリング手法は、従来の手法を拡張します。マルコフ拡散プロセスを非マルコフプロセスに変換し、より小さなサンプリングステップを使用してサンプル生成を加速し、効率を大幅に向上させることができます。
また、VAE モデルと DM モデルの組み合わせなど、拡散モデルを従来の生成ネットワークと統合するためのフォローアップ作業にもいくつかの改善が加えられています。 GAN DM などの組み合わせについては、ここでは詳しく説明しません。
1.3 アウトブレイク2022 年、Google は、テキストによる説明を可能にする普及モデルに基づいた新しい AI システムを開始しました。リアルな映像に生まれ変わりました。
#画像 3
#図 4
Google が提供する模式図から、入力テキストはまずエンコードされ、テキストから画像への拡散モデルによって 64*64 の小さな画像に変換されることがわかります。解像度拡散モデル、画像の解像度はさらなる反復プロセスで改善され、最終的に生成された結果 (1024*1024 の最終画像) が得られます。この魔法のようなプロセスは、誰もが使用時に感じるものとまったく同じです。赤い点のタートルネックと青い市松模様の帽子をかぶったゴールデンレトリバーの犬のテキストを入力すると、プログラムが上記のテキストを自動的に生成します。見た。
もう 1 つの人気のある現象レベルのアプリケーション - novalAI、これはもともと AI ライティング専用の Web サイトでした。現在注目の画像生成に基づいて、インターネット上の画像リソースを組み合わせてトレーニングします。画像生成モデルに焦点を当てています。二次元上の絵画が開発され、その効果は人間の画家のレベルに達し始めています。
#図 5
画像を生成するための従来のテキスト入力に加えて、参照として画像を入力することもサポートされており、AI が既知の画像に基づいて新しい画像を生成できるようになります。これにより、AI によって生成された制御不能な結果の問題がある程度解決されます。
#パート 022.1 転送プロセス
与えられた初期データ分布 x0~q(x) に対して、データ分布にガウス ノイズを徐々に追加します。このプロセスには T 回、各ステップがかかります。結果は x1、
##前述したように、これはマルコフ連鎖プロセスです。最終的に、データは等方性ガウス分布になる傾向があります。
#2.2 逆拡散プロセス
逆拡散プロセスはノイズ除去プロセスです。#, x0 は完全な標準ガウス分布から復元できます。
# が十分に小さい場合、 は依然としてガウス分布であり、 は単純に推論できません。パラメーター # を含む深層学習モデルを使用して予測するため、次のようになります。
#x0 が既知の場合は、ベイジアン公式を使用します:
一連の導出の後、DDPM モデルは最終的な損失関数式を取得しました。
## トレーニング プロセスを要約します。 #1. #図 6 パート 03 しかし、AI技術の発展に伴い、画像生成の分野においても例外ではなく、AI技術そのものの問題だけでなく、生成された画像構造が間違っていたり不合理だったり、AI作品自体の著作権問題など、いくつかの法的紛争も伴います。技術的な問題は技術自体の開発によって解決できますが、AI 技術の発展により、最終的には画像生成が非常に高いレベルに達し、それによって下位の塗装関連の仕事のほとんどが排除されると考える理由があります。人間の生産性を大きく解放します。著作権問題を解決するには、政府部門が関連産業の発展に十分な注意を払い、関連する政策や制度を改善する必要があり、そのためには、AI技術が私たちに役立つよう、新興分野についてもっと考える必要がある。 //m.sbmmt.com/link/3799b2e805a7fa8b076fc020574a73b2
##2.3 トレーニングプロセス
機械学習についてある程度の知識がある読者は、すべてのモデルのトレーニングが、信頼できる平均と分散を取得するためにモデルのパラメーターを最適化することであることを知っているはずです。モデルの予測分布の対数を最大化します。尤度、つまり:
● 概要
● 普及モデルは大きな可能性を示しています。VAEとの比較モデルを使用すると、事後分布を揃える必要がなく、GAN のような追加の識別器をトレーニングする必要もありません。コンピュータ ビジョン、バイオインフォマティクス、音声処理が含まれます。画像生成やその他の側面に応用できます。画像生成への応用は役立ちます。画像作成の効率が向上します。AI が条件に基づいて複数の絵を生成し、人間がその結果をフィルタリングおよび修正できるようになる可能性があります。これは、将来 2D ペインティングの分野における新しいトレンドとなるでしょう。 2D デジタル アセットの生産効率を向上させます。
参考文献
以上が拡散モデルに基づく画像生成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。