ノイズ除去拡散モデル (DDM) は、現在画像生成で広く使用されている方法です。最近、Xinlei Chen、Zhuang Liu、Xie Saining、He Kaiming の 4 人チームが DDM の解体研究を実施しました。徐々に構成要素を取り除いていくと、DDMの生成能力は徐々に低下するものの、表現学習能力は一定レベルを維持していることが判明した。これは、DDM の一部のコンポーネントが表現学習にとって重要ではない可能性があることを示しています。
ノイズ除去は、コンピューター ビジョンなどの分野における現在の生成モデルの中核的な手法と考えられています。このタイプの方法は、ノイズ除去拡散モデル (DDM) と呼ばれることが多く、ノイズ除去オートエンコーダー (DAE) を学習することで、拡散プロセスを通じて複数のレベルのノイズを効果的に除去できます。
これらの方法は、優れた画像生成品質を実現し、高解像度の写真のような模擬実画像の生成に特に適しています。これらの生成モデルのパフォーマンスは非常に優れているため、強力な認識能力と、生成された視覚コンテンツを理解する能力を備えているとほぼ考えられます。
DAE は現在の生成モデルの中核ですが、最初の論文「ノイズ除去オートエンコーダーによる堅牢な特徴の抽出と合成」では、教師あり手法を通じてデータの表現を学習することが目的でした。本稿では、ロバストな特徴を抽出・結合できる手法を提案する。ノイズ除去オートエンコーダーを通じて入力データの有用な表現を学習することで、教師あり学習タスクのパフォーマンスを向上させることを目的としています。このアプローチの適用が成功したことは、生成モデルにおける DAE の重要性を示しています。
現在の表現学習コミュニティでは、言語内の欠落テキスト (BERT など) や画像内の欠落タイルの予測など、「マスク ノイズ」に基づくバリアントが最も成功した DAE であると考えられています。
マスクベースのバリアントは何が未知で何が既知であるかを明示的に指定しますが、付加的なノイズを除去するタスクとは大きく異なります。加法性ノイズを分離するタスクでは、処理のガイドとなる明示的な情報はありません。ただし、現在の生成タスク用の DDM は主に加法性ノイズに基づいているため、表現を学習するときに未知のコンテンツと既知のコンテンツが明示的にラベル付けされない可能性があります。したがって、この違いにより、マスクベースのバリアントが加法性ノイズの処理において異なる効果を示す可能性があります。
最近、DDM (Deep Denoising Model) の表現学習機能に関する研究が増えています。これらの研究では、事前にトレーニングされた DDM モデル (元々は生成タスクに使用されていた) を直接採用し、認識タスクにおけるその表現品質を評価します。これらの生成指向モデルの適用により、刺激的な結果がもたらされました。
しかし、これらの先駆的な研究は、いくつかの未解決の問題も明らかにしました。これらの既存のモデルは、認識タスクではなく生成タスク用に設計されているため、その表現能力が拡散駆動によってどのように改善されるのかを判断できません。ノイズ駆動も拡散駆動によって得られます。プロセス。
Xinlei Chenらによるこの研究は、この研究の方向性において大きな一歩を踏み出しました。
論文タイトル: 自己教師あり学習のためのノイズ除去拡散モデルの分解
論文アドレス: https: //arxiv.org/pdf/2401.14404.pdf
既存の世代指向の DDM を使用する代わりに、認識指向のモデルをトレーニングしました。この研究の核となるアイデアは、DDM を分解し、古典的な DAE になるまで段階的に修正することです。
この脱構築研究プロセスを通じて、彼らは学習表現の目標における現代の DDM のあらゆる側面を注意深く調査しました。この研究プロセスにより、AI コミュニティは、DAE が適切な表現を学習するためにどのような重要なコンポーネントが必要かについて新たな理解をもたらしました。
驚くべきことに、主要な主要コンポーネントはトークナイザーであり、その機能は低次元の潜在空間を作成することであることがわかりました。興味深いことに、この観察は特定のトークナイザーとはほとんど独立しており、標準の VAE、タイル レベルの VAE、タイル レベルの AE、タイル レベルの PCA エンコーダを調査しました。彼らは、DAE を適切に表現できるのは、特定のトークナイザーではなく、低次元の潜在空間であることを発見しました。
PCA の有効性のおかげで、チームはそれを徹底的に分解し、最終的に従来の DAE によく似たシンプルなアーキテクチャを取得しました (図 1 を参照)。
タイルレベルの PCA を使用して画像を潜在空間に投影し、ノイズを追加して、逆 PCA を通じて投影し直します。次に、オートエンコーダーがトレーニングされて、ノイズ除去された画像を予測します。
彼らはこのアーキテクチャを潜在ノイズ除去オートエンコーダー (l-DAE) と呼んでいます。これは潜在ノイズ除去オートエンコーダーです。
チームの分解プロセスでは、DDM と従来の DAE の間の他の多くの興味深い特性も明らかになりました。
例として、単一のノイズ レベル (つまり、DDM を使用しないノイズ スケジューリング) を使用する場合でも、l-DAE を使用すると良好な結果が達成できることがわかりました。マルチレベル ノイズの使用は、ある種のデータ拡張のように機能し、有益な場合もありますが、寄与要因ではありません。
これらの観察に基づいて、チームは、DDM の特性評価機能は主に、拡散主導のプロセスではなく、ノイズ除去主導のプロセスを通じて得られると考えています。
最後に、チームは結果を以前のベンチマークと比較しました。一方で、新しい結果は以前に利用可能な方法よりも優れています。これらのモデルは分解プロセスの開始点であったため、これは予想通りです。一方、新しいアーキテクチャの結果は、ベースラインの対照学習方法やマスクベースの方法ほど良くはありませんが、その差は少し縮小しています。これは、DAE と DDM の研究方向にさらなる研究の余地があることも示しています。
背景: ノイズ除去拡散モデル
この解体研究の開始点はノイズ除去拡散モデル (DDM) です。
DDM については、論文「画像合成で拡散モデルが GAN に勝る」および「トランスフォーマーを使用したスケーラブルな拡散モデル」およびこのサイトの関連レポートを参照してください。 ## Dominance Diffusion モデルの U-Net を置き換えます Xie Saining らは Transformer を導入し、DiT》を提案しました。
ノイズ除去拡散モデルの分解
ここで注目するのはその分解プロセスです。このプロセスは 3 つの段階に分かれています。 1 つ目は、DiT の世代中心の設定を自己教師あり学習に合わせた設定に変更することです。次に、トークナイザーを徐々に分解して単純化してみましょう。最後に、モデルを古典的な DAE に近づけるために、DDM 駆動の設計を可能な限りリバース エンジニアリングしようとしました。DDM を自己教師あり学習に戻そう
DDM は概念的には DAE の一種ですが、実際にはもともと画像生成タスク用に開発されました。 DDM の設計の多くは生成タスクを対象としています。一部のデザインは本質的に自己教師あり学習に適していません (例: カテゴリ ラベルを含む)。その他のデザインは、視覚的な品質が考慮されない場合には必要ありません。 このセクションでは、チームは DDM の目的を自己教師あり学習に合わせて調整します。表 1 は、このフェーズの進行を示しています。 カテゴリ条件付けの削除 最初のステップは、ベースライン モデル内のカテゴリ条件付けプロセスを削除することです。 予期せぬことに、カテゴリ条件付けを削除すると、線形プローブの精度が大幅に向上します (57.5% から 62.1%) が、生成品質は予想どおり大幅に低下します (FID が 11.6 から 11.6 に 34.2)。 チームは、カテゴリ ラベルに基づいてモデルを直接条件付けすると、モデルがカテゴリ ラベルに関する情報をエンコードする必要性が減るのではないかという仮説を立てました。カテゴリ条件付けを削除すると、モデルはより多くのセマンティクスを学習するように強制されますVQGAN の分解LDM から DiT に継承された VQGAN トークナイザーのトレーニング プロセスでは、複数の損失項が使用されます: 自動エンコード再構成損失、KL 発散正則化損失、ImageNet 分類用に訓練された教師付き VGG ネットワークに基づく知覚損失、弁別器を使用した敵対的損失。チームは、後の 2 つの損失についてアブレーション研究を実施しました (表 1 を参照)。 もちろん、これら 2 つの損失を除去すると生成品質に影響しますが、線形検出精度指標に関しては、知覚的損失を除去すると 62.5% から 58.4% に減少し、敵対的損失を除去すると、 58.4%から59.0%に上昇しました。敵対的損失を除去した後、トークナイザーは本質的に VAE になります。 ノイズ スケジューリングの置き換えチームは、自己教師あり学習をサポートする、よりシンプルなノイズ スケジューリング スキームを研究しました。 具体的には、信号倍率 γ^2_t が 1>γ^2_t≧0 の範囲で直線的に減衰するものとします。これにより、モデルはより鮮明な画像にさらに力を入れることができます。これにより、線形検出精度が 59.0% から 63.4% に大幅に向上しました。トークナイザーの分解
次に、多くの単純化を行って VAE トークナイザーを分解します。彼らは、オートエンコーダの 4 つのバリアントをトークナイザとして比較し、それぞれが前のものの簡易バージョンです:タイルの操作は簡単なので、チームはタイル空間内の 3 つのタイルレベルのトークナイザーのフィルターを視覚化しました (図 4 を参照)。
#表 2 は、これら 4 つのトークナイザー バリアントを使用した場合の DiT の線形検出精度をまとめたものです。
#彼らは次の結果を観察しました:クラシックになるノイズ除去オートエンコーダ
分解の次のステップは、モデルを従来の DAE にできる限り近づけることです。つまり、現在の PCA ベースの DDM と従来の DAE の違いを削除します。 クリアなデータ (ノイズではない) を予測現代の DDM は通常ノイズを予測しますが、古典的な DAE はそれを予測します。明確なデータを予測することです。チームのアプローチは、損失関数を調整することで、より明確なデータの損失項により多くの重みを与えることです。 このような修正により、線形検出精度が 65.1% から 62.4% に低下します。これは、次のことを示しています入力スケーリングの削除最新の DDM では、入力にはスケーリング係数 γ_t がありますが、従来の DAE ではこれが行われることはあまりありません。 γ_t ≡ 1 に設定すると、チームは 63.6% の精度を達成できることがわかりました (表 3 を参照)。これは、変数 γ_t を使用したモデル (62.4%) よりも優れています。これは、現在のシナリオで、入力のスケーリングはまったく必要ありません。逆 PCA を使用して画像空間を操作するこれまでのところ、以前に調査したすべてのエントリ (図 5 を除く) について、モデルはすべて暗黙的な関数で実行されます。トークナイザーによって生成された空間 (図 2 (b)). 理想的には、DAE が画像空間を直接操作しながら、優れた精度で画像空間を位置決めできるようにしたいと考えています。チームは、PCA を使用しているため、逆 PCA を使用してこれを実現できることを発見しました。 入力側でこのような変更を行うことにより (暗黙的空間で出力を予測しながら)、63.6% の精度を得ることができます (表 3)。出力側に適用すると (つまり、逆 PCA を使用して画像空間上の出力を予測する)、63.9% の精度が得られます。どちらの結果も、逆 PCA を使用して画像空間上で演算を行っていることを示しています。得られた結果は次のようになります。 元の画像を予測する逆 PCA は画像空間で予測されたターゲットを取得できますが、ターゲットは元の画像ではありません。次元を削減した場合の非可逆エンコーダ d. 対照的に、より自然な解決策は、元の画像を直接予測することです。ネットワークに元の画像を予測させる場合、「ノイズ」は 2 つの部分で構成されます: 加法ガウスノイズ (固有次元は d) と PCA 再構成誤差 (固有次元は D − d (D は 768)) チームのアプローチは、これら 2 つの部分を別々に実行することです。元の画像の 64.5% の線形検出精度を達成します。 このバリアントは概念的には非常に単純です。その入力はノイズを含むイメージであり、ノイズが PCA 暗黙的空間に追加され、その予測は元のクリーンなイメージです (図 1)。 単一ノイズ レベル最後に、チームは好奇心に駆られて、単一ノイズ レベルの亜種も調べました。彼らは、ノイズ スケジューリングによって達成されるマルチレベル ノイズが DDM の拡散プロセスの特性であると指摘しました。古典的な DAE は概念的に、必ずしもマルチレベル ノイズを必要としません。 彼らはノイズレベル σ を定数 √(1/3) に固定しました。この単一レベル ノイズを使用すると、モデルの精度は 61.5% とかなりの値になります。これは、マルチレベル ノイズで達成される 64.5% と比較して、わずか 3 パーセントの改善にすぎません。 マルチレベル ノイズの使用は、DAE におけるデータ拡張の一種に似ています。これは有益ではありますが、寄与要因ではありません。これは、DDM の表現力が拡散主導のプロセスではなく、主にノイズ除去主導のプロセスから得られることも意味します。概要
要約すると、チームは最新の DDM を解体し、従来の DAE に変換しました。
彼らは多くの現代的な設計を削除し、概念的には現代の DDM から継承された 2 つの設計だけを保持しました。それは、低次元の暗黙的な空間 (ここにノイズが追加される) とマルチレベル ノイズです。
表 3 の最後の項目を最終 DAE インスタンスとして使用します (図 1 を参照)。彼らはこの方法を潜在ノイズ除去オートエンコーダー (潜在ノイズ除去オートエンコーダー) と呼び、l-DAE と略されます。
分析と比較
暗黙的なノイズの可視化
概念的には、l-DAE は、空間に追加されたノイズを除去するために学習できる DAE の形式です。暗黙の空間。 PCA は単純であるため、逆 PCA に含まれるノイズを簡単に視覚化できます。
図 7 は、ピクセルに追加されたノイズと潜在空間に追加されたノイズを比較しています。ピクセル ノイズとは異なり、暗黙的ノイズは画像の解像度にほとんど依存しません。タイルレベルの PCA がトークナイザーとして使用される場合、暗黙的ノイズのパターンは主にタイル サイズによって決まります。
ノイズ除去結果
図 8 は、l-DAE に基づくノイズ除去結果のその他の例を示しています。新しい方法は、ノイズが強い場合でも、より良い予測結果が得られることがわかります。
データ拡張
ここで指定されているすべてのモデルはデータ拡張を使用していないことに注意してください。画像の中央領域のみがトリミングされています。 、ランダムなサイズ調整や色のディザリングはありません。チームはさらなる研究を行い、最終的な l-DAE に対して穏やかなデータ拡張を使用してテストしました。
結果はわずかに改善されました。これは、l-DAE の表現学習機能がデータ拡張にほとんど依存していないことを示しています。同様の動作が MAE でも観察されています。He Kaiming らの論文「Masked autoencoders are scalable vision learners」を参照してください。これは対照学習法とはまったく異なります。
トレーニング エポック
これまでのすべての実験は 400 エポックのトレーニングに基づいています。 MAE の設計に従って、チームは 800 および 1600 エポックのトレーニングも研究しました。
#対照的に、エポック数が 400 から 800 に増加すると、MAE はには大幅なゲイン (4%) がありましたが、MoCo v3 ではエポック番号が 300 から 600 に増加すると、ゲインはほとんどありません (0.2%)。
モデル サイズ
以前のモデルはすべて DiT-L バリアントに基づいており、そのエンコーダーとデコーダーは ViT-1/2L (ViT-L の半分の深さ) でした。チームはさらに、ViT-B または ViT-L のエンコーダーを使用して、さまざまなサイズのモデルをトレーニングしました (デコーダーは常にエンコーダーと同じサイズです):
Yes 参照:モデルサイズを ViT-B から ViT-L に拡大すると、10.6% という大きなゲインが得られます。
以前のベースライン モデルの比較
最後に、さまざまなタイプの自己教師あり学習方法の効果をより深く理解するために、チームは比較を実施しました。その結果を表 4 に示します。
#興味深いことに、MAE と比較して、l-DAE のパフォーマンスは悪くなく、わずか 1.4% (ViT-B) または 0.8% (ViT-L) の低下です。一方で、MAE はマスクされていないタイルのみを処理するため、トレーニングの効率が高いことにもチームは注目しました。それにもかかわらず、MAE と DAE 主導の手法の間の精度の差は大幅に縮小されました。 最後に、彼らはまた、オートエンコーダーベースの方法 (MAE および l-DAE) には、特にモデルが小さい場合、このプロトコルの下での対照学習方法と比較してまだ欠点があることも観察しました。彼らは最後にこう述べました:「私たちの研究が、オートエンコーダベースの手法を使用した自己教師あり学習の研究にもっと注目されることを願っています。」以上がHe Kaiming と Xie Saining のチームは、解体拡散モデルの探索に成功し、最終的に高く評価されたノイズ除去オートエンコーダーを作成しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。