ブラインドフェイス復元 (BFR) の目標は、低品質の顔画像から高品質の顔画像を復元することです。これはコンピュータ ビジョンとグラフィックスの分野で重要なタスクであり、監視画像の復元、古い写真の復元、顔画像の超解像度など、さまざまなシナリオで広く使用されています。なぜなら、不確実性の劣化は画像の品質を損ない、さらにはぼやけ、ノイズ、ダウンサンプリング、圧縮アーティファクトなどの画像情報の損失につながるからです。従来の BFR 手法は通常、敵対的生成ネットワーク (GAN) に依存し、生成事前分布、参照事前分布、幾何学的事前分布など、さまざまな顔固有の事前分布を設計することでこれらの問題を解決していました。これらの手法は最先端のレベルに達していますが、細部を復元しながらリアルな質感を得るという目標を完全に達成することはできません。
画像復元プロセスでは、通常、顔画像のデータセットが分散されています。高次元空間 であり、分布の特徴的な次元はロングテール分布の形をとります。画像分類タスクのロングテール分布とは異なり、画像復元におけるロングテール地域特徴は、ほくろ、しわ、色調など、同一性には小さな影響を与えるが、視覚効果には大きな影響を与える属性を指します。
図 1 に示す簡略化によると、元の意味を変えないようにするには、実験結果を中国語に書き直す必要がありますが、過去の GAN ベースの手法では、結果を処理する際に明らかな問題があることがわかります。ロングテール分布の先頭と末尾のサンプルを同時に取得する 画像を修復する 過剰な平滑化や細部の損失が発生する可能性があります。拡散確率モデル (DPM) に基づく手法は、実際のデータ分布に適合しながら、ロングテール分布をより適切に適合させ、テールの特性を維持することができます。書き直す必要があるのは次のとおりです: ロングテール問題に関する GAN ベースおよび DPM ベースのテスト
Meitu Imaging Research Institute (MT Lab) と中国科学院大学の研究者が共同で新しいブラインドフェイスを提案しましたDPM テクノロジーに基づく画像修復手法 DiffBFR は、ブラインドの顔画像の復元に成功し、低品質 (LQ) の顔画像を高品質 (HQ) に修復します。## 書き直す必要があるのは次のとおりです: 論文リンク: https://arxiv.org/abs/2305.04517
この研究では、敵対的生成ネットワーク (GAN) とディープという 2 つの生成モデルの適応性を調査します。部分モデル (DPM)、ロングテール問題に対処します。適切な顔復元モジュールを設計することで、より正確な詳細情報を取得できるため、生成手法で発生する可能性のある顔の過剰な平滑化が軽減され、復元の精度と精度が向上します。この研究論文は ACM MM 2023 に受理されました#DPM ベースのブラインドフェイス画像修復法 - DiffBFR
研究では、拡散モデルがトレーニングの回避に優れていることが判明しましたモード崩壊とフィッティング ロングテール分布の生成においては GAN 法よりも優れています。したがって、DiffBFR は、顔の事前情報の埋め込みを強化するために拡散確率モデルを使用することを選択し、これをソリューションとして DPM を選択するための基本フレームワークとして使用します。これは、拡散モデルには、あらゆる分布範囲内で高品質の画像を生成する強力な機能があるためです。
論文に記載されている顔データセット上の特徴のロングテール分布と過度の平滑化を解決するために過去の GAN 手法に基づいた問題を解決するため、この研究では、近似のロングテール分布をよりよく適合させ、修復プロセスにおける過度の平滑化の問題を克服するための合理的な設計を検討します。 MNIST データセット上で同じパラメータサイズを使用した GAN と DPM の簡単な実験 (図 1) を通じて、この研究では、DPM 手法がロングテール分布に合理的に適合できるのに対し、GAN は頭部の特徴とテール フィーチャを無視するため、テール フィーチャを生成できません。したがって、BFR
に対する解決策として DPM が選択されます。2 つの中間変数を導入することにより、DiffBFR は 2 つの特定の修復モジュールを提案します。この設計では 2 段階のアプローチが採用されており、最初に LQ 画像からアイデンティティ情報を復元し、次に実際の顔の分布に基づいてテクスチャの詳細を強化します。この設計は 2 つの重要な部分で構成されます。(1) ID 復元モジュール (IRM):
このモジュールの目的は、顔の詳細を保持することです。同時に、低品質画像にノイズの一部を追加することにより、逆のプロセスで純粋なガウスランダム分布を使用するノイズ除去方法を置き換える、切り捨てられたサンプリング方法が提案されます。この論文は、この変更により DPM の理論的証拠の下限 (ELBO) が縮小され、それによってより元の詳細が復元されることを理論的に証明しています。理論的証明に基づいて、異なる入力サイズを持つ 2 つのカスケード条件付き拡散モデルが導入され、サンプリング効果が強化され、高解像度画像を直接生成するトレーニングの困難さが軽減されます。同時に、条件付き入力の品質が高ければ高いほど、実際のデータ分布に近づき、復元された画像がより正確になることがさらに証明されています。これは、DiffBFR が最初に低解像度の画像を復元する理由でもあります。
(2) テクスチャ拡張モジュール (TEM):
画像をテクスチャ研磨するために使用される方法は、無条件拡散モデルを導入することです。このモデルは低品質の画像から完全に独立しているため、復元結果が実際の画像データにさらに近づきます。この論文は、純粋に高品質の画像でトレーニングされた無条件拡散モデルが、ピクセルレベル空間での出力画像の正しい分布に寄与することを理論的に証明しています。つまり、このモデルを使用した後、ペイントされたイメージの分布は、使用前よりも FID が低くなり、全体的に高品質のイメージの分布により似ています。具体的には、タイム ステップでサンプリングを切り捨てることでアイデンティティ情報を保持し、ピクセル レベルのテクスチャを磨きます。
DiffBFR のサンプリング推論ステップを図 2 に示し、サンプリングの概略図を示します。推論プロセスを図 3 に示します
書き換える必要がある内容は次のとおりです。 図 2 は、DiffBFR メソッドのサンプリング推論ステップを示しています
#書き直す必要がある内容は次のとおりです。 図 3 に、DiffBFR メソッドのサンプリング推論プロセスの概略図を示します。
##元の意味を変えないように、実験結果を中国語に書き直す必要がありますGAN ベースの視覚化効果を比較する図 4 に示す BFR メソッドと DPM ベースのメソッド
#図 5 では、BFR に対する SOTA メソッドのパフォーマンスが比較されています
BFR 法のパフォーマンス視覚化効果の比較を図 6 に示します
モデルでは、視覚化を通じて IRM と TEM のパフォーマンスを比較できます
モデルでは、図 8 に示すように、IRM と TEM が比較されます
書き直す必要があるのは次のとおりです: さまざまなパラメーターの下で図 9 の IRM パフォーマンスを比較します
図 10 では、パラメータのさまざまなパフォーマンスを比較する必要があります
書き換える必要がある内容は次のとおりです。 図 11 に DiffBFR の各モジュールのパラメータ設定を示します。
要約とは、情報やアイデアを簡潔に再表現するプロセスです。そして明確な道。元の意味は変わりませんが、異なる語彙と文構造を使用して同じ考えを示しています。要約の目的は、読者が伝えられる情報をより簡単に理解して消化できるように、より明確で簡潔なプレゼンテーションを提供することです。要約は、学術論文、ビジネスレポート、日常のコミュニケーションなど、重要なアイデアや結論を伝えるために使用できるさまざまな状況で役立ちます。つまり、要約は、情報をより効果的に伝え、理解するのに役立つ重要なコミュニケーション ツールです。
この論文では、トレーニングの問題を解決するために、拡散モデルに基づいたブラインド劣化顔画像復元モデル DiffBFR を提案します。以前の GAN 手法に基づくモデルの崩壊とロングテールの消失。拡散モデルに事前知識を埋め込むことで、ランダムな著しく劣化した顔画像から高品質で鮮明な復元画像を生成できます。具体的には、この研究では、それぞれ現実を復元し、詳細を復元するために使用される、IRM と TEM という 2 つのモジュールを提案します。理論的な導出と実験による画像実証によりモデルの優位性を証明し、既存の最先端手法との定性的・定量的な比較を行います
リライトが必要な内容は: 研究チーム## ####
この論文は、Meitu Imaging Research Institute (MT Lab) と中国科学院大学の研究者によって共同提案されました。 Meitu Imaging Research Institute (MT Lab) は 2010 年に設立されました。Meitu のチームで、コンピューター ビジョン、ディープ ラーニング、拡張現実などの分野でのアルゴリズム研究、エンジニアリング開発、製品実装に重点を置いています。チームは設立以来、コンピュータ ビジョン分野の研究の探求に注力しており、2013 年には Meitu のソフトウェアおよびハードウェア製品に技術サポートを提供するためにディープ ラーニングの導入を開始しました。同時に、イメージング業界の複数の垂直分野に的を絞った SaaS サービスも提供し、最先端のイメージング技術を通じて Meitu の人工知能製品のエコロジー開発を促進します。彼らは、CVPR、ICCV、ECCV などのトップ国際大会に参加し、10 回以上の優勝と準優勝を獲得し、48 以上のトップ国際学術会議論文を発表しています。 Meitu Imaging Research Institute (MT Lab) は、長年にわたってイメージング分野の研究開発に取り組んできており、豊富な技術埋蔵量を蓄積しており、写真、ビデオ、デザイン、デジタル人材の分野で豊富な技術導入経験を持っています。
以上がACM MM 2023 | DiffBFR: Meitu と中国科学技術大学が共同提案した騒音抑制面修復手法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。