300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文-AI-php.cn

AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の筆頭著者Shuai Xinchengは現在、復旦大学のFVL研究室で博士号取得を目指して勉強しており、上海交通大学を卒業しました。学士号。彼の主な研究対象は、画像とビデオの編集とマルチモーダル学習です。

はじめに

この記事では、一般的な編集タスクを解決するための統一フレームワークを提案します。最近、復丹大学と南洋理工大学の FVL 研究所の研究者らは、ヴィンセントグラフ大規模モデルに基づくマルチモーダルガイド付き画像編集アルゴリズムを要約し、レビューしました。このレビューは 300 以上の関連研究をカバーしており、調査された最新モデルは今年 6 月時点のものです。このレビューでは、制御条件 (自然言語、画像、ユーザーインターフェイス) と編集タスク (オブジェクト/属性操作、空間変換、修復、スタイル転送、画像変換、主題/属性のカスタマイズ) の議論を、より斬新で包括的な議論に拡張します。より一般的な観点から編集方法を説明します。さらに、このレビューでは、編集プロセスをさまざまなアルゴリズムファミリーの組み合わせとして表現する統一フレームワークを提案し、包括的な定性的および定量的実験を通じて、さまざまな組み合わせの特性と適応シナリオを示します。このフレームワークは、ユーザーのさまざまなニーズを満たすためのフレンドリーな設計スペースを提供し、研究者が新しいアルゴリズムを開発するための一定の参考資料を提供します。

概要

画像編集は、ユーザーの特定のニーズに従って、特定の合成画像または実際の画像を編集するように設計されています。人工知能生成コンテンツ (AIGC) の分野における有望かつ挑戦的な分野として、画像編集が広く研究されています。最近、大規模な画像から赤外線への (T2I) 拡散モデルが画像編集技術の開発を推進しています。これらのモデルはテキストプロンプトに基づいて画像を生成し、驚くべき生成機能を実証し、画像編集の一般的なツールになります。 T2I ベースの画像編集方法により、編集パフォーマンスが大幅に向上し、マルチモーダル条件ガイダンスを使用してコンテンツを変更するためのインターフェイスがユーザーに提供されます。 T2I 拡散モデルに基づいたマルチモーダルガイド付き画像編集技術の包括的なレビューを提供します。まず、より一般的な観点から画像編集タスクの範囲を定義し、さまざまな制御信号と編集シナリオを詳細に説明します。次に、編集プロセスを形式化し、2 つのアルゴリズムファミリの組み合わせとして表す統一フレームワークを提案します。このフレームワークは、特定の目標を達成するための設計スペースをユーザーに提供します。次に、フレームワーク内の各コンポーネントを詳細に分析し、さまざまな組み合わせの特性と適用可能なシナリオを研究しました。トレーニングベースの方法はソースイメージをターゲットイメージにマッピングする方法を直接学習するため、これらの方法を個別に説明し、さまざまなシナリオの下でソースイメージ挿入スキームを紹介します。さらに、フレーム間の不一致の解決に焦点を当てて、ビデオ編集における 2D 技術の適用をレビューします。最後に、この分野における未解決の課題についても議論し、将来の研究の方向性を提案します。

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

論文タイトル: テキストから画像への拡散モデルによるマルチモーダルガイド付き画像編集の調査
出版単位: 復旦大学 FVL 研究室、南洋理工大学
論文アドレス: https://arxiv 。 org/abs/2406.14555
プロジェクトアドレス: https://github.com/xinchengshuai/Awesome-Image-Editing

1．研究動機

1.1. 実生活では、制御可能な高品質のインテリジェントな画像編集ツールに対する需要が高まっているため、この方向での手法と技術的特性を体系的に要約して比較する必要があります。

1.2 では、現在の編集アルゴリズムと関連するレビューでは、編集シナリオが、編集に関係のない画像内の低レベルの意味情報のほとんどを保持することに制限されているため、編集タスクの範囲を拡大する必要があります。より一般的なタスクの観点から編集について説明します。

1.3、ニーズとシナリオが多様であるため、編集プロセスを統一フレームワークに形式化し、さまざまな編集目標に適応するデザインスペースをユーザーに提供する必要があります。

2．レビューのハイライトは現在の編集レビューとどのように異なりますか?

2.1 編集タスクに関する定義と議論の範囲。既存のアルゴリズムや以前の編集レビューと比較して、この論文では画像編集タスクをより広範に定義します。具体的には、この記事では、編集タスクをコンテンツ対応シーングループとコンテンツ非対応シーングループに分けます。コンテンツ認識グループのシーンは、以前の文献で説明されている主なタスクであり、それらの共通点は、無関係な領域のピクセルコンテンツや画像構造の編集など、画像内のいくつかの低レベルの意味論的特徴を保持することです。さらに、当社は、コンテンツフリーシナリオグループにカスタマイズタスクを組み込む先駆者となり、通常の編集シナリオへの追加として、高レベルのセマンティクス (被験者 ID 情報やその他のきめ細かい属性など) を保持するこのタイプのタスクを使用しました。補充します。

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

^{。編集シナリオは多様であるため、既存のアルゴリズムではすべてのニーズを十分に満たすことはできません。したがって、既存の編集プロセスを、2 つのアルゴリズムファミリの組み合わせとして表現される統一フレームワークに形式化します。さらに、定性的および定量的な実験を通じてさまざまな組み合わせの特性と適応シナリオも分析し、さまざまな編集目標に適応するための優れた設計スペースをユーザーに提供しました。同時に、このフレームワークは、より優れたパフォーマンスのアルゴリズムを設計するためのより良い参考資料も研究者に提供します。}

2.3 議論の包括性。私たちは 300 以上の関連論文を調査し、さまざまなシナリオにおけるさまざまなモードの制御信号の応用を体系的かつ包括的に説明しました。トレーニングベースの編集方法については、この記事ではさまざまなシナリオで T2I モデルにソースイメージを挿入するための戦略も提供します。さらに、ビデオ分野における画像編集技術の応用についても説明し、読者がさまざまな分野の編集アルゴリズム間のつながりをすぐに理解できるようにしました。

3．一般的な編集アルゴリズムの統合フレームワーク

️図 2. 一般的な編集アルゴリズムの統合フレームワーク

フレームワークには、反転アルゴリズム
と編集アルゴリズム

の 2 つのアルゴリズムファミリが含まれています。

3.1 反転アルゴリズム。反転アルゴリズム
は、ソース画像セット

を特定の特徴またはパラメーター空間にエンコードし、対応する表現

(反転手がかり) を取得し、対応するソーステキスト記述 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

をソース画像の識別子として使用します。チューニングベース 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

とフォワードベース

の2種類の反転アルゴリズムが含まれています。これは次のように形式化できます: 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

チューニングベースの反転

ソース画像セットは、元の拡散トレーニングプロセスを通じて拡散モデルの生成分布に埋め込まれます。形式化プロセスは次のとおりです。

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

ここで、 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文は導入された学習可能なパラメーター、および

です。

Forward-based inversion
は、拡散モデルの逆プロセス(

)において、特定の順パス(

)のノイズを復元するために使用されます。正式化プロセスは次のとおりです: 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

ここで、

はメソッドに導入されたパラメータであり、 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

を最小化するために使用されます。 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

3.2.アルゴリズムの編集。編集アルゴリズム

は、

とマルチモーダルガイダンスセット 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

に基づいて、最終的な編集結果 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

を生成します。アテンションベース 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

、ブレンディングベース 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

、スコアベース

、最適化ベース

を含む編集アルゴリズム。これは次のように形式化できます: 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

特に、逆プロセスの各ステップで、

は次の操作を実行します: 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

ここで、

の操作は拡散モデルのサンプリングにおける編集アルゴリズムの介入を表します。プロセス 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

は、編集された画像

とソース画像コレクション 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

の間の一貫性を確保し、 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

のガイダンス条件によって指定された視覚的な変換を反映するために使用されます。 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

具体的には、介入なしの編集プロセスを編集アルゴリズムの通常バージョンとして扱います

。これは次のように形式化されます: 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

アテンションベース編集の形式的プロセス 300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

: ブレンドベース編集の形式的プロセス

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

スコアベース編集の形式的プロセス

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

最適化ベースの編集

の形式化プロセス:

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

3.3 トレーニングベースの編集方法。トレーニング不要の方法とは異なり、トレーニングベースのアルゴリズムは、ソース画像セットとタスク固有のデータセット内の編集画像のマッピングを直接学習します。このタイプのアルゴリズムは、追加の導入パラメーターを通じてソースイメージを生成分布にエンコードする、チューニングベースの反転の拡張として見ることができます。このタイプのアルゴリズムで最も重要なことは、ソース画像を T2I モデルに挿入する方法です。以下に、さまざまな編集シナリオの挿入スキームを示します。

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

コンテンツタスクインジェクションスキーム：

intectent intectence-content emscion solution：

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

^{図3.コンテンツのないタスクの注入スキーム}

4.マルチモーダル編集タスクにおける統一フレームワークの適用

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

^{この記事では、定性的な実験を通じてマルチモーダル編集タスクにおける各組み合わせの適用を説明します:}

図 4. アテンションベースの編集アプリケーションについて

のアルゴリズムの組み合わせアルゴリズムの組み合わせの応用

300 以上の関連研究、復丹大学と南洋理工大学による最新のマルチモーダル画像編集レビュー論文

^{図 6. スコアベースの編集のためのアルゴリズムの組み合わせの適用原文をご参照ください。詳細な分析のために。 5．テキストガイド付き編集シナリオにおけるさまざまな組み合わせの比較

この記事では、一般的なテキストガイド付き編集タスクについて、さまざまな組み合わせに適した編集シナリオを説明するために、多くの挑戦的な定性実験を設計しました。さらに、この論文では、さまざまなシナリオでさまざまな組み合わせでの高度なアルゴリズムのパフォーマンスを定量的に説明するために、高品質で困難なデータセットも収集します。コンテンツを意識したタスクでは、主にオブジェクトの操作 (追加/削除/置換)、属性の変更、スタイルの移行を考慮します。特に、次のような挑戦的な実験設定を検討します。 1. 多目的編集。 2. 画像の意味論的なレイアウトに大きな影響を与えるユースケース。また、これらの複雑なシーンの高品質画像を収集し、さまざまな組み合わせで最先端のアルゴリズムを包括的に定量的に比較します。図 8. Content-AWARE ミッションの各組み合わせの定性的比較左から右に、分析結果とその他の実験結果を示します。元の論文を参照してください。

コンテンツのないタスクについては、主に主題主導のカスタマイズされたタスクを考慮します。また、背景の変更、オブジェクトとの対話、動作の変更、スタイルの変更など、さまざまなシナリオを考慮します。また、多数のテキストガイダンステンプレートを定義し、各メソッドの全体的なパフォーマンスの定量的分析を実施しました。
図 9 では、コンテンツフリーミッションでの各組み合わせの定性的比較を示しています。左から右に、分析結果とその他の実験結果を示します。元の論文を参照してください。 6.今後の研究の方向性
さらに、この記事では、将来の研究の方向性についての分析も提供します。ここでは、コンテンツを意識したタスクとコンテンツを持たないタスクが直面する課題を例に挙げます。

6.1. コンテンツを意識したタスクの課題。コンテンツを意識した編集タスクという課題に対して、既存の方法では複数の編集シナリオと制御信号を同時に処理することができません。この制限により、アプリケーションは異なるタスク間で適切なバックエンドアルゴリズムを切り替える必要があります。さらに、一部の高度な方法はユーザーフレンドリーではありません。最適な結果を得るためにユーザーが主要なパラメータを調整する必要がある方法もあれば、ソースとターゲットのヒントや補助マスクなどの面倒な入力が必要な方法もあります。

6.2.コンテンツフリーのタスクチャレンジ。コンテンツのない編集タスクの場合、既存の方法ではテスト中に調整プロセスに時間がかかり、オーバーフィッティングの問題が発生します。一部の研究では、少数のパラメーターを最適化したり、モデルをゼロからトレーニングしたりすることで、この問題を軽減することを目指しています。ただし、主題を個別化する詳細が失われたり、一般化能力が不十分であることがよくあります。さらに、現在の方法は、少数の画像から抽象的な概念を抽出するという点でも不十分であり、目的の概念を他の視覚要素から完全に分離することはできません。

研究の方向性について詳しく知りたい場合は、元の論文を確認してください。}