MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現-AI-php.cn

リアルな画像生成は、仮想現実、拡張現実、ビデオゲーム、映画制作などの分野で幅広く応用されています。

過去 2 年間の拡散モデルの急速な発展により、画像生成の分野では大きな進歩が見られました。テキストの説明に基づいて画像を生成するための Stable Diffusion から派生した一連のオープンソースまたは商用モデルは、デザイン、ゲーム、その他の分野に多大な影響を与えました

しかし、テキストの説明に基づいて画像を生成する方法特定のテキストまたはその他の条件で、高品質のマルチビュー画像を作成することは依然として課題です。既存のメソッドには、マルチビューの一貫性において明らかな欠陥があります。

現在一般的なメソッドは、大きく 2 つのカテゴリに分類できます。

まず、クラスメソッドは専用です。シーンピクチャと深度マップを生成し、Text2Room、SceneScape などの対応するメッシュを取得します。まず安定拡散を使用して最初のピクチャを生成し、次にイメージワーピングとイメージインペインティングを使用して、自己回帰を使用して後続のピクチャと深度マップを生成します。方法。

ただし、このような解決策では、複数の画像の生成中にエラーが徐々に蓄積する可能性があり、通常、閉ループの問題 (カメラが円を描くように回転するときなど) が発生します。開始位置付近に戻ります)、生成されたコンテンツは最初のピクチャと完全に一致しません)、シーンの規模が大きい場合やピクチャ間で視点が変化する場合にはパフォーマンスが低下します。

2 番目のタイプの方法では、拡散モデルの生成アルゴリズムを拡張して、単一の画像よりもリッチなコンテンツを生成することで複数の画像を同時に生成します (360 度のパノラマの生成など) 、または画像の内容が両側に無限に外挿されます) (MultiDiffusion や DiffCollage など)。ただし、カメラモデルは考慮されていないため、このタイプの方法で生成された結果は真のパノラマではありません。これらの画像は内容において厳密に一貫しており、意味的に世界的に統一されています。この方法の中心的な考え方は、一貫性を維持するために、ノイズ除去と画像間の対応関係の学習を同時に行うことです。

# を表示するには、次のリンクをクリックしてください。論文: https://arxiv.org/abs/2307.01097

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

プロジェクト Web サイトにアクセスしてください: https://mvdiffusion.github.io/

デモ: https://huggingface.co/spaces/tangshitao/MVDiffusion

コード: https://github.com/Tangshitao/MVDiffusion

カンファレンス公開: NeurIPS (キーポイント)

MVDiffusion の目標は、同時ノイズ除去とグローバル認識ベースを通じて、一貫性の高いコンテンツと統一されたグローバルセマンティクスを備えたマルチビューポイントを生成することです。 Picture

具体的には、研究者らは既存のテキストと画像の拡散モデル (安定拡散など) を拡張し、まず複数の画像を並行して処理できるようにし、さらにオリジナルでは、複数の視点とグローバルな統一性の間の一貫性を学習するために、追加の「Correspondence-aware Attendance」メカニズムが UNet に追加されています。

少量の多視点画像トレーニングデータを微調整することで、結果として得られるモデルは、一貫性の高いコンテンツを持つ多視点画像を同時に生成できます。

MVDiffusion は、3 つの異なるアプリケーションシナリオで良好な結果を達成しました。

テキストに基づいて複数のビューを生成し、それらを結合してパノラマを取得します。

2. パースイメージを外挿 (アウトペイント) して、完全な 360 度のパノラマを取得します;

3. シーンのテクスチャを生成します。

アプリケーションシナリオの表示

アプリケーション 1: パノラマ生成のプロセスでは、複数の写真またはビデオをつなぎ合わせて、パノラマパース画像またはビデオを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。このテクノロジーは、観光、不動産、仮想現実、その他の分野で幅広い用途があります (テキストによると)

パノラマの生成を例として、シーンを説明するテキストを入力すると、MVDIffusion は次のことができます。シーンの複数の画像を生成するパースペクティブ画像

次を入力して 8 枚のマルチパースペクティブ画像を取得します: 「このキッチンはカントリーとモダンが魅力的に融合しており、大きな再生木材のアイランドが特徴です。大理石のカウンタートップ、キャビネットに囲まれた A シンク。アイランドの左側には背の高いステンレス製の冷蔵庫があります。シンクの右側には、パステルカラーで塗装された造り付けの木製キャビネットがあります。」

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

これら 8 枚の写真を 1 つのパノラマにつなぎ合わせることができます:

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

MVDiffusion は Provide もサポートしています画像ごとに異なるテキストの説明がありますが、説明は意味的に一貫している必要があります。

アプリケーション 2: パノラマ生成のプロセスは、複数の写真またはビデオをつなぎ合わせて、パノラマ透視画像またはビデオを作成することです。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。この技術は、観光、不動産、仮想現実、その他の分野で幅広く応用されています (透視画像に基づいて)

MVDiffusion は、透視画像を完全な 360 度のパノラマ画像に外挿 (塗りつぶし) することができます。

たとえば、次のパースペクティブを入力するとします。

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

MVDiffusion は、さらに以下のパノラマを生成できます。

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

生成されたパノラマは入力画像を意味的に拡大し、左端と右端の内容が接続されていることがわかります (閉ループ問題はありません) ）。

アプリケーション 3: シーンマテリアルの生成

MVDiffusion を使用して、特定のマテリアルレスシーンメッシュのマテリアル (テクスチャ) を生成します

具体的には、まずメッシュをレンダリングして多視点深度マップを取得し、カメラの姿勢と深度マップを通じて多視点画像のピクセル間の対応関係を取得します。

次に、MVDiffusion は、一貫したマルチビュー RGB 画像を同時に生成する条件としてマルチビューデプスマップを使用します。

生成されたマルチビューイメージはコンテンツの一貫性を高度に維持できるため、それをメッシュに再投影することで、高品質のテクスチャメッシュを取得できます。

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

以下はその他のエフェクトの例です:

パノラマ生成のプロセスは、複数の写真またはビデオを結合することです。画像やビデオを組み合わせてパノラマビューを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。このテクノロジーは、観光、不動産、仮想現実、その他の分野で幅広く応用されています

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現 ##このアプリケーションシナリオでは、次のことに言及する必要があります。特に、MVDiffusion のトレーニングに使用されるマルチビュー画像データはすべて屋内シーンのパノラマから取得され、スタイルはすべて単一の

ですが、MVDiffusion は元の安定したデータを変更しません。拡散パラメータを使用して、新しく追加された Correspondence-aware Attendance

をトレーニングするだけです。

最後に、モデルは、指定されたテキストに基づいて、さまざまなスタイル (屋外、漫画など) のマルチビュー画像を生成できます。

#書き直す必要がある内容は次のとおりです: シングルビュー外挿

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

シーンマテリアルの生成

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

最初に 3 つの異なるタスクで MVDiffusion の具体的な画像生成プロセスを紹介し、最後にこの方法の中核部分である「Correspondence-aware Attendance」モジュールを紹介します。図 1 は、MVDiffusion

1 の概要を示しています。パノラマ生成のプロセスでは、複数の写真またはビデオをつなぎ合わせて、パノラマ透視画像またはビデオを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。この技術は、観光、不動産、仮想現実、その他の分野で幅広く応用されています (本文によると)

MVDiffusion は、8 つの重なり合う画像を同時に生成します。パース画像）を作成し、これら 8 枚の写真をパノラマにつなぎ合わせます。これら 8 つの透視画像では、3x3 ホモグラフィックマトリックスによって 2 つの各画像間のピクセルの対応関係が決定されます。

特定の生成プロセスでは、MVDiffusion は最初にガウスランダム初期化を使用して 8 つの画像ビューを生成します。

次に、これら 8 つの画像の画像は次のとおりです。複数のブランチを持つ安定拡散の事前トレーニング済み Unet ネットワークに入力され、生成された結果を取得するために同期ノイズ除去が実行されます。

新しい「Correspondence-aware Attendance」モジュール (上の図の水色の部分) が UNet ネットワークに追加されました。これは、クロスビュー間の幾何学的一貫性を学習するために使用されます。、これらの 8 枚の写真を一貫したパノラマにつなぎ合わせることができるようにします。

#2. パノラマ生成のプロセスでは、複数の写真またはビデオをつなぎ合わせて、パノラマパース画像またはビデオを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。このテクノロジーは、観光、不動産、仮想現実などに幅広い用途があります (透視図によると)

MVDiffusion単一のパースビューをパノラマに完成させることもできます。パノラマ生成のプロセスでは、複数の写真またはビデオをつなぎ合わせて、画像またはビデオのパノラマビューを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。この技術は、観光、不動産、仮想現実などの分野で幅広い応用が可能であり、MVDiffusion は、ランダムに初期化された 8 つの視点画像 (視点に対応する視点を含む) をマルチブランチの Stable Diffusion Inpainting 事前学習済み UNet ネットワークに入力します。

安定拡散修復モデルでは、UNet は追加の入力マスクを使用して条件付きイメージと生成されるイメージを区別します

視点パースペクティブに対応するマスクは 1 に設定され、このブランチの UNet はパースペクティブを直接復元します。他のパースペクティブの場合、マスクは 0 に設定され、対応するブランチの UNet が新しいパースペクティブを生成します。

#同様に、MVDiffusion は「Correspondence-aware Attendance」モジュールを使用して、次のことを学習します。画像と条件を生成します。画像間の幾何学的一貫性と意味論的な統一性を実現します。

3. シーンマテリアルの生成

MVDiffusion はまず、深度マップとカメラのポーズに基づいて軌跡上に RGB を生成します。 . 画像を作成し、TSDF フュージョンを使用して、生成された RGB 画像を指定された深度マップでメッシュ化します。

RGB 画像のピクセル対応は、深度マップとカメラのポーズを通じて取得できます。

パノラマ生成のプロセスは、複数の写真またはビデオをつなぎ合わせて、画像またはビデオのパノラマビューを作成することです。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。この技術は、観光、不動産、仮想現実などの分野で幅広く応用されており、マルチブランチUNetを使用し、視点間の幾何学的一貫性を学習するための「Correspondence-aware Attendance」を挿入しています。

#4. 対応を意識したアテンションメカニズム

#「対応を意識したアテンション」 MVDiffusion の中核である「(CAA)」は、複数のビュー間の幾何学的一貫性と意味論的な統一性を学習するために使用されます。

MVDiffusion は、Stable Diffusion UNet の各 UNet ブロックの後に「Correspondence-aware Attendance」ブロックを挿入します。 CAA は、ソース特徴マップと N ターゲット特徴マップを考慮することによって機能します。

ソース特徴マップ内の位置については、ターゲット特徴マップ内の対応するピクセルとその近傍に基づいてアテンション出力を計算します。

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

具体的には、各ターゲットピクセル t^l に対して、MVDiffusion は (x/y) 座標を渡します。整数の変位を加算します。 (dx/dy) K x K 近傍を考慮します。ここで、|dx| は x 方向の変位を表し、|dy| は y 方向の変位

実際のアプリケーションでは、MVDiffusion アルゴリズムは K=3 を使用し、9 点の近傍を選択してパノラマの品質を向上させます。ただし、幾何学的条件を考慮した多視点画像を生成する場合、作業効率を向上させるため、K=1

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

CAAモジュールを使用した計算が必要となります。上の式に示すように、標準のアテンションメカニズムに従います。ここで、W_Q、W_K、および W_V はクエリ、キー、および値行列の学習可能な重みです。ターゲットフィーチャは整数位置に配置されず、双線形補間によって取得されます。

主な違いは、位置エンコードが、対応する位置 s^l と s の間の 2D 変位 (パノラマ) または 1D 深度誤差 (ジオメトリ) に基づいてターゲットフィーチャに追加されることです。ソース画像。

パノラマ生成 (アプリケーション 1 およびアプリケーション 2) では、この変位によってローカル近傍の相対位置が得られます。

また、深度から画像の生成 (アプリケーション 3) では、視差は深度の不連続性やオクルージョンに関する手がかりを提供します。これは高忠実度の画像生成にとって非常に重要です。

ディスプレイスメントは、2D (ディスプレイスメント) ベクトルまたは 1D (深さエラー) ベクトルを含む概念であることに注意してください。 MVDiffusion は、変位の x 座標と y 座標に標準の周波数エンコーディングを適用します。

以上がMVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

MVDiffusion：高品質な多視点画像の生成とシーン素材の正確な再現を実現

パノラマの生成を例として、シーンを説明するテキストを入力すると、MVDIffusion は次のことができます。シーンの複数の画像を生成する パースペクティブ画像

アプリケーション 3: シーン マテリアルの生成

3. シーン マテリアルの生成

#4. 対応を意識したアテンション メカニズム

パノラマの生成を例として、シーンを説明するテキストを入力すると、MVDIffusion は次のことができます。シーンの複数の画像を生成するパースペクティブ画像

アプリケーション 3: シーンマテリアルの生成

3. シーンマテリアルの生成

#4. 対応を意識したアテンションメカニズム