証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。-AI-php.cn

3D生成ディフュージョンモデル「ロダン」の名前RODINは、フランスの彫刻家オーギュスト・ロダンからインスピレーションを得たものです。

2D 証明写真があれば、わずか数秒で 3D ゲームアバターをデザインできます。

これは3D分野における普及モデルの最新の成果です。たとえば、フランスの彫刻家ロダンの古い写真だけで、数分で彼をゲームに「変身」させることができます:

△RODIN モデルはロダンの古い写真に基づいて生成されます。 image

は、たった 1 文でドレスや画像を変更することもできます。 AI にロダンの「赤いセーターと眼鏡をかけた外観」を生成するように指示します。

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。

大きな背中が気に入らないですか?次に、「編み込みの外観」に変更します。

髪の色をもう一度変更してみますか?これは「茶色の髪のファッショナブルなトレンディな人」です。ひげの色も固定されています。

(AI の目から見た「ファッショナブルなトレンディな人」は、確かに少し異なります)トレンディーすぎる)

上記の最新の 3D 生成拡散モデル「RODIN」(Roll-out Diffusion Network)は、Microsoft Research Asia から提供されています。

RODIN は、生成拡散モデルを使用して 3D トレーニングデータ上で 3D デジタルアバター (Avatar) を自動生成する最初のモデルでもあり、この論文は

CVPR 2023に受理されました。

見に行きましょう。

3D データを直接使用して拡散モデルをトレーニング

この 3D 生成拡散モデル「ロダン」RODIN の名前は、フランスの彫刻家オーギュスト・ロダンからインスピレーションを得ています。

以前は、2D で生成された 3D 画像モデルは、通常、敵対的生成ネットワーク (GAN) または変分オートエンコーダー (VAE) を 2D データでトレーニングすることによって取得されていましたが、結果は満足のいくものではないことがよくありました。

研究者らは、この現象の理由は、これらの手法に基本的な未決定 (不適切な設定) 問題があるためであると分析しました。つまり、単視点画像の幾何学的な曖昧さのため、大量の 2D データだけで高品質の 3D アバターの合理的な分布を学習することは難しく、その結果、生成結果が不十分になります。

そこで、今回は

3D データを直接使用して拡散モデルをトレーニングすることを試みました、主に 3 つの問題を解決しました:

第二に、高品質で大規模な 3D 画像データセットは入手が難しく、プライバシーと著作権のリスクがありますが、インターネット上で公開されている 3D 画像については、多視点の一貫性が保証されません。
最後に、2D 拡散モデルは 3D 生成に直接拡張されますが、これには膨大なメモリ、ストレージ、およびコンピューティングのオーバーヘッドが必要になります。

これら3つの問題を解決するために、研究者らは既存モデルのSOTAレベルを超えるRODIN普及モデル「AI Sculptor」を提案しました。

RODIN モデルは、Neural Radiation Field (NeRF) メソッドを使用し、NVIDIA の EG3D 作業を利用して、3D 空間を空間内の 3 つの相互に垂直なフィーチャプレーン (Triplane) にコンパクトに表現し、これらのマップを 1 つのマップに拡張します。 2D 特徴面では、3D 知覚拡散が実行されます。

具体的には、3D 空間は、水平、垂直、垂直の 3 つの直交する平面ビュー上の 2 次元特徴によって拡張されます。これにより、RODIN モデルは 3D 知覚の拡散に効率的な 2D アーキテクチャを使用できるようになるだけでなく、また、3D 画像の次元を 2D 画像に削減すると、計算の複雑さとコストも大幅に削減されます。

証明写真をデジタル人物に変換するのに数秒しかかかりません. Microsoft は 3D 拡散モデルの最初の高品質世代を達成しており、たった 1 つの文で見た目と外観を変更できます。 #△3D 対応コンボリューションで 3D 特徴を効率的に処理

上図の左側では、3D 空間を表現するためにトライプレーンが使用されています。今度は、一番下の特徴面の特徴点は、他の 2 つの特徴面の 2 つの線に対応します。上図の右側では、拡張された 2D 特徴面を処理するために 3D 知覚畳み込みが導入されています。 3 つの平面の次元固有の対応関係。

具体的には、3D 画像の生成を実現するには 3 つの重要な要素が必要です。

まず、3D 対応の畳み込みにより、次元削減後の 3 つの平面の固有の相関が保証されます。

従来の 2D 拡散で使用される 2D 畳み込みニューラルネットワーク (CNN) は、Triplane 特徴マップを適切に処理できません。

3D 対応の畳み込みは、単に 3 つの 2D フィーチャ平面を生成するのではなく、そのような 3D 表現を処理するときにその固有の 3 次元特性を考慮します。つまり、3 つのビュー平面のうちの 1 つの 2D フィーチャは本質的に直線の投影です。したがって、3D 空間内の線は、他の 2 つの平面内の対応する直線投影フィーチャに関連付けられます。

クロスプレーン通信を実現するために、研究者はこのような 3D 相関を畳み込みで考慮し、3D の詳細を 2D に効率的に合成します。

2つ目、潜在空間協奏曲3面3D表現生成。

研究者は、潜在ベクトルを通じて特徴生成を調整して、3 次元空間全体にわたってグローバルに一貫性を持たせ、その結果、より高品質のアバターとセマンティック編集が可能になります。

同時に、トレーニングデータセット内の画像を使用して追加の画像エンコーダーもトレーニングされ、意味論的な潜在ベクトルを拡散モデルへの条件付き入力として抽出できます。

このようにして、生成ネットワーク全体を、拡散モデルを復号潜在空間ベクトルとして使用するオートエンコーダとみなすことができます。セマンティックな編集性を実現するために、研究者らはテキストプロンプトと潜在スペースを共有するフリーズされた CLIP 画像エンコーダーを採用しました。

3 番目の階層合成により、忠実度の高い 3 次元の詳細が生成されます。

研究者らは拡散モデルを使用して、まず低解像度の 3 ビュープレーン (64×64) を生成し、次に拡散を通じて高解像度の 3 ビュープレーン (256×256) を生成しました。アップサンプリング。

このように、基本的な拡散モデルは全体的な 3D 構造の生成に焦点を当て、後続のアップサンプリングモデルは詳細の生成に焦点を当てます。

Blender に基づいた大量のランダムデータの生成

トレーニングデータセット上で、研究者はオープンソース 3D レンダリングソフトウェア Blender を使用して、仮想 3D キャラクターをランダムに組み合わせました。アーティストによって手動で作成された画像と、多数の髪、衣服、表情、アクセサリーからのランダムサンプリングを組み合わせて、100,000 人の合成個人を作成し、各個人に対して解像度 256*256 の 300 枚のマルチビュー画像をレンダリングします。

3D アバターへのテキストの生成に関して、研究者らは LAION-400M データセットのポートレートサブセットを使用して、入力モダリティから 3D 拡散モデルの隠れた空間へのマッピングをトレーニングし、最終的に1 つだけを使用する RODIN モデル 2D 画像またはテキスト説明により、リアルな 3D アバターを作成できます。