Appleが「AIアーキテクト」GAUDIを開発：テキストに基づいて超リアルな3Dシーンを生成！-AI-php.cn

現在、新しいテキスト生成画像モデルが時々リリースされており、それぞれが非常に強力な効果を持っており、常に人々を驚かせています。この分野はすでに天空に達しています。しかし、OpenAI の DALL-E 2 や Google の Imagen などの AI システムは 2 次元の画像しか生成できませんが、テキストも 3 次元のシーンに変換できれば、視覚体験は 2 倍になります。さて、Apple の AI チームは、3D シーン生成のための最新のニューラルアーキテクチャであるGAUDI を発表しました。

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

複雑でリアルな 3D シーンの配信、移動カメラからの没入型レンダリング、およびテキストプロンプトに基づくレンダリングをキャプチャできます。シーン！このモデルはスペインの有名な建築家アントニ・ガウディにちなんで名付けられました。

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

論文アドレス: https://arxiv.org/pdf/2207.13751.pdf

NeRF に基づく 3D レンダリング

ニューラルレンダリングは、コンピューターグラフィックスと人工知能を組み合わせ、2D 画像から 3D モデルを生成する多くの方法を生み出してきました。たとえば、Nvidia が最近開発した 3D MoMa では、1 時間で 100 枚未満の写真から 3D モデルを作成できます。 Google はまた、Neural Radiation Fields (NeRF) を利用して、2D 衛星画像とストリートビュー画像を Google マップの 3D シーンに結合し、没入型ビューを実現しています。 Google の HumanNeRF は、ビデオから 3D 人体をレンダリングすることもできます。

現在、NeRF は主に、さまざまなカメラの視点からレンダリングできる 3D モデルおよび 3D シーンの神経記憶媒体として使用されています。 NeRF は、仮想現実体験にもすでに使用され始めています。

では、さまざまなカメラ角度からの画像をリアルにレンダリングする強力な機能を備えた NeRF は、生成 AI で使用できるのでしょうか?もちろん、3D シーンの生成を試みた研究チームもあります。たとえば、Google は昨年、NeRF の 3D ビュー生成機能と OpenAI の CLIP の評価機能を組み合わせた AI システム Dream Fields を発表しました。画像コンテンツを作成し、最終的に NeRF に一致するテキストの説明を生成する機能を実現します。

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

##キャプション: Google Dream Fields

ただし、Google の Dream Fields でできるのは単一オブジェクトの 3D ビューを生成しますが、それを完全に制約のない 3D シーンに拡張するには多くの困難があります。最大の難点は、カメラの位置に大きな制限があることです。単一のオブジェクトの場合、考えられるすべての適切なカメラ位置をドームにマッピングできますが、3D シーンでは、カメラの位置はオブジェクトの影響を受けます。および壁など。障害物の制限。シーン生成時にこれらの要素を考慮しないと、3D シーンを生成することが困難になります。

3D レンダリングの専門家 GAUDI

カメラの位置が制限されるという上記の問題に対して、Apple の GAUDI モデルは 3 つの特殊なネットワークを考案しました。簡単に説明すると、GAUDI には

カメラポーズデコーダがあり、

カメラポーズを 3D ジオメトリやシーンの外観から分離し、カメラの可能な位置を予測し、出力が有効であることを確認できます。 3D シーンアーキテクチャの位置。

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！ #注: デコーダーモデルアーキテクチャ

シナリオ用のシーンデコーダー次のことができます。 3D キャンバスである 3 次元平面の表現を予測します。次に、放射線場デコーダ

は、このキャンバス上のボリュームレンダリング方程式を使用して、後続の画像を描画します。

GAUDI の 3D 生成は 2 つの段階で構成されます:

1 つは、潜在パラメーターとネットワークパラメーターの最適化です。つまり、3D 放射線フィールドと、数千の軌道の対応するカメラポーズをエンコードする潜在表現を学習します。単一のオブジェクトとは異なり、有効なカメラポーズはシーンによって異なるため、シーンごとに有効なカメラポーズをエンコードする必要があります。

2 つ目は、拡散モデルを使用して潜在表現に関する生成モデルを学習し、条件付き推論タスクと無条件推論タスクの両方で適切にモデル化できるようにすることです。前者はテキストまたは画像のプロンプトに基づいて 3D シーンを生成し、後者はカメラの軌跡に基づいて 3D シーンを生成します。

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

3D 屋内シーンでは、GAUDI は新しいカメラの動きを生成できます。以下のいくつかの例のように、テキストの説明にはシーンとナビゲーションパスに関する情報が含まれています。ここで研究チームは、事前にトレーニングされた RoBERTa ベースのテキストエンコーダーを採用し、その中間表現を使用して拡散モデルを調整しました。生成される効果は次のとおりです: テキストプロンプト: Enter the Kitchen

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

テキストプロンプト: 2 階に進みます

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

テキストプロンプト: 廊下を通ってください

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

さらに、事前トレーニング済み ResNet-18 を画像エンコーダーとして使用することで、GAUDI はランダムな視点から観察された特定の画像の放射線場をサンプリングできます。、それによって画像からキューを抽出し、3D シーンを作成します。画像プロンプト:

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

3D シーンの生成:

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

画像ヒント:

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

3D シーンの生成:

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

研究者の実験屋内スキャンデータセット ARKitScences を含む 4 つの異なるデータセットでの実験は、GAUDI が学習されたビューを再構築し、既存の手法の品質と同等の品質を実現できることを示しています。数千の屋内シーンに数十万の画像を含む 3D シーンを作成するという大規模なタスクでも、GAUDI はモードの崩壊や向きの問題に悩まされることはありませんでした。

GAUDI の登場は、多くのコンピュータービジョンタスクに影響を与えるだけでなく、その 3D シーン生成機能は、モデルベースの強化学習と計画、SLAM、および 3D にも有益です。コンテンツ、生産およびその他の研究分野。

現時点では、GAUDI によって生成されたビデオの品質は高くなく、多くのアーティファクトが見られます。ただし、このシステムは、Apple が 3D オブジェクトやシーンをレンダリングするための現在進行中の AI システムの良いスタートと基盤となる可能性があり、GAUDI はデジタル位置を生成するために Apple の XR ヘッドセットにも適用されると言われています。楽しみにしていてください~

以上がAppleが「AIアーキテクト」GAUDIを開発：テキストに基づいて超リアルな3Dシーンを生成！の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。