高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。-AI-php.cn

高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。

PHPz

リリース： 2024-08-05 20:15:51

オリジナル

624 人が閲覧しました

高解像度のビデオは本物ではありません。複数の写真でレンダリングされた 3D シーンにより、本物かどうかを区別するのが難しくなります。

上記のアニメーションは完全に複数の写真からレンダリングされた 3D シーンであることに注意してください。人間は自分の欠点を見つけるのが難しいのです。

それでは、このシナリオがどのように実現されるかを見てみましょう。

グリッドとポイントは最も一般的な 3D シーン表現であり、明示的であるため、高速な GPU/CUDA ベースのラスタライゼーションに適しています。対照的に、最先端の神経放射場 (NeRF) 手法は連続シーン表現に基づいて構築されており、多くの場合、ボリュームレイレンダリングに最適化された多層パーセプトロン (MLP) を使用して、キャプチャされたシーンに新しい視点を合成します。これらのメソッドの連続性は最適化に役立ちますが、レンダリングに必要なランダムサンプリングはコストが高く、ノイズが多くなります。

フレンチリビエラ大学の研究者らは、これら 2 つの方法の利点を組み合わせた新しい方法を導入しました。3D ガウス表現は SOAT の視覚的品質を備え、トレーニング時間も最適化されますが、タイルベースの雪だるま式アルゴリズム (タイルベースのスプラッティング) は、いくつかのデータセット上で 1080p 解像度での SOTA リアルタイムレンダリングを実現します。

論文のアドレス: https://huggingface.co/papers/2308.04079

研究チームは、複数の写真で撮影されたシーンをリアルタイムでレンダリングし、典型的な実際のシーンで最速の時間を達成するという目標を設定しました。最適化。 Fridovich-Kei らが以前に提案した手法は高速なトレーニングを実現しましたが、現在の SOTA NeRF 手法で達成される視覚的な品質を達成することは困難であり、トレーニングに最大 48 時間を要しました。シーンに応じたインタラクティブなレンダリング（1秒あたり10～15フレーム）を実現する高速だが低品質の放射線場法も提案されているが、この方法では高解像度でのリアルタイムレンダリングは実現できない。

次に、この記事がどのように実装されるかを見てみましょう。研究チームのソリューションは主に 3 つの部分で構成されています。

まず、柔軟で表現力豊かなシーン表現として 3D ガウシアンを紹介します。入力は NeRF 法と似ています。つまり、カメラは Structure-from-Motion (SfM) を使用して校正され、3D ガウスアンサンブルは SfM プロセスから導出された疎な点群を使用して初期化されます。さらに、この研究では SfM ポイントのみを入力として使用して高品質の結果を得ることができました。 NeRF 合成データセットの場合、私たちの方法はランダムな初期化でも高品質の結果を取得できることに注意してください。研究によると、3D ガウスが良い選択であることがわかっています。

2 番目に、3D ガウスプロパティ、つまり 3D 位置、不透明度、異方性共分散、球面調和関数 (SH) 係数を最適化します。最適化プロセスにより、かなりコンパクトで構造化されていない正確なシーンの表現が生成されます。

3 番目のリアルタイムレンダリングソリューションでは、この研究では高速 GPU ソートアルゴリズムを使用します。ただし、3D ガウス表現により、ソートとブレンディングのおかげで、可視性の順序を尊重しながら異方性スプライシングを実行することができます。また、必要な数のソートされたスプライスのトラバースを追跡することで、高速かつ正確に後方に渡すことができます。

手法の概要

要約すると、この論文は次のような貢献をします:

放射線場の高品質で非構造化表現としての異方性 3D ガウスの導入。

適応密度制御と組み合わされた 3D ガウスプロパティの最適化手法により、キャプチャされたシーンの高品質な表現を作成します。

可視性を考慮した GPU 用の高速微分可能なレンダリング手法。 -高品質の新しいビューの合成。

実験

次の図は、この記事の方法と以前の方法の効果の比較を示しています。

シーンは上から下まで、Mip-NeRF360 データセットの自転車、庭園、カウンター、部屋、ディープハイブリッドデータセットのゲームルームです (詳細な比較については、元の記事をお読みください)。自転車のスポーク、庭の端にある家のガラス、鉄かごのポール、テディベアなど、さまざまな方法によって生じた大きな違いが図に示されています。

この記事の方法には、以前の方法よりも詳細な点で多くの利点があることがわかります。

ビデオでより明らかな違いを確認できます

さらに、図 6 では、7K の反復 (約 5 分) であっても、この記事の方法では電車の細部までよく捉えています。 30K の反復 (約 35 分) で、背景のアーティファクトが大幅に減少します。庭園のシーンでは、違いはほとんど目立たず、7K の反復 (約 8 分) ですでに非常に高品質です。

研究チームは Mip-NeRF360 によって提案された方法を採用し、データセットをトレーニング/テスト部分に分割し、8 枚ごとに写真をテストして一貫性のある有意義な比較を行い、それによってエラー指標を生成し、最も一般的に使用される文献に記載されている標準 PSNR、L-PIPS、および SSIM インジケーターの詳細データを表 1 に示します。

表 1 は、3 つのデータセットにわたって計算された以前の研究と比較した、新しい手法の定量的評価を示しています。「†」が付いた結果は原論文からそのまま採用され、その他の結果は実験チームによる実験結果です。

合成 NeRF の PSNR スコア。この記事の方法では、ほとんどの場合にスコアが向上し、最適レベルに達することさえあることがわかります。

アブレーション実験

研究チームは、行われたさまざまな貢献とアルゴリズムの選択を分離し、その効果を測定するための一連の実験を構築しました。アルゴリズムの次の側面がテストされました: SfM からの初期化、高密度化戦略、異方性共分散、勾配のある無制限の数のパッチの許可、および球面調和関数の使用。以下の表は、各オプションの定量的な効果をまとめたものです。