AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
この論文の著者には、インペリアル・カレッジ・ロンドンの修士課程の学生であるYang Runyi、北京大学の修士課程2年生のZhu Zhenxinが含まれます。北京工業大学修士課程2年生のZhu Zhenxinさん、北京工業大学学部4年生のShen Jiang Zhouさん、学部4年生のYe Baijunさん、中国大学学部3年生のZhang Yifeiさん科学アカデミー、Zhao Jian、中国電信人工知能研究所マルチメディア認知学習研究所(EVOL Lab)所長、清華大学知能産業研究所(AIR)助教授Zhao Haoら。
最近、新しい3D表現手法として、高速な描画速度と高い描画品質から3Dガウススプラッティング(3DGS)が注目を集めています。ただし、このアプローチには大量のメモリ消費も伴います。たとえば、トレーニングされたガウス フィールドでは、300 万を超えるガウス プリミティブと 700 MB を超えるメモリが使用される可能性があります。
最近、インペリアル・カレッジ・ロンドン、北杭大学、北京工業大学、中国科学院大学、中国通信人工知能研究所マルチメディア認知学習研究所(EVOL研究所)、清華大学知能産業研究所(AIR)研究者らは共同で論文「SUNDAE: Spectrally Pruned Gaussian Fields with Neural Compensation」を発表しました。この高いメモリ使用量は、プリミティブ間の関係を考慮していないためであると考えられます。この論文では、スペクトル枝刈りと神経補償を使用した SUNDAE という名前のメモリ効率の高いガウス場
記事リンク: https://arxiv.org/abs/2405.00676プロジェクトホームページ: https://runyiyang.github.io/projects/SUNDAE/
一一方では、ガウス プリミティブの空間情報に基づいてグラフを構築し、それらの間の関係をシミュレートし、グラフ信号処理に基づいて所望の信号を保持しながらプルーニングするダウンサンプリング モジュールを設計します。一方、枝刈りによる品質劣化を補うために、軽量ニューラル ネットワークを利用してレンダリング機能をブレンドし、プリミティブ間の重み関係を捉えながら品質劣化を効果的に補います。
SUNDAEのパフォーマンスを豊富な実績で実証します。たとえば、Mip-NeRF360 データセットでは、SUNDAE は 104 MB のメモリを使用して 26.80 PSNR と 145 FPS を達成できますが、標準の 3D ガウス スプラッティング アルゴリズムは 523 MB のメモリを使用して 25.60 PSNR と 160 FPS を達成します。
同時に、SUNDAE はオープンソース以来、広く国際的な注目を集めており、有名な NeRF コミュニティである MrNeRF、AI 研究コミュニティのメンテナーである Ahsen Khaliq、および関連分野の多くの研究者によって転送され、フォローされています。
1. 神経補償によるスペクトル枝刈りガウス場
1.1 スペクトログラムベースの枝刈り戦略
3D GS は一連のガウス プリミティブ シーンで表されます。プリミティブが三次元空間に不規則に分布している場合、従来のグリッドのような構造を使用する代わりに、プリミティブ間の関係を捉えるためのグラフベースの方法を提案します。
具体的には、グラフ信号処理理論を使用して、グラフ信号に基づいて特定のスペクトル情報を保持できる最適なサンプリング戦略を導き出します。スペクトル帯域幅を制御することで、枝刈り率を柔軟に制御し、ガウス プリミティブ間の関係をモデル化できます。図 1(c) に示すように、レンダリング品質を低下させることなく、ガウス プリミティブの 90% の枝刈りを制御できます。 図 1: (a) 3DGS 7k 反復の結果、(b) 3DGS 30k 反復の結果より多くのガウス プリミティブが使用されるため、品質は高くなりますが、速度は遅くなります。 (c) ガウス プリミティブの 90% がプルーニングされ、ストレージ スペースが大幅に削減されますが、同様のレンダリング効果が得られます。 グラフ上の信号入力としてガウス プリミティブの中心を使用し、グラフのエッジとしてガウス プリミティブ間の距離を使用します。グラフの隣接行列は
として表すことができます。ここで、はガウス要素の中心点、は閾値スーパーパラメータ、は距離行列の分散です。つまり、2 つのガウス プリミティブ間の距離がしきい値より小さい場合、それらの間にグラフ エッジを確立します。グラフの隣接行列を確立した後、Haar-like フィルターに従ってグラフ上の信号を処理して、特定の周波数帯域のグラフ信号を取得できます。最後に、目的の周波数帯域信号に基づいてプルーニングを実行します。この記事では、バンドストップ フィルターを使用して、オブジェクトの詳細を表す高周波信号と背景点の低周波信号を保持します。 スペクトル枝刈りの後、削除されるガウスプリミティブが多すぎるため、必然的にレンダリング品質が低下します。この問題を解決するために、ニューラルネットワークを使用してこれを補償します。図 2 に示すように、品質が低下します。 ガウス スプラッティングから特徴スプラッティングに変換し、軽量の畳み込みニューラル ネットワークを導入して、画像上の RGB 値にマッピングされたガウス プリミティブを出力し、それによって異なるプリミティブからの情報を融合しました。これにより、補償ネットワークの重みによって、2 次元画像空間内のプリミティブ間の関係を間接的に捉えることができます。
図 2: 左側に示されている元の 3DGS は、プリミティブ間の関係をキャプチャしていないため、大量のストレージ スペースを必要とします。中央は、ガウス プリミティブの関係をモデル化したスペクトル プルーニング戦略を示しています。は、レンダリングを改善するために 2D 機能を使用した神経補正を示しています。 具体的には、3DGS のように RGB 画像を直接レンダリングする代わりに、3D ガウスの微分可能ラスタライザーを通じて特徴マップを取得します。これは、投影された 3D ガウスの特徴を 2 次元の特徴マップに変換します。
次に、軽量ニューラル ネットワークを利用してプリミティブ間の関係をモデル化し、スペクトル プルーニング後の品質劣化を補償します。このネットワークは、スキップ接続を備えた 4 層の完全畳み込み U-Net で構成され、さまざまなプリミティブからの情報を集約します。ダウンサンプリングには平均プーリングを使用し、画像のアップサンプリングには双一次補間を使用します。ネットワークはラスター化された特徴マップを入力として受け取り、RGB イメージを出力します。
SUNDAE の全体的な枠組みを以下の図 3 に示します。
図 3: (a) パイプライン: 事前トレーニングされた 3D ガウス フィールドの場合、グラフベースの枝刈り戦略を使用してガウス要素をダウンサンプリングし、畳み込みニューラル ネットワークを使用して枝刈りによって生じる損失を補償します。 (b) グラフベースの枝刈り: ガウス プリミティブ間の空間関係に基づくグラフが枝刈りに使用されます。このプロセスでは、バンドストップ フィルターを使用することで、低周波部分の一般的な特徴を捉えながら高周波成分から詳細な情報を抽出しやすくなり、シーン全体を包括的かつ効率的に表現できます。 さらに、ガウス場の完全に密な枝刈りプリミティブから開始するトレーニング後の枝刈りとは異なり、ピークストレージを削減するための連続的な枝刈り戦略も提案します。 , 継続的な枝刈りには、トレーニング プロセス全体を通じて、事前に定義された間隔で一定の間隔で特定の数または割合のプリミティブを削除することが含まれます。このアプローチは、3D ガウス フィールドをトレーニングするときにプリミティブの最大数を継続的に制御することを目的としています。これにより、トレーニング中のピーク メモリ要件が軽減され、GPU メモリの少ない GPU デバイスでのトレーニングが可能になります。 経験によれば、ピークメモリが低いことの利点は、最終的なメモリフットプリントの制御が弱くなるという犠牲を払って得られます。たとえば、2000 回の反復ごとにプリミティブの 20% を削除した場合、3D ガウス フィールドの最終的な収束状態は、予想される 20% の削減から逸脱する可能性があります。 さらに、この変動はシナリオによって異なる可能性があり、剪定効果の予測可能性と一貫性がさらに複雑になります。したがって、必要に応じて、代替策として継続的な剪定戦略を検討します。 SUNDAE を最先端の 3DGS および NeRF アルゴリズムと比較しました。 3DGS、当社モデル類似メモリの 10% のみを使用することで結果を達成できますが、メモリの 30% または 50% を使用すると元の 3DGS を超える可能性があります。また、FPS の点では、他の NeRF 関連アルゴリズムをはるかに上回っています。 これは、私たちのモデルがガウス プリミティブ間の関係をより適切に捕捉し、より少ないガウス プリミティブを使用して 3 次元シーンを効率的に表現できるためです。 定性的結果からわかるように、SUNDAE の定性的結果を 1% および 10% のサンプリング レートで 3DGS および InstantNGP と比較します。 定性的な結果は、SUNDAE がメモリ消費量の 10% または 1% のみを使用しながら、同様の新しいパースペクティブ合成品質を達成できることを示しています。グラフはプリミティブ間の関係をうまく構築し、同時にニューラル補償ヘッドがレンダリング品質を効果的に維持します。また、図 5 の最後の 4 行目からわかるように、スペクトル プルーニングにより、カメラの近くにある浮遊物体を除去できます。
バンドストップフィルターの比はパラメータで表されます。具体的には、グラフベースの枝刈りプロセス中に、特定の割合 () のハイパスと残り (1-) のローパスを含むいくつかのプリミティブをサンプリングします。 結果は、このパラメーターがレンダリング品質に大きな影響を及ぼし、50% の比率で最良の結果が得られる一方、低周波数または高周波数信号を不均衡に強調すると品質の低下につながることがわかりました。比率 50% 高周波のディテールと低周波の背景のバランスが保たれるため、効果がより優れています。
図 6 と表 2 に示すように、補償ネットワークの重要性を定性的および定量的に示します。表 2 に示すように、ニューラル補正を使用すると、すべてのサンプリング レートで使用しない場合と比較してパフォーマンスが向上します。これは、図 6 に示す視覚化結果によってさらに裏付けられており、スペクトル プルーニングによって引き起こされるパフォーマンス低下を補償するモジュールの能力を示しています。同時に、プリミティブ間の関係がよく捉えられていることが証明されました。
表 3 に示すように、さまざまなサイズの補償ネットワークを試しましたが、ネットワーク サイズを大きくしてもレンダリング品質が必ずしも向上するとは限りません。これは ADOP の調査結果と一致しており、同様の傾向を示しています。品質とメモリの最適なバランスを実現するために、デフォルト設定として 30MB の 4 層 UNet を使用します。
上記の表 1 に示すように、プリミティブの 50% を保持すると、レンダリング品質の点で元の 3DGS よりも優れています。また、表 4 に示すように、サンプリング レートが最終結果にどのような影響を与えるかを調べるために、80% を保持するテストとすべてのプリミティブを保持するテストも追加しました。 結果は、プリミティブの 80% を保持するとレンダリング品質が向上し、LPIPS の点では改善が見られますが、PSNR と SSIM では視覚的にわずかな改善が見られることを示しています。すべてのプリミティブを保持 (およびより多くのエポックのトレーニング) しても品質はさらに向上しません。これは、プリミティブ関係をモデル化することの重要性も示しています。効果的なリレーショナル モデリングがなければ、プリミティブが増えるとモデルの収束が困難になり、プリミティブの数が多くなるとシーン表現に悪影響を及ぼします。 さらに、私たちの目標は、レンダリング品質とストレージ効率のバランスを取ることでしたが、プリミティブの 80% を保持するためにストレージを 620MB に増やしても、品質はわずかに向上するだけであり、その結果、ストレージ効率が低下します。
MipNeRF360 データセットの自転車シナリオとカウンター シナリオで連続サンプリング戦略をテストし、異なる枝刈り間隔の反復と枝刈りレートを設定しました。表 5 に示すように、ポイントはトレーニング後のプリミティブの数、比率は元の 3DGS に対するトレーニング後のプリミティブの数のおおよその比率です。 結果は、この戦略はピーク記憶を減らすことができますが、最終記憶 (ポイントと比率に反映される) を制御するのが難しいことを示しています。したがって、トレーニング後のプルーニング戦略を検証しましたが、オープンソース ツールボックスでは代替案として継続的なプルーニング戦略を引き続き提供しています。
トレーニング時間、CUDA メモリ、レンダリング フレーム レート、ROM ストレージの詳細については、表 6 を参照してください。 「Ours-50%」バージョンは、許容可能なトレーニング時間 (1.41 時間) 内で最高のレンダリング品質を達成しながら、リアルタイム レンダリングを実現し、トレーニング中の CUDA メモリ使用量と ROM ストレージを大幅に削減していることは注目に値します。
この研究では、グラフ信号処理を導入することでガウス基底をモデル化するために、神経補償を備えた新しいスペクトル刈り取られたガウス場SUNDAEを提案しました。枝刈りによる情報損失を補うためのさまざまなプリミティブ。 ガウス プリミティブ間の空間情報を使用して関係をモデル化するグラフを構築し、スペクトル情報に基づいてプルーニングして冗長なプリミティブを削除します。軽量ニューラル ネットワークは、プルーニング後の避けられないレンダリング品質の損失を補うために使用されます。 実験結果は、SUNDAE が 3DGS の効率を維持しながらメモリを大幅に削減し、効率を向上させ、高忠実度のレンダリング品質を維持することを示しています。 以上が3D ガウス スプラッティング アルゴリズムに別れを告げ、神経補正を備えたスペクトル プルーニング ガウス フィールド SUNDAE がオープン ソースになりました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。