Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル-AI-php.cn

最近、Meta とカーネギーメロン大学によって提案された 6-DoF ビデオ表現モデルである HyperReel は、新しい VR の「キラー」アプリケーションが誕生しようとしていることを示しているかもしれません。

いわゆる「6 自由度ビデオ」(6-DoF) は、単に超高解像度の 4D 体験再生です。

その中で、ユーザーはダイナミックなシーンに完全に「没入」し、自由に移動することができます。また、頭の位置 (3 DoF) と方向 (3 DoF) を任意に変更すると、それに応じて対応するビューも生成されます。

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

文書アドレス: https://arxiv.org/abs/2301.02238

以前の作品と比較した場合、HyperReel の最大の利点はメモリとコンピューティング効率にあり、どちらもポータブル VR ヘッドセットにとって重要です。

そして、バニラの PyTorch を使用するだけで、HyperReel は 1 台の NVIDIA RTX 3090 上で 18 フレーム/秒でメガピクセル解像度のレンダリングを実現できます。

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

長すぎて読めません:

1 。高解像度での高忠実度、高フレームレートのレンダリングと、コンパクトでメモリ効率の高いダイナミックボリューム表現を実現できる光条件サンプリング予測ネットワークを提案します。

##2. 6-DoF ビデオ表現方法 HyperReel は、上記の 2 つのコア部分を組み合わせて、メガピクセルの解像度をリアルタイムでレンダリングしながら、速度、品質、メモリの理想的なバランスを実現します。

##3. HyperReel は、メモリ要件やレンダリング速度などの多くの点で他の方法よりも優れています。

論文紹介

ボリュームシーン表現は、静的シーンにリアルなビュー合成を提供することができ、ビデオテクノロジの既存の 6-DoF の基礎を構成します。

ただし、これらの表現を推進するボリュームレンダリングプログラムでは、品質、レンダリング速度、メモリ効率の点で慎重なトレードオフが必要です。

既存の方法には欠点があります。リアルタイムパフォーマンス、小さなメモリ使用量、高品質のレンダリングを同時に達成することができず、困難な現実世界のシナリオでは非常に困難です。

これらの問題を解決するために、研究者らは、NeRF テクノロジー (Neural Radiation Field) に基づいた 6-DoF ビデオ表現手法である HyperReel を提案しました。

そのうち、HyperReel の 2 つのコア部分は次のとおりです:

1. 光条件下での高解像度のサンプリング予測ネットワーク。 -忠実度、高フレームレートのレンダリング;

2. コンパクトでメモリ効率の高いダイナミックボリューム表現。

他の方法と比較して、HyperReel の 6-DoF ビデオパイプラインは、視覚的な品質の点で非常に優れたパフォーマンスを発揮するだけでなく、必要なメモリも非常に少なくなります。

同時に、HyperReel は、カスタム CUDA コードを使用せずに、メガピクセル解像度で 18 フレーム/秒のレンダリング速度を達成できます。

# 具体的には、HypeReel は、サンプル予測ネットワークとキーフレームベースのボリューム表現を組み合わせて、効率のバランスをとることで、高いレンダリング品質、速度、メモリを実現します。

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

サンプル予測ネットワークは、特にビューの依存関係が難しいシーンにおいて、ボリュームレンダリングを高速化し、レンダリング品質を向上させることができます。

キーフレームに基づくボリューム表現に関して、研究者は TensoRF の拡張機能を使用しています。

このメソッドは、単一の静的フレーム TensoRF とほぼ同じメモリを消費しながら、完全なビデオシーケンスを正確に表現できます。

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

リアルタイムデモンストレーション

次に、HypeReel がどのように動的シーンと静的シーンを解像度で実行するかをリアルタイムでデモンストレーションします。 512x512 ピクセル、レンダリング効果。

研究者がテクニカラーシーンとシャイニーシーンで小さなモデルを使用したため、レンダリングのフレームレートが 40 FPS を超えていたことは注目に値します。残りのデータセットについては、完全なモデルが使用されますが、HypeReel は引き続きリアルタイム推論を提供できます。

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル #テクニカラー

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル ##シャイニー

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデルスタンフォード

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル没入型

DoNeRF実装方法

HeperReel を実装するには、まず静的ビュー合成の最適化を考慮する必要があります。ボリュームの特性評価。

NeRF のようなボリューム表現は、3D 空間内の静的シーンの各ポイントの密度と外観をモデル化します。

より具体的には、関数

## を使用して、光線に沿った位置 x と方向 Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデルを色にマッピングします。 # と密度 σ(x)。ここでのトレーニング可能なパラメータ θ は、ニューラルネットワークの重み、N 次元配列エントリ、または両方の組み合わせにすることができます。

次に、静的シーンの新しいビューをレンダリングできます

#どこで Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

は o から Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデルまでの透過率を表します。実際には、式 1 は、指定された光線に沿って複数のサンプルポイントを取得し、数値求積法を使用することによって計算できます。

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

重み Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデルは、出力に対する各サンプルポイントの色の寄与を指定します。

ボリュームレンダリングのメッシュの例

画像とカメラのセットが指定された静的シーンの HyperReel でトレーニングの目標は、各光線に関連付けられた測定された色を再構築することです。

ほとんどのシーンは、その表面が 3D シーンボリューム内の 2D 多様体上にあるソリッドオブジェクトで構成されています。この場合、各光線のレンダリングカラーに影響を与えるサンプルポイントは少数です。

そこで、研究者らは、ボリュームレンダリングを高速化するために、ゼロ以外の Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデルポイントについてのみ色と不透明度をクエリしたいと考えました。

下の図に示すように、研究者はフィードフォワードネットワークを使用して一連のサンプル位置を予測します Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル。具体的には、サンプル予測ネットワークを使用して光線をサンプルポイントにマッピングし、の体積方程式 2 のレンダリングを取得します。

ここで、研究者らはプラッカーのパラメータ化を使用して光を特徴付けました。

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

しかし、問題があります。ネットワークに柔軟性を与えすぎると、ビュー合成の品質に悪影響を及ぼす可能性があります。たとえば、(x1, ..., xn) が完全に任意の点である場合、レンダリングは複数のビューにわたって一貫していないように見える可能性があります。

この問題を解決するために、研究者らは、サンプル予測ネットワークを使用して、一連の幾何学的プリミティブ G1、...、Gn のパラメーターを予測することにしました。プリミティブは入力レイに応じて決定できます。サンプルポイントを取得するには、光線が各プリミティブと交差します。

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

図 a に示すように、カメラの原点 o から発生し、方向 ω に沿って伝播する入力光線が与えられたとすると、研究者らは最初にプラッカー座標を使用しました。、ライトを再パラメータ化します。

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

図 b に示すように、ネットワークはこの光線を入力として受け取り、セットを出力します。幾何学プリミティブのパラメータ {} (軸が整列した平面や球など) と変位ベクトル {}。

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

#図 c に示すように、ボリュームレンダリング用のサンプルポイント { Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル #} を生成するために、研究者らは、光線と幾何学基底の間の交差を計算しました。要素と変位ベクトルが結果に追加されます。幾何学的プリミティブを予測する利点は、サンプリングされた信号が滑らかで内挿しやすいことです。

ディスプレイスメントベクトルによりサンプルポイントの柔軟性が向上し、視線に依存する複雑な外観をより適切にキャプチャできるようになります。

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

図 d に示すように、研究者は最後に、式 2 を通じてボリュームレンダリングを実行し、対応する観察結果に基づいてピクセルカラーを生成しました。、それは監督され、訓練されました。

キーフレームに基づくダイナミックボリューム

上記の方法により、3D シーンのボリュームを効果的にサンプリングできます。

ボリュームをどのように特徴づけるか?静的なケースでは、研究者らはメモリ効率の高いテンソル放射場 (TensoRF) メソッドを使用し、動的ケースでは、TensoRF をキーフレームベースの動的ボリューム表現に拡張しました。

次の図は、キーフレームベースの表現から動的サンプルポイント表現を抽出するプロセスを説明しています。

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

#図 1 に示すように、研究者はまず、サンプルからのネットワーク出力の予測速度を利用しました{

}、時間のサンプルポイント {} を最も近いキーフレーム ## に変換します。＃＃＃＃真ん中。

次に、図 2 に示すように、研究者は時空間テクスチャの外積をクエリして、各サンプルポイントの外観特性を生成しました。次に、式 10 を介してこれを色に変換します。 Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

このプロセスを通じて、研究者は各サンプルの不透明度を抽出しました。

結果の比較

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

静的シーンの比較

ここで勉強してください研究者らは、HyperReel を、NeRF、InstantNGP、および 3 つのサンプリングネットワークベースの手法を含む既存の静的ビュー合成手法と比較しました。

DoNeRF データセット

DoNeRF データセットには、6 つの合成シーケンス、画像が含まれています。 800×800ピクセルです。

表 1 に示すように、HyperReel の手法は品質においてすべてのベースラインを上回り、他のサンプリングネットワークスキームのパフォーマンスを大幅に向上させます。

一方、HyperReel は標準の PyTorch で実装されており、単一の RTX 3090 GPU で 6.5 FPS (または Tiny モデルレンダリングでは 29 FPS) で 800 × 800 ピクセルの画像をレンダリングできます。

さらに、R2L の 88 層、256 隠れユニットのディープ MLP と比較して、研究者が提案した 6 層、256 隠れユニットネットワークと TensoRF ボリュームバックボーンは、推論速度が高速になります #

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

LLFF データセット

LLFF データセットには 8 実数が含まれています- 1008×756 ピクセル画像のワールドシーケンス。

表 1 に示すように、HyperReel の手法は DoNeRF、AdaNeRF、TermiNeRF、InstantNGP より優れていますが、達成される品質は NeRF よりわずかに劣ります。

このデータセットは、不正確なカメラキャリブレーションと入力ビューのまばらさのため、明示的な体積表現にとって大きな課題です。

Meta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデル

ダイナミックシーンの比較

テクニカラーデータセット

Technicolor ライトフィールドデータセットには、時間同期された 4×4 カメラセットアップによってキャプチャされたさまざまな屋内環境のビデオが含まれており、各ビデオストリーム内の各画像が含まれています。両方とも 2048 x 1088 ピクセルです。。

研究者らは、このデータセットの 5 つのシーケンス (誕生日、ファビアン、画家、劇場、電車) について、フル画像解像度で HyperReel と Neural 3D ビデオを比較しました。各シーケンスの長さは 50 フレームです。

表 2 に示すように、HyperReel の品質は Neural 3D ビデオの品質を上回っていますが、シーケンスあたりのトレーニング時間はわずか 1.5 時間です (Neural 3D では 1000 時間以上かかります)。、レンダリングが高速化されます。

ニューラル 3D ビデオデータセット

ニューラル 3D ビデオデータセットには 6 つの屋内が含まれています20 台のカメラで解像度 2704 × 2028 ピクセルでキャプチャされたマルチビュービデオシーケンス。

表 2 に示すように、HyperReel は、NeRFPlayer や StreamRF などの最近の研究を含む、このデータセット上のすべてのベースライン手法を上回っています。

特に、HyperReel は、バックボーン方式として Plenoxels を使用しているにもかかわらず (カスタマイズされた CUDA カーネルを使用して)、量では NeRFPlayer を上回り、レンダリング速度は約 40 倍、品質では StreamRF を上回っています。推論を高速化し、レンダリングを高速化します。

さらに、HyperReel は、StreamRF と NeRFPlayer の両方よりも平均でフレームあたりのメモリ消費量がはるかに少なくなります。