最近、Meta とカーネギーメロン大学によって提案された 6-DoF ビデオ表現モデルである HyperReel は、新しい VR の「キラー」アプリケーションが誕生しようとしていることを示しているかもしれません。
いわゆる「6 自由度ビデオ」(6-DoF) は、単に超高解像度の 4D 体験再生です。
その中で、ユーザーはダイナミックなシーンに完全に「没入」し、自由に移動することができます。また、頭の位置 (3 DoF) と方向 (3 DoF) を任意に変更すると、それに応じて対応するビューも生成されます。
文書アドレス: https://arxiv.org/abs/2301.02238
以前の作品と比較した場合、HyperReel の最大の利点はメモリとコンピューティング効率にあり、どちらもポータブル VR ヘッドセットにとって重要です。
そして、バニラの PyTorch を使用するだけで、HyperReel は 1 台の NVIDIA RTX 3090 上で 18 フレーム/秒でメガピクセル解像度のレンダリングを実現できます。
長すぎて読めません:
1 。高解像度での高忠実度、高フレームレートのレンダリングと、コンパクトでメモリ効率の高いダイナミック ボリューム表現を実現できる光条件サンプリング予測ネットワークを提案します。
##2. 6-DoF ビデオ表現方法 HyperReel は、上記の 2 つのコア部分を組み合わせて、メガピクセルの解像度をリアルタイムでレンダリングしながら、速度、品質、メモリの理想的なバランスを実現します。##3. HyperReel は、メモリ要件やレンダリング速度などの多くの点で他の方法よりも優れています。
論文紹介
ボリューム シーン表現は、静的シーンにリアルなビュー合成を提供することができ、ビデオ テクノロジの既存の 6-DoF の基礎を構成します。ただし、これらの表現を推進するボリューム レンダリング プログラムでは、品質、レンダリング速度、メモリ効率の点で慎重なトレードオフが必要です。
既存の方法には欠点があります。リアルタイム パフォーマンス、小さなメモリ使用量、高品質のレンダリングを同時に達成することができず、困難な現実世界のシナリオでは非常に困難です。
これらの問題を解決するために、研究者らは、NeRF テクノロジー (Neural Radiation Field) に基づいた 6-DoF ビデオ表現手法である HyperReel を提案しました。
そのうち、HyperReel の 2 つのコア部分は次のとおりです:
1. 光条件下での高解像度のサンプリング予測ネットワーク。 -忠実度、高フレームレートのレンダリング;
2. コンパクトでメモリ効率の高いダイナミック ボリューム表現。
他の方法と比較して、HyperReel の 6-DoF ビデオ パイプラインは、視覚的な品質の点で非常に優れたパフォーマンスを発揮するだけでなく、必要なメモリも非常に少なくなります。
同時に、HyperReel は、カスタム CUDA コードを使用せずに、メガピクセル解像度で 18 フレーム/秒のレンダリング速度を達成できます。
# 具体的には、HypeReel は、サンプル予測ネットワークとキーフレームベースのボリューム表現を組み合わせて、効率のバランスをとることで、高いレンダリング品質、速度、メモリを実現します。
サンプル予測ネットワークは、特にビューの依存関係が難しいシーンにおいて、ボリューム レンダリングを高速化し、レンダリング品質を向上させることができます。
キーフレームに基づくボリューム表現に関して、研究者は TensoRF の拡張機能を使用しています。
このメソッドは、単一の静的フレーム TensoRF とほぼ同じメモリを消費しながら、完全なビデオ シーケンスを正確に表現できます。
リアルタイム デモンストレーション
次に、HypeReel がどのように動的シーンと静的シーンを解像度で実行するかをリアルタイムでデモンストレーションします。 512x512 ピクセル、レンダリング効果。
研究者がテクニカラー シーンとシャイニー シーンで小さなモデルを使用したため、レンダリングのフレーム レートが 40 FPS を超えていたことは注目に値します。残りのデータセットについては、完全なモデルが使用されますが、HypeReel は引き続きリアルタイム推論を提供できます。
#テクニカラー
##シャイニー
スタンフォード
没入型
DoNeRF実装方法
HeperReel を実装するには、まず静的ビュー合成の最適化を考慮する必要があります。ボリュームの特性評価。NeRF のようなボリューム表現は、3D 空間内の静的シーンの各ポイントの密度と外観をモデル化します。
より具体的には、関数
## を使用して、光線に沿った位置 x と方向 を色にマッピングします。 # と密度 σ(x)。 ここでのトレーニング可能なパラメータ θ は、ニューラル ネットワークの重み、N 次元配列エントリ、または両方の組み合わせにすることができます。
次に、静的シーンの新しいビューをレンダリングできます
#どこで
は o から までの透過率を表します。 実際には、式 1 は、指定された光線に沿って複数のサンプル ポイントを取得し、数値求積法を使用することによって計算できます。
重み は、出力に対する各サンプル ポイントの色の寄与を指定します。 ボリューム レンダリングのメッシュの例 画像とカメラのセットが指定された静的シーンの HyperReel でトレーニングの目標は、各光線に関連付けられた測定された色を再構築することです。 ほとんどのシーンは、その表面が 3D シーン ボリューム内の 2D 多様体上にあるソリッド オブジェクトで構成されています。この場合、各光線のレンダリング カラーに影響を与えるサンプル ポイントは少数です。 そこで、研究者らは、ボリューム レンダリングを高速化するために、ゼロ以外の ポイントについてのみ色と不透明度をクエリしたいと考えました。 下の図に示すように、研究者はフィードフォワード ネットワークを使用して一連のサンプル位置を予測します。具体的には、サンプル予測ネットワーク を使用して光線 をサンプル ポイント にマッピングし、 の体積方程式 2 のレンダリングを取得します。 ここで、研究者らはプラッカーのパラメータ化を使用して光を特徴付けました。 しかし、問題があります。ネットワークに柔軟性を与えすぎると、ビュー合成の品質に悪影響を及ぼす可能性があります。たとえば、(x1, ..., xn) が完全に任意の点である場合、レンダリングは複数のビューにわたって一貫していないように見える可能性があります。 この問題を解決するために、研究者らは、サンプル予測ネットワークを使用して、一連の幾何学的プリミティブ G1、...、Gn のパラメーターを予測することにしました。プリミティブは入力レイに応じて決定できます。サンプル ポイントを取得するには、光線が各プリミティブと交差します。 図 a に示すように、カメラの原点 o から発生し、方向 ω に沿って伝播する入力光線が与えられたとすると、研究者らは最初にプラッカー座標を使用しました。 、ライトを再パラメータ化します。 図 b に示すように、ネットワーク はこの光線を入力として受け取り、セットを出力します。幾何学プリミティブのパラメータ {} (軸が整列した平面や球など) と変位ベクトル {}。 #図 c に示すように、ボリューム レンダリング用のサンプル ポイント {#} を生成するために、研究者らは、光線と幾何学基底の間の交差を計算しました。要素と変位ベクトルが結果に追加されます。幾何学的プリミティブを予測する利点は、サンプリングされた信号が滑らかで内挿しやすいことです。 ディスプレイスメント ベクトルによりサンプル ポイントの柔軟性が向上し、視線に依存する複雑な外観をより適切にキャプチャできるようになります。 図 d に示すように、研究者は最後に、式 2 を通じてボリューム レンダリングを実行し、対応する観察結果に基づいてピクセル カラーを生成しました。 、それは監督され、訓練されました。 上記の方法により、3D シーンのボリュームを効果的にサンプリングできます。 ボリュームをどのように特徴づけるか?静的なケースでは、研究者らはメモリ効率の高いテンソル放射場 (TensoRF) メソッドを使用し、動的ケースでは、TensoRF をキーフレームベースの動的ボリューム表現に拡張しました。 次の図は、キーフレームベースの表現から動的サンプルポイント表現を抽出するプロセスを説明しています。 }、時間 のサンプル ポイント {} を最も近いキーフレーム ## に変換します。 ####真ん中。 次に、図 2 に示すように、研究者は時空間テクスチャの外積をクエリして、各サンプル ポイントの外観特性を生成しました。次に、式 10 を介してこれを色に変換します。 このプロセスを通じて、研究者は各サンプルの不透明度を抽出しました。 結果の比較静的シーンの比較
DoNeRF データセット 表 1 に示すように、HyperReel の手法は品質においてすべてのベースラインを上回り、他のサンプリング ネットワーク スキームのパフォーマンスを大幅に向上させます。 一方、HyperReel は標準の PyTorch で実装されており、単一の RTX 3090 GPU で 6.5 FPS (または Tiny モデル レンダリングでは 29 FPS) で 800 × 800 ピクセルの画像をレンダリングできます。 さらに、R2L の 88 層、256 隠れユニットのディープ MLP と比較して、研究者が提案した 6 層、256 隠れユニット ネットワークと TensoRF ボリューム バックボーンは、推論速度が高速になります # LLFF データ セットには 8 実数が含まれています- 1008×756 ピクセル画像のワールド シーケンス。 表 1 に示すように、HyperReel の手法は DoNeRF、AdaNeRF、TermiNeRF、InstantNGP より優れていますが、達成される品質は NeRF よりわずかに劣ります。 このデータセットは、不正確なカメラ キャリブレーションと入力ビューのまばらさのため、明示的な体積表現にとって大きな課題です。 Technicolor ライト フィールド データセットには、時間同期された 4×4 カメラ セットアップによってキャプチャされたさまざまな屋内環境のビデオが含まれており、各ビデオ ストリーム内の各画像が含まれています。両方とも 2048 x 1088 ピクセルです。 。 研究者らは、このデータセットの 5 つのシーケンス (誕生日、ファビアン、画家、劇場、電車) について、フル画像解像度で HyperReel と Neural 3D ビデオを比較しました。各シーケンスの長さは 50 フレームです。 表 2 に示すように、HyperReel の品質は Neural 3D ビデオの品質を上回っていますが、シーケンスあたりのトレーニング時間はわずか 1.5 時間です (Neural 3D では 1000 時間以上かかります)。 、レンダリングが高速化されます。 ニューラル 3D ビデオ データ セットには 6 つの屋内が含まれています20 台のカメラで解像度 2704 × 2028 ピクセルでキャプチャされたマルチビュー ビデオ シーケンス。 表 2 に示すように、HyperReel は、NeRFPlayer や StreamRF などの最近の研究を含む、このデータセット上のすべてのベースライン手法を上回っています。 特に、HyperReel は、バックボーン方式として Plenoxels を使用しているにもかかわらず (カスタマイズされた CUDA カーネルを使用して)、量では NeRFPlayer を上回り、レンダリング速度は約 40 倍、品質では StreamRF を上回っています。推論を高速化し、レンダリングを高速化します。 さらに、HyperReel は、StreamRF と NeRFPlayer の両方よりも平均でフレームあたりのメモリ消費量がはるかに少なくなります。 Google イマーシブ データセットには、さまざまな屋内およびライト フィールドのビデオが含まれています屋外環境のこと。 表 2 に示すように、HyperReel は NeRFPlayer よりも品質が 1 dB 優れており、レンダリング速度も高速です。 残念ながら、HyperReel は VR で必要なレンダリング速度 (理想的には 72FPS、ステレオ) にまだ達していません。 ただし、このメソッドはバニラの PyTorch に実装されているため、カスタム CUDA カーネルなどの作業を通じてパフォーマンスをさらに最適化できます。 著者紹介 この論文の筆頭著者である Benjamin Attal は、現在カーネギー メロン ロボット研究所で博士号取得を目指しています。研究対象には、仮想現実、計算によるイメージングとディスプレイが含まれます。 キーフレームに基づくダイナミックボリューム
ここで勉強してください研究者らは、HyperReel を、NeRF、InstantNGP、および 3 つのサンプリング ネットワーク ベースの手法を含む既存の静的ビュー合成手法と比較しました。
ダイナミック シーンの比較
以上がMeta と CMU が協力して壮大な VR アップグレードを開始します!高忠実度の6自由度映像描画を実現するHyperReel最新モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。