一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史-AI-php.cn

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

PHPz

リリース： 2023-04-08 13:01:03

転載

1381 人が閲覧しました

ビュー合成は、コンピュータービジョンとコンピューターグラフィックスが交わる重要な問題であり、シーンの複数の写真からシーンの新しいビューを作成することを指します。

シーンの新しいビューを正確に合成するには、モデルは小さな参照画像のセットから、詳細な 3D 構造などの複数の種類の情報をキャプチャする必要があります。、マテリアルと照明など。

研究者らが神経放射線場 (NeRF) モデルを 2020 年に提案して以来、この問題にもますます注目が集まり、合成パフォーマンスという新しい見解が大きく推進されました。

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

超大手企業の 1 つは Google であり、NeRF の分野で多くの論文も発表しています。 CVPR 2022 と ECCV 2022 で Google が発表した 2 つの論文を紹介します。ライトフィールドニューラルレンダリングモデルの進化について説明します。

最初の論文では、参照ピクセルの色の組み合わせを学習するための、Transformer に基づく 2 段階モデルを提案しています。まず、エピポーララインに沿った特徴が取得されます。次に、参照ビューに沿った特徴が取得されてターゲット光線の色が生成され、ビューの再現精度が大幅に向上します。

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

#紙のリンク: https://arxiv.org/pdf/2112.09687.pdf

#クラシック

ライトフィールドレンダリング反射、屈折、半透明などのビュー関連の効果を正確に再現できますが、シーンの高密度のビューサンプリングが必要です。幾何学的再構成に基づく方法は、まばらなビューのみを必要としますが、非ランバート効果、つまり非理想散乱を正確にシミュレートすることはできません。

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

この記事で提案する新しいモデルは、光に焦点を当てることで、これら 2 つの方向の利点を組み合わせ、

その制限を軽減しますフィールドの 4 次元表現を操作することにより、モデルはビュー依存の効果を正確に表現することを学習できます。シーンジオメトリは、トレーニングと推論中に幾何学的制約を強制することによって、まばらなビューのセットから暗黙的に学習されます。

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

このモデルは、複数の前方および 360 度のデータセットで最先端のモデルよりも優れたパフォーマンスを発揮し、視線への依存性が深刻です。性転換シーンの余裕が増します。

別の論文では、正規化された位置エンコーディングを備えた

Transformer シーケンスを使用して、目に見えないシーンを合成する一般化問題を解決しています。モデルが一連のシーンでトレーニングされた後、それを使用して新しいシーンのビューを合成できます。

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

#紙のリンク: https://arxiv.org/pdf/2207.10662.pdf

#この記事では、深度機能と NeRF のようなボリュームレンダリングを必要としない別のパラダイムを提案します。この方法では、シーンからパッチセットをサンプリングするだけで、新しいシーンのターゲットレイの色を直接予測できます。

最初にエピポーラジオメトリ

を使用して、各参照ビューの

エピポーララインに沿ってパッチを抽出し、各パッチを 1 つに線形投影して割り当てます。次元特徴ベクトルに変換されると、このセットは一連の Transformer によって処理されます。

位置エンコーディングの場合、研究者らはライトフィールド表現法と同様の方法を使用して光線をパラメータ化しました。違いは、座標が相対的に正規化されていることです。これにより、メソッドが参照フレームから独立し、汎用性が向上します。

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

このモデルの革新的な点は、画像ベースのレンダリングを実行し、参照画像の色と特性を組み合わせて新しいビューをレンダリングすることです。それは純粋に Transformer に基づいており、イメージパッチセットで動作します。また、位置エンコードに 4D ライトフィールド表現を利用し、ビュー関連の効果をシミュレートするのに役立ちます。

最終的な実験結果は、この方法が、よりもはるかに少ないデータでトレーニングされた場合でも、まだ見ていないシーンの新しいビュー合成において他の方法よりも優れていることを示しています。同じことが ## にも当てはまります。ライトフィールドニューラルレンダリング

モデルへの入力には、一連の参照画像、対応するカメラパラメーター (焦点距離、位置、空間方向)、およびユーザーの希望する色のターゲット光線の座標。

新しい画像を生成するには、入力画像のカメラパラメーターから開始し、まずターゲットレイの座標 (それぞれがピクセルに対応します) を取得する必要があります。そして各座標のモデルクエリ。

研究者らの解決策は、各参照画像を完全に処理するのではなく、ターゲットピクセルに影響を与える可能性のある領域のみを確認することでした。これらの領域は、各ターゲットピクセルを各参照フレーム上のラインにマッピングするエピポーラ幾何学によって決定できます。

安全のため、エピポーラライン上のいくつかの点の周囲の小さな領域を選択して、モデルによって実際に処理されるパッチのセットを形成し、適用する必要があります。 Transformer をこのパッチのセットに追加し、ターゲットピクセルの色を取得します。

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

Transformer は、そのセルフアテンションメカニズムがパッチコレクションを入力として自然に取得し、アテンションウェイト自体を自然に取得できるため、この場合に特に役立ちます。参照ビューの色と特徴を組み合わせることにより、出力ピクセルの色を予測するために使用できます。

ライトフィールドニューラルレンダリング (LFNR) では、研究者は 2 つの Transformer シーケンスを使用して、パッチのコレクションをターゲットピクセルカラーにマッピングします。

最初の Transformer は各エピポーララインに沿って情報を集約し、2 番目の Transformer は各参照イメージに沿って情報を集約します。

このメソッドは、最初のトランスフォーマーが各参照フレーム上のターゲットピクセルの潜在的な対応関係を見つけるものとして解釈でき、2 番目のトランスフォーマーはオクルージョンと視線依存効果を担当します。これは、イメージベースのレンダリングでよくある困難でもあります。

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

LFNR は、最も一般的なビュー合成ベンチマーク (NeRF の Blender と Real Forward-Facing シーン、NeX の Shiny) で sota モデルよりも優れたパフォーマンスを示します。対ノイズ比 (PSNR) は最大 5dB 改善され、これはピクセルレベルの誤差を 1.8 倍減らすことに相当します。

LFNR は、CD 上の虹や反射、ボトル上の反射、屈折、半透明など、NeX/Shiny データセット内のより困難な視線依存効果の一部を再現できます。。

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

NeX や NeRF などの以前の方法と比較すると、NeX のような視線関連の効果を再現することができません。 /光沢のあるデータセット実験室シーンにおける試験管の半透明性と屈折率。

#1 つのトレーニング、新しいシーンへの一般化一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

しかし、LFNR にも限界があります。

最初の Transformer は、参照イメージごとに独立して各エピポーララインに沿って情報を折り畳みます。これは、モデルがどの情報を保持するかを決定できるのは各参照イメージの出力光線座標とパッチに基づいてのみであることも意味します。これは機能します。 (ほとんどのニューラルレンダリング手法と同様に) 単一のシーンでのトレーニングでは問題ありませんが、異なるシーンに一般化することはできません。

一般化可能なモデルは、再トレーニングせずに新しいシナリオに直接適用できるため重要です。

研究者らは、LFNR のこの欠点を解決するために、一般的なパッチベースニューラルレンダリング (GPNR) モデルを提案しました。

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

トランスフォーマーをモデルに追加して、他の 2 つのトランスフォーマーよりも前に、すべての参照画像交換の同じ深度のポイント間で実行されるようにします。間の情報。

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

GPNR は、エピポーララインに沿って抽出されたパッチのセットをピクセルカラーにマッピングする 3 つのトランスフォーマーのシーケンスで構成されます。画像パッチは、線形投影レイヤーを介して初期特徴にマッピングされ、その後、これらの特徴がモデルによって継続的に洗練され、集約されて、最終的に特徴と色が形成されます。

たとえば、最初の Transformer が「公園のベンチ」からパッチシーケンスを抽出した後、新しいモデルは両方のビューの対応する深さに表示される「花」を使用できます。このような手がかりは、潜在的な可能性を示しています。マッチ。

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史

この作業のもう 1 つの重要なアイデアは、さまざまなシナリオで一般化したいため、ターゲットレイに従って位置エンコーディングを正規化することです。量は、絶対的な参照枠ではなく相対的な参照枠で表す必要があります。

モデルの汎化パフォーマンスを評価するために、研究者らは一連のシナリオで GPNR をトレーニングし、新しいシナリオでテストしました。

GPNR は、いくつかのベンチマーク (IBRNet および MVSNeRF プロトコルに従う) で平均 0.5 ～ 1.0 dB 改善されます。特に IBRNet ベンチマークでは、トレーニングシナリオの 11% のみを使用して GPNR が改善されます。の場合、ベースラインモデルを超えています。

一度トレーニングするだけで、新しい 3D シーンが生成されます。 Googleの「ライトフィールドニューラルレンダリング」の進化の歴史