NeRFと自動運転の過去と現在、10本近くの論文をまとめました！-AI-php.cn

Neural Radiance Fields が 2020 年に提案されて以来、関連論文の数は飛躍的に増加し、3 次元再構築の重要な方向性となっただけでなく、重要なツールとして研究の最前線でも徐々に活発になってきました。自動運転に向けて。

NeRF は、過去 2 年間で突然登場しました。その主な理由は、特徴点の抽出とマッチング、エピポーラ幾何学と三角形分割、PnP とバンドル調整、および従来の CV 再構成パイプラインのその他のステップを省略し、さらにメッシュ、テクスチャ、およびレイトレーシングの再構成により、2D 入力イメージから放射線フィールドを直接学習し、実際の写真に近い放射線フィールドからレンダリングされたイメージを出力します。言い換えれば、ニューラルネットワークに基づく暗黙的な 3D モデルを指定された視点から 2D 画像に適合させ、新しい視点の合成と機能の両方を持たせます。 NeRF の開発は自動運転にも密接に関連しており、特に実際のシーンの再構築と自動運転シミュレーターのアプリケーションに反映されています。 NeRF は写真レベルの画像のレンダリングに優れているため、NeRF でモデル化された街路シーンは自動運転用の非常に現実的なトレーニングデータを提供できます。NeRF マップを編集して、建物、車両、歩行者を現実ではキャプチャするのが難しいさまざまなコーナーに結合することができます。このケースは、知覚、計画、障害物回避などのアルゴリズムのパフォーマンスをテストするために使用できます。したがって、NeRF は 3D 再構築の一分野であり、モデリングツールであり、NeRF を使いこなすことは、再構築や自動運転を行う研究者にとって必須のスキルとなっています。

今日は、Nerf と自動運転に関するコンテンツを整理します。ほぼ 11 の記事で、Nerf と自動運転の過去と現在を探索できます。

1. Nerf の始まり書き換えられた内容は次のとおりです: NeRF: ビュー合成のためのシーンの神経放射フィールド表現。 ECCV2020

の最初の記事では、疎な入力ビューセットを使用して基礎となる連続ボリュームシーン関数を最適化し、複雑なシーンを合成するための最新のビュー結果を実現する Nerf メソッドが提案されています。このアルゴリズムは、完全に接続された (非畳み込みの) ディープネットワークを使用してシーンを表現します。入力は単一の連続 5D 座標 (空間位置 (x、y、z) と視線方向 (θ、ξ) を含む) であり、出力はは、体積密度とビュー関連放出放射の空間位置です。

NERF は、2D ポーズ画像を監視として使用します。画像を畳み込む必要はありません。代わりに、位置エンコーディングを継続的に学習することで、一連の隠された画像を学習します。複雑な 3 次元シーンを表現する式パラメータとして画像の色を使用します。暗黙的表現により、あらゆる視点からのレンダリングを完了できます。

NeRFと自動運転の過去と現在、10本近くの論文をまとめました！ 2.Mip-NeRF 360

CVPR2020の研究内容は、アウトドアのボーダレスシーンに関するものです。その中で、Mip-NeRF 360: Boundless anti-aliasing neural radio field は研究方向の 1 つです。

論文リンク: https://arxiv.org/pdf/2111.12077.pdf

Neural Radiative Fields (NeRF) は、オブジェクトと空間の小さな境界領域で優れたビュー合成結果を実証していますが、カメラが任意の方向を向いていて、コンテンツが任意の距離に存在する可能性がある「境界のない」シーンで実装するのは困難です。この場合、既存の NeRF のようなモデルは、不鮮明なレンダリングや低解像度のレンダリングを生成することが多く (近くのオブジェクトと遠くのオブジェクトの詳細とスケールが不均衡なため)、トレーニングに時間がかかり、一連の小さな画像からの再構成が不十分になる可能性があります。大規模なシーンでは、タスクに固有のあいまいさが原因で発生します。この論文では、サンプリングとエイリアシングの問題を解決する NeRF のバリアントである mip-NeRF の拡張を提案し、非線形シーンパラメータ化、オンライン蒸留、および無制限のシーンによってもたらされる問題を克服するための新しい歪みベースの正則化を使用します。 mip-NeRF と比較して平均二乗誤差の 57% 削減を達成し、非常に複雑で境界のない現実世界のシーンに対してリアルな合成ビューと詳細な深度マップを生成できます。

NeRFと自動運転の過去と現在、10本近くの論文をまとめました！

#3.Instant-NGP NeRFと自動運転の過去と現在、10本近くの論文をまとめました！

#書き換える必要がある内容は次のとおりです。ボクセルと暗黙的な特徴の混合シーン表現を表示 (SIGGRAPH 2022)>>マルチ解像度ハッシュでエンコードされたリアルタイムニューログラフィックプリミティブ

書き換える必要がある内容は次のとおりです: リンク: https : //nvlabs.github.io/instant-ngp

まず、Instant-NGP と NeRF の類似点と相違点を見てみましょう:

これもボリュームレンダリングに基づいています
NeRF の MLP とは異なり、NGP はシーン表現としてスパースパラメーター化されたボクセルグリッドを使用します;
勾配に基づいて、シーンと MLP を最適化します。同時に (MLP の 1 つがデコーダとして使用されます)。

大きなフレームワークは同じであることがわかりますが、最も重要な違いは、NGP がパラメータ化されたボクセルグリッドをシーン表現として選択していることです。学習により、ボクセルに保存されたパラメータがシーン密度の形状になります。 MLP の最大の問題は遅いことです。シーンを高品質に再構成するには、比較的大規模なネットワークが必要になることが多く、サンプリングポイントごとにネットワークを通過するのに多くの時間がかかります。グリッド内の補間ははるかに高速です。ただし、グリッドで高精度のシーンを表現したい場合は、高密度のボクセルが必要となり、メモリ使用量が非常に多くなります。シーン内には空白の場所が多くあることを考慮して、NVIDIA はシーンを表現するためのスパース構造を提案しました。

NeRFと自動運転の過去と現在、10本近くの論文をまとめました！

4. F2-NeRF

F2-NeRF: フリーカメラ軌跡を使用した高速ニューラルラディアンスフィールドトレーニング

ペーパーリンク: https://totoro97.github.io/projects/f2-nerf/

新しいビュー合成のために、F2-NeRF (Fast Free NeRF) と呼ばれる新しいグリッドベースの NeRF を提案しました。これは、任意の入力カメラ軌道を実現でき、トレーニング時間は数分しかかかりません。 Instant NGP、Plenoxels、DVGO、TensoRF などの既存の高速グリッドベースの NeRF トレーニングフレームワークは、主に境界のあるシーン向けに設計されており、境界のないシーンを処理するために空間ワーッピングに依存しています。広く使用されている 2 つの既存の空間ワーッピング手法は、前方を向いた軌道または 360° オブジェクト中心の軌道のみをターゲットにしており、任意の軌道を処理することはできません。この記事では、境界のないシーンを処理するための空間ワーピングのメカニズムを詳しく調査します。さらに、パースペクティブワーッピングと呼ばれる新しい空間ワーッピング手法を提案します。これにより、グリッドベースの NeRF フレームワークで任意の軌道を処理できるようになります。広範な実験により、F2-NeRF が、収集された 2 つの標準データセットと新しい自由軌道データセットに対して同じパースペクティブワーピングを使用して高品質の画像をレンダリングできることが示されました。

NeRFと自動運転の過去と現在、10本近くの論文をまとめました！

5.MobileNeRF

リアルタイムレンダリングモバイルアプリケーションにはメッシュをエクスポートする Nerf の機能が実装されており、この技術は CVPR2023 カンファレンスで採用されました。

MobileNeRF: モバイルアーキテクチャでの効率的なニューラルフィールドレンダリングのためのポリゴンラスター化パイプラインの活用。

書き換える必要がある内容は次のとおりです: https://arxiv.org/pdf/2208.00277.pdf

Neural Radiation Fields (NeRF) は、新しいビューから 3D シーン画像を合成する驚くべき能力を実証しました。ただし、これらは、広く導入されているグラフィックスハードウェアの機能と一致しない、レイマーチングに基づく特殊なボリュームレンダリングアルゴリズムに依存しています。このペーパーでは、標準のレンダリングパイプラインを通じて新しい画像を効率的に合成できる、新しいテクスチャポリゴンベースの NeRF 表現を紹介します。 NeRF は、テクスチャがバイナリの不透明度と特徴ベクトルを表すポリゴンのセットとして表されます。 Z バッファを使用した従来のポリゴンのレンダリングでは、各ピクセルが最終的なピクセルカラーを生成するためにフラグメントシェーダ内で実行される小さなビュー依存 MLP によって解釈される特性を持つイメージが生成されます。このアプローチにより、NeRF は、大規模なピクセルレベルの並列処理を提供する従来のポリゴンラスタライゼーションパイプラインを使用してレンダリングできるようになり、携帯電話を含むさまざまなコンピューティングプラットフォーム全体でインタラクティブなフレームレートが可能になります。

NeRFと自動運転の過去と現在、10本近くの論文をまとめました！

6.Co-SLAM

当社のリアルタイムビジュアルローカリゼーションと NeRF マッピングの作業は CVPR2023

に含まれていますCo-SLAM: ニューラルリアルタイム SLAM のためのジョイント座標エンコーディングとスパースパラメトリックエンコーディング:

論文リンク: https://arxiv.org/pdf/2304.14377.pdf

Co-SLAM は、本物の-time カメラ追跡と高忠実度の表面再構築にニューラル暗黙的表現を使用する RGB-D SLAM システム。 Co-SLAM は、シーンを多重解像度のハッシュグリッドとして表現し、局所的な特徴を迅速に収束して表現する機能を活用します。さらに、表面一貫性事前分布を組み込むために、Co-SLAM はブロック符号化方式を使用します。これは、観察されていない領域でシーンの完成を強力に完了できることを証明しています。私たちの共同エンコーディングは、Co-SLAM の速度、高忠実度の再構成、表面一貫性事前分布の利点を組み合わせたもので、レイサンプリング戦略を通じて、Co-SLAM はすべてのキーフレームに対する調整をグローバルにバンドルすることができます。

NeRFと自動運転の過去と現在、10本近くの論文をまとめました！

7.Neuralangelo

現時点で最も優れた NeRF 表面再構成法 (CVPR2023)

NeRFと自動運転の過去と現在、10本近くの論文をまとめました！

書き換えた内容は以下のとおりです。画像ベースのニューラルレンダリングは、神経表面を再構築して高密度の 3D 構造を復元できることが示されています。しかし、現在の方法では、現実世界のシーンの詳細な構造を復元するのがまだ困難です。この問題を解決するために、この研究では、多重解像度 3D ハッシュグリッドの表現機能とニューラルサーフェスレンダリングを組み合わせた Neuralangelo と呼ばれる方法を提案します。このアプローチの 2 つの重要な要素は次のとおりです:

(1) 平滑化操作として高次導関数を計算するために使用される数値勾配、および (2) 異なる詳細レベルでのハッシュグリッドの制御粗い最適化から細かい最適化まで。

深度などの補助入力がなくても、Neuralangelo はマルチビュー画像から高密度の 3D 表面構造を効果的に復元できます。以前の方法と比較して忠実度が大幅に向上し、RGB ビデオキャプチャから詳細な大規模シーンの再構築が可能になります。

NeRFと自動運転の過去と現在、10本近くの論文をまとめました！

#8.MARS

初のオープンソース自動運転 NeRF シミュレーションツール。

書き直す必要があるのは: https://arxiv.org/pdf/2307.15058.pdf

自動運転車は通常の条件下でスムーズに走行できます。シミュレーションは、残りのコーナー状況を解決する上で重要な役割を果たします。この目的を達成するために、MARS は神経放射場に基づいた自動運転シミュレーターを提案しています。既存の作品と比較して、MARS には次の 3 つの特徴があります。 (1) インスタンスの認識。シミュレーターは、インスタンスの静的特性 (サイズや外観など) と動的特性 (軌道など) を個別に制御できるように、別個のネットワークを使用して前景インスタンスと背景環境を個別にモデル化します。 (2) モジュール性。シミュレータを使用すると、さまざまな最新の NeRF 関連バックボーン、サンプリング戦略、入力モードなどを柔軟に切り替えることができます。このモジュール設計により、NeRF ベースの自動運転シミュレーションの学術的進歩と産業展開が促進されることが期待されています。 (3) 本物。シミュレータは、最適なモジュールを選択して最先端のフォトリアリスティックな結果が得られるようにセットアップされています。

最も重要な点は、オープンソースであることです。

NeRFと自動運転の過去と現在、10本近くの論文をまとめました！

9.UniOcc

書き換えが必要な内容については、「NeRF と 3D」ネットワークを占拠する、AD2023 チャレンジ「

UniOcc: 幾何学的およびセマンティックレンダリングによるビジョン中心の 3D 占有予測の統合。

論文リンク: https://arxiv.org/abs/2306.09117

UniOCC は、視覚中心の 3D 占有予測方法です。従来の占有予測方法は、主に 3D 占有ラベルを使用して 3D 空間の投影機能を最適化します。しかし、これらのラベルの生成プロセスは複雑で高価で、3D セマンティックアノテーションに依存し、ボクセル解像度によって制限され、きめ細かい空間を提供できません。 . セマンティクス。この問題に対処するために、この論文では、空間幾何学的制約を明示的に課し、ボリュームレイレンダリングを通じてきめ細かいセマンティック監視を補足する、新しい統合占有 (UniOcc) 予測方法を提案します。このアプローチにより、モデルのパフォーマンスが大幅に向上し、手動によるアノテーションのコストが削減される可能性が実証されます。 3D 占有率のラベル付けの複雑さを考慮して、ラベルなしのデータを利用して予測精度を向上させるために、深度センシング教師生徒 (DTS) フレームワークをさらに導入します。当社のソリューションは、単一モデルの公式ランキングで 51.27% の mIoU スコアを達成し、この課題

NeRFと自動運転の過去と現在、10本近くの論文をまとめました！

#10 で 3 位にランクされました。 Unisim

Wowaoao が制作しており、間違いなく高品質の製品です。

UniSim: ニューラル閉ループセンサーシミュレーター

論文リンク: https://arxiv.org/pdf/2308.01898.pdf

普及を妨げる重要な理由しかし、セキュリティはまだ十分ではありません。現実の世界は、特にロングテール効果により、あまりにも複雑です。境界シナリオは安全な運転にとって重要であり、多様ですが遭遇するのは困難です。これらのシナリオで自動運転システムのパフォーマンスをテストすることは非常に困難です。現実の世界でテストするのは困難であり、非常に高価で危険なためです。

この課題を解決するために、産業界と学術界の両方が取り組み始めています。シミュレーションシステム開発に注目当初、シミュレーションシステムは、他の車両/歩行者の移動挙動のシミュレーションと自動運転計画モジュールの精度のテストに主に焦点を当てていました。近年、研究の焦点はセンサーレベルのシミュレーション、つまりライダーやカメラ画像などの生データを生成するシミュレーションに徐々に移行し、知覚、予測、計画に至る自動運転システムのエンドツーエンドのテストを実現しています。。

これまでの作品とは異なり、UniSim は初めて同時に達成しました:

高いリアリズム: 現実の世界を正確にシミュレートできます (
閉ループシミュレーション: 無人車をテストするためにまれに危険なシーンを生成でき、無人車が自由に対話できるようにします。
より多くのシーンに簡単に拡張でき、データを一度収集するだけで、テストを再構築してシミュレーションできます

NeRFと自動運転の過去と現在、10本近くの論文をまとめました！ #書き換える内容は、シミュレーションシステムの構築です。

UniSim まず、収集したデータから、 自動車、歩行者、道路、建物、交通標識などの自動運転シーンをデジタル世界で再構築します。次に、

simulation

用に再構成されたシーンを制御して、いくつかのまれなキーシーンを生成します。 閉ループシミュレーション

UniSim は閉ループシミュレーションテストを実行でき、まず車の挙動を制御することで、危険でまれなシーンを作り出すことができます。例えば、現在の車線に突然対向車が来た場合、UniSim が対応するデータをシミュレーションして生成し、自動運転システムを実行して経路計画の結果を出力し、経路計画の結果に基づいて無人車両が移動します。次の指定された場所に移動し、シーン (無人車両や他の車両の位置) を更新し、引き続きシミュレーションを実行し、自動運転システムを実行し、仮想世界の状態を更新します... この閉ループテストを通じて、自動運転システムとシミュレーション環境が相互作用して、元のデータとはまったく異なるシーンを作成できます

NeRFと自動運転の過去と現在、10本近くの論文をまとめました！

以上がNeRFと自動運転の過去と現在、10本近くの論文をまとめました！の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

NeRFと自動運転の過去と現在、10本近くの論文をまとめました！

1. Nerf の始まり 書き換えられた内容は次のとおりです: NeRF: ビュー合成のためのシーンの神経放射フィールド表現。 ECCV2020

CVPR2020の研究内容は、アウトドアのボーダレスシーンに関するものです。その中で、Mip-NeRF 360: Boundless anti-aliasing neural radio field は研究方向の 1 つです。

#書き換える必要がある内容は次のとおりです。ボクセルと暗黙的な特徴の混合シーン表現を表示 (SIGGRAPH 2022)>>マルチ解像度ハッシュでエンコードされたリアルタイム ニューログラフィック プリミティブ

4. F2-NeRF

リアルタイムレンダリング モバイル アプリケーションにはメッシュをエクスポートする Nerf の機能が実装されており、この技術は CVPR2023 カンファレンスで採用されました。

6.Co-SLAM

7.Neuralangelo

初のオープンソース自動運転 NeRF シミュレーション ツール。

9.UniOcc

#10 で 3 位にランクされました。 Unisim

1. Nerf の始まり書き換えられた内容は次のとおりです: NeRF: ビュー合成のためのシーンの神経放射フィールド表現。 ECCV2020

#書き換える必要がある内容は次のとおりです。ボクセルと暗黙的な特徴の混合シーン表現を表示 (SIGGRAPH 2022)>>マルチ解像度ハッシュでエンコードされたリアルタイムニューログラフィックプリミティブ

リアルタイムレンダリングモバイルアプリケーションにはメッシュをエクスポートする Nerf の機能が実装されており、この技術は CVPR2023 カンファレンスで採用されました。

初のオープンソース自動運転 NeRF シミュレーションツール。