UniOcc: 視覚中心の占有予測を幾何学的およびセマンティックレンダリングと統合します。-AI-php.cn

UniOcc: 視覚中心の占有予測を幾何学的およびセマンティックレンダリングと統合します。

王林

リリース： 2023-09-16 20:29:10

転載

679 人が閲覧しました

原題: UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering

論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/pdf/2306.09117.pdf

UniOcc: 視覚中心の占有予測を幾何学的およびセマンティックレンダリングと統合します。

ペーパーアイデア:

この技術レポートでは、CVPR 2023 ビジョン中心の nuScenes で使用するための UniOCC と呼ばれるソリューションを提案します。 3D 占有予測軌跡は、Open Dataset Challenge で実行されます。既存の占有予測方法は、主に 3D 占有ラベルを使用して 3D 体積空間の投影特性を最適化することに重点を置いています。ただし、これらのラベルの生成プロセスは非常に複雑でコストがかかり（3D セマンティックアノテーションに依存）、ボクセル解像度によって制限され、きめ細かい空間セマンティクスを提供できません。この制限に対処するために、空間幾何学的制約を明示的に課し、ボリュームレイレンダリングによるきめ細かいセマンティック監視を補足する、新しい統合占有 (UniOcc) 予測方法を提案します。私たちの方法はモデルのパフォーマンスを大幅に向上させ、手動によるアノテーションのコスト削減に大きな可能性を示しています。 3D 占有状況に注釈を付ける手間を考慮して、ラベルなしデータを使用して予測精度を向上させるために、深さを認識した教師生徒 (DTS) フレームワークをさらに提案します。当社のソリューションは、公式の単一モデルランキングで 51.27% の mIoU を達成し、この課題で 3 位にランクされました

ネットワーク設計:

こちらこの課題の一環として、この文書では次のことを提案します。 UniOcc は、ボリュームレンダリングを利用して 2D 表現と 3D 表現の監視を統合し、マルチカメラ占有予測モデルを改善する一般的なソリューションです。このペーパーでは、新しいモデルアーキテクチャを設計するのではなく、多用途かつプラグアンドプレイの方法で既存のモデル [3、18、20] を強化することに焦点を当てています。

次のように書き直します: この論文では、表現を NeRF スタイルの表現にアップグレードすることで、ボリュームレンダリングを使用して 2D セマンティックマップと深度マップを生成する機能を実装します [1,15,21]。これにより、2D ピクセルレベルでのきめ細かい監視が可能になります。 3 次元ボクセルをレイサンプリングすることにより、レンダリングされた 2 次元ピクセルセマンティクスと深度情報を取得できます。幾何学的オクルージョン関係とセマンティック一貫性制約を明示的に統合することにより、この論文はモデルに明示的なガイダンスを提供し、これらの制約への準拠を保証します。UniOcc には高価な 3D セマンティックアノテーションの必要性を削減する可能性があることは言及する価値があります。 3D 占有ラベルがない場合、ボリュームレンダリング監視のみを使用してトレーニングされたモデルは、3D ラベル監視を使用してトレーニングされたモデルよりもさらに優れたパフォーマンスを発揮します。これは、シーン表現を手頃な価格の 2D セグメンテーションラベルから直接学習できるため、高価な 3D セマンティックアノテーションへの依存を軽減できる素晴らしい可能性を強調しています。さらに、SAM [6] や [14,19] などの高度なテクノロジーを使用すると、2D セグメンテーションアノテーションのコストをさらに削減できます。

この記事では、自己教師ありトレーニング方法であるディープセンシング教師-生徒 (DTS) フレームワークについても紹介します。従来の Mean Teacher とは異なり、DTS は教師モデルの詳細な予測を強化し、ラベルなしのデータを利用しながら安定した効果的なトレーニングを実現します。さらに、このペーパーでは、モデルのパフォーマンスを向上させるために、いくつかのシンプルだが効果的な手法を適用します。これには、トレーニングでの可視マスクの使用、より強力な事前トレーニングされたバックボーンネットワークの使用、ボクセル解像度の向上、およびテスト時データ拡張 (TTA) の実装が含まれます。 UniOcc フレームワークの概要: 図 1

UniOcc: 視覚中心の占有予測を幾何学的およびセマンティックレンダリングと統合します。図 2。奥行きを意識した教師と生徒のフレームワーク。

実験結果:

UniOcc: 視覚中心の占有予測を幾何学的およびセマンティックレンダリングと統合します。

#引用:

UniOcc: 視覚中心の占有予測を幾何学的およびセマンティックレンダリングと統合します。

Pan, M.、Liu, L.、Liu, J.、Huang, P.、Wang, L.、Zhang, S.、Xu, S.、Lai, Z.、Yang, K. (2023) 。 UniOcc: 幾何学的レンダリングとセマンティックレンダリングを視覚中心の 3D 占有予測と統合します。 ArXiv。 / abs / 2306.09117

UniOcc: 視覚中心の占有予測を幾何学的およびセマンティックレンダリングと統合します。