自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明-AI-php.cn

環境認識は自動運転における最初のリンクであり、車両と環境の間のリンクです。自動運転システムの全体的なパフォーマンスは、知覚システムの品質に大きく依存します。現在、環境認識技術の主流は 2 つの技術ルートがあります:

① ビジョン主導のマルチセンサー融合ソリューション (代表的なのはテスラ)

② ライダー主導、その他のセンサー支援された技術ソリューション、Google、Baidu などの代表的な代表者。

環境認知における主要な視覚認知アルゴリズムを紹介し、そのタスク範囲と技術分野を下図に示します。以下で 2D および 3D 視覚認識アルゴリズムのコンテキストと方向性を確認します。

自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

#2D 視覚認識

このセクションでは、まず、広く使用されているいくつかのタスクから始めて 2D 視覚認識アルゴリズムを紹介します。これには、画像またはビデオベースの 2D オブジェクトの検出と追跡、2D シーンのセマンティックセグメンテーションが含まれます。近年、ディープラーニングは視覚のさまざまな分野に浸透し、良好な成果を上げているため、いくつかの古典的なディープラーニングアルゴリズムを整理しました。

1. ターゲットの検出

1.1 2 段階の検出

2 段階とは、目標を達成するための 2 つの方法を指します。検出には物体の領域を抽出する処理と、CNNによる領域の分類・同定の2つの処理があるため、候補領域（領域提案）に基づく物体検出とも呼ばれます。代表的なアルゴリズムとしては、R-CNNシリーズ（R-CNN、Fast R-CNN、Faster R-CNN）などがあります。より高速な R-CNN は、初のエンドツーエンド検出ネットワークです。第 1 段階では、領域候補ネットワーク (RPN) を使用して特徴マップに基づいて候補フレームを生成し、ROIPooling を使用して候補特徴のサイズを調整します。第 2 段階では、完全接続レイヤーを使用して洗練された分類と回帰。

アンカーのアイデアは、計算の難しさを軽減し、速度を上げるためにここで提案されています。特徴マップの各位置により、さまざまなサイズとアスペクト比のアンカーが生成され、オブジェクトフレーム回帰の参照として使用されます。アンカーの導入により、回帰タスクは比較的小さな変更のみを処理できるため、ネットワークの学習が容易になります。以下の図は Faster R-CNN のネットワーク構成図です。

自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

CascadeRCNN の最初のステージは Faster R-CNN とまったく同じで、2 番目のステージはカスケードに複数の RoiHead レイヤーを使用します。その後の作業は主に、上記のネットワークのいくつかの改善、または以前の作業の寄せ集めを中心に展開されており、画期的な改善はほとんどありません。

1.2 一段階検出

二段階アルゴリズムと比較して、一段階アルゴリズムでは、ターゲット検出を達成するために特徴を 1 回抽出するだけで済みます。の方が高速ですが、一般に精度はわずかに低くなります。このタイプのアルゴリズムの先駆者は YOLO であり、その後 SSD や Retinanet によって改良されました。YOLO を提案したチームは、これらのパフォーマンス向上に役立つトリックを YOLO アルゴリズムに統合し、その後 YOLOv2 ～ YOLOv5 の 4 つの改良バージョンを提案しました。 YOLO は 2 段階のターゲット検出アルゴリズムに比べて予測精度は劣りますが、実行速度が速いため、業界の主流となっています。以下の図はYOLO v3のネットワーク構成図です。

自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

1.3 アンカーフリー検出 (アンカー検出なし)

このタイプの方法は、通常、オブジェクトをいくつかのキーポイントとして表します。 CNN は、これらのキーポイントの位置を返すために使用されます。キーポイントは、オブジェクトフレームの中心点 (CenterNet)、コーナーポイント (CornerNet)、または代表点 (RepPoints) です。 CenterNet は、ターゲット検出問題を中心点予測問題に変換します。つまり、ターゲットを表すためにターゲットの中心点を使用し、ターゲットの中心点のオフセット、幅、高さを予測することによってターゲットの長方形のフレームを取得します。ヒートマップは分類情報を表し、カテゴリごとに個別のヒートマップが生成されます。各ヒートマップでは、特定の座標にターゲットの中心点が含まれる場合、ターゲットにキーポイントが生成されます。キーポイント全体をガウス円を使用して表現します。具体的な詳細は次の図に示されています。

自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

RepPoints は、オブジェクトを代表点セットとして表現し、変形可能な畳み込みを通じてオブジェクトの形状変化に適応することを提案します。点セットは最終的にオブジェクトフレームに変換され、手動アノテーションとの差異を計算するために使用されます。

1.4 変圧器の検出

一段階ターゲット検出であろうと二段階ターゲット検出であろうと、アンカーが使用されるかどうかにかかわらず、アテンションメカニズムは十分に活用されていません。この状況に対応して、Relation Net と DETR は Transformer を使用して、ターゲット検出の分野にアテンションメカニズムを導入します。 Relation Net は、Transformer を使用して異なるターゲット間の関係をモデル化し、関係情報を機能に組み込み、機能の強化を実現します。 DETR は Transformer に基づいた新しいターゲット検出アーキテクチャを提案し、ターゲット検出の新時代を切り開きます。次の図は DETR のアルゴリズムプロセスです。最初に CNN を使用して画像の特徴を抽出し、次に Transformer を使用してグローバルな空間関係をモデル化します。最後に、の出力は、二部グラフマッチングアルゴリズムを通じて手動の注釈と照合されます。

自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

以下の表の精度は MS COCO データベースの mAP を指標として使用し、速度は FPS によって測定されます。上記のアルゴリズムの一部と比較すると、ネットワークの構造設計にはさまざまな選択肢があり (入力サイズの違い、バックボーンネットワークの違いなど)、各アルゴリズムの実装ハードウェアプラットフォームも異なるため、精度と速度を完全に比較することはできません。あくまで大まかな結果ですのでご参考までに。

自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

2. ターゲット追跡

自動運転アプリケーションでは、入力はビデオデータであり、追跡する必要があるターゲットが多数あります。車両、歩行者、自転車などに注意してください。したがって、これは典型的な複数オブジェクト追跡タスク (MOT) です。 MOT タスクでは、現在最も一般的なフレームワークは Tracking-by-Detection であり、そのプロセスは次のとおりです:

① ターゲット検出器は、単一フレーム画像上のターゲットフレーム出力を取得します。 #② 検出された各ターゲットの特徴 (通常は視覚的特徴と動きの特徴を含む) を抽出します。

##③ 特徴に基づいて隣接するフレームからのターゲット検出間の類似性を計算し、それらが同じターゲットからのものである確率を決定します。

④ 隣接するフレーム内のターゲット検出を照合し、同じターゲットからのオブジェクトに同じ ID を割り当てます。

ディープラーニングは上記の 4 つのステップで適用されますが、最初の 2 つのステップが主要なステップです。ステップ 1 では、深層学習の適用は主に高品質の物体検出器を提供することであるため、一般に精度の高い方法が選択されます。 SORTは、Faster R-CNNに基づく物体検出手法であり、カルマンフィルターアルゴリズムのハンガリーアルゴリズムを使用することで、複数物体追跡の速度を大幅に向上させ、SOTAの精度を実現しており、実用的に広く使用されているアルゴリズムでもあります。。ステップ 2 では、深層学習のアプリケーションは主に CNN を使用してオブジェクトの視覚的特徴を抽出します。 DeepSORTの最大の特徴は、外観情報を追加し、ReIDモジュールを借用して深層学習の特徴を抽出し、IDスイッチの数を削減することです。全体的なフローチャートは次のとおりです。

#さらに、同時検出と追跡のフレームワークもあります。代表的な CenterTrack などは、以前紹介した 1 段階のアンカーレス検出アルゴリズム CenterNet から派生したものです。 CenterNet と比較すると、CenterTrack は前のフレームの RGB イメージとオブジェクト中心のヒートマップを追加入力として追加し、前後のフレーム間の関連付けのための Offset ブランチを追加します。マルチステージの検出による追跡と比較して、CenterTrack はネットワークを使用して検出および照合ステージを実装するため、MOT の速度が向上します。自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

3. セマンティックセグメンテーション

セマンティックセグメンテーションは、自動運転の車線境界線検出タスクと走行可能領域検出タスクの両方で使用されます。代表的なアルゴリズムとしてはFCN、U-Net、DeepLabシリーズなどがあります。 DeepLab は、拡張コンボリューションと ASPP (Atrous Spatial Pyramid Pooling) 構造を使用して、入力画像に対してマルチスケール処理を実行します。最後に、従来のセマンティックセグメンテーション手法で一般的に使用されている条件付きランダムフィールド (CRF) を使用して、セグメンテーション結果を最適化します。以下の図は DeepLab v3 のネットワーク構造です。

#近年の STDC アルゴリズムは、U-Net アルゴリズムの複雑なデコーダ構造を取り除き、FCN アルゴリズムと同様の構造を採用しています。しかし同時に、ネットワークダウンサンプリングのプロセスで、ARM モジュールを使用して異なるレイヤーの特徴マップからの情報を継続的に融合することで、単一ピクセルの関係のみを考慮する FCN アルゴリズムの欠点を回避します。 STDC アルゴリズムは速度と精度のバランスが取れており、自動運転システムのリアルタイム要件を満たすことができると言えます。アルゴリズムの流れを以下の図に示します。自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

3D視覚認識

このセクションでは、自動運転に不可欠な3Dシーン認識について紹介します。なぜなら、奥行き情報や対象物の三次元サイズなどは二次元知覚では得られず、自動運転システムが周囲の環境を正しく判断するための鍵となる情報だからです。 3D 情報を取得する最も直接的な方法は、LiDAR を使用することです。ただし、LiDARにはコストが高い、車載グレードの製品の量産が難しい、天候の影響が大きいなどの欠点もあります。したがって、カメラのみに基づいた 3D 知覚は依然として非常に意味があり、価値のある研究方向です. 次に、単眼と両眼に基づいたいくつかの 3D 知覚アルゴリズムを整理します。

1. 単眼 3D 認識

単一のカメラ画像に基づいて 3D 環境を認識することは不適切な問題ですが、幾何学的な仮定 (たとえば、地上のピクセルなど）、解決に役立つ事前知識または追加情報（深度推定など）。今回は、自動運転を実現するための2つの基本タスク（3Dターゲット検出と深度推定）から関連アルゴリズムを紹介します。

1.1 3D ターゲット検出

自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

#表現変換 (疑似ライダー): 視覚センサーによる他の周囲車両の検出は通常、次の場合に行われます。オクルージョンや距離測定不能などの問題が発生した場合は、透視図を鳥瞰図表現に変換できます。ここでは 2 つの変換方法を紹介します。 1 つ目は、すべてのピクセルが地面にあり、カメラの外部パラメータが正確であることを前提とした逆遠近マッピング (IPM) です。このとき、ホモグラフィー変換を使用して画像を BEV に変換し、次に、 YOLO ネットワークは、ターゲットの地上フレームを検出するために使用されます。 2 つ目は直交特徴変換 (OFT) で、ResNet-18 を使用して遠近感のある画像特徴を抽出します。次いで、投影されたボクセル領域にわたって画像ベースの特徴を蓄積することによって、ボクセルベースの特徴が生成される。

その後、ボクセルフィーチャは垂直に折り畳まれて、直交する地表フィーチャが生成されます。最後に、ResNet に似た別のトップダウンネットワークが 3D オブジェクト検出に使用されます。これらの方法は、地面に近い車両と歩行者にのみ適しています。交通標識や信号機などの非地上ターゲットの場合、3D 検出のための深度推定を通じて擬似点群を生成できます。擬似 LiDAR は、まず深度推定結果を使用して点群を生成し、次に LIDAR ベースの 3D ターゲット検出器を直接適用して 3D ターゲットフレームを生成します。アルゴリズムフローは、次の図に示されています。

# ポイントと 3D モデル：車両や歩行者などの検出対象の大きさや形状は比較的固定的で既知であるため、これらを事前知識として利用して車両の 3D 情報を推定することができます。ターゲット。 DeepMANTA は、この方向における先駆的な作品の 1 つです。まず、Faster RNN などのいくつかのターゲット検出アルゴリズムを使用して 2D ターゲットフレームを取得し、ターゲットのキーポイントも検出します。次に、これらの 2D ターゲットフレームとキーポイントがデータベース内のさまざまな 3D 車両 CAD モデルと照合され、最も類似性の高いモデルが 3D ターゲット検出の出力として選択されます。 MonoGRNet は、単眼 3D ターゲット検出を 2D ターゲット検出、インスタンスレベルの深度推定、投影された 3D 中心推定、およびローカルコーナー回帰の 4 つのステップに分割することを提案しており、アルゴリズムフローは次の図に示されています。このタイプの方法は、ターゲットが比較的固定された形状モデルを持っていることを前提としています。これは車両にとっては一般に満足ですが、歩行者にとっては比較的困難です。自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

2D/3D 幾何学的制約: 3D 中心の投影と大まかなインスタンスの深さを回帰し、両方を使用して大まかな 3D 位置を推定します。先駆的な研究は Deep3DBox で、最初に 2D ターゲットボックス内の画像特徴を使用してターゲットのサイズと方向を推定します。次に、中心点の 3D 位置が 2D/3D 幾何拘束によって解決されます。この制約は、画像上の 3D ターゲットフレームの投影が 2D ターゲットフレームに密接に囲まれている、つまり 3D ターゲットフレームの少なくとも 1 つのコーナーポイントが 2D ターゲットフレームの両側に存在するということです。事前に予測されたサイズと方向をカメラのキャリブレーションパラメーターと組み合わせることで、中心点の 3D 位置を計算できます。 2D ターゲットボックスと 3D ターゲットボックスの間の幾何学的制約を次の図に示します。 Shift R-CNN は、Deep3DBox に基づいて、以前に取得した 2D ターゲットボックス、3D ターゲットボックス、およびカメラパラメーターを入力として組み合わせ、完全に接続されたネットワークを使用して、より正確な 3D 位置を予測します。自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

3DBox を直接生成: この方法は、密な 3D ターゲット候補ボックスから開始し、2D 画像上の特徴に基づいてすべての候補ボックスにスコアを付けます。スコアの高い候補ボックスが最終出力となります。ターゲット検出における従来のスライディングウィンドウ法にある程度似ています。代表的な Mono3D アルゴリズムは、まず、ターゲットの以前の位置 (Z 座標は地上) とサイズに基づいて、密な 3D 候補ボックスを生成します。これらの 3D 候補フレームが画像座標に投影された後、2D 画像上の特徴を統合することによってスコア付けされ、CNN を通じて 2 回目のスコアリングが実行されて、最終的な 3D ターゲットフレームが取得されます。

M3D-RPN は、2D および 3D アンカーを定義するアンカーベースのメソッドです。 2D アンカーは画像上の高密度サンプリングを通じて取得され、3D アンカーはトレーニングセットデータの事前知識 (ターゲットの実際のサイズの平均など) を通じて決定されます。 M3D-RPN は、標準畳み込みと深度認識畳み込みの両方も使用します。前者は空間不変性を持ち、後者は画像の行 (Y 座標) を複数のグループに分割し、各グループは異なるシーンの深度に対応し、異なるコンボリューションカーネルで処理されます。上記の高密度サンプリング方法は、非常に多くの計算を必要とします。 SS3D は、画像内の各関連オブジェクトの冗長表現と対応する不確実性推定値を出力する CNN と 3D バウンディングボックスオプティマイザーを含む、より効率的な単一ステージ検出を使用します。 FCOS3D も 1 段階の検出方法であり、回帰ターゲットは、3D ターゲットフレームの中心を 2D 画像に投影することによって得られる追加の 2.5D 中心 (X、Y、深さ) を追加します。

1.2 奥行き推定

前述の 3D ターゲット検出であっても、2D から 3D に及ぶ自動運転の知覚セマンティックセグメンテーションの別の重要なタスクであっても、詳細または、疎または密の深度情報が適用されます。単眼奥行き推定の重要性は自明であり、その入力は画像であり、出力は各ピクセルに対応するシーンの奥行き値からなる同じサイズの画像です。入力はビデオシーケンスにすることもでき、カメラまたはオブジェクトの動きによってもたらされる追加情報を使用して深度推定の精度を向上させます。教師あり学習と比較して、単眼奥行き推定の教師なし方法は、困難なグラウンドトゥルースデータセットの構築を必要とせず、実装の難易度も低くなります。単眼奥行き推定の教師なし方法は、単眼ビデオシーケンスに基づく方法と、同期されたステレオ画像ペアに基づく 2 つのタイプに分類できます。

前者は、移動するカメラと静止したシーンを前提としています。後者の方法では、Garg らはまず、画像再構成に同時にステレオ補正された両眼画像ペアを使用することを試み、両眼判定によって左右のビューの姿勢関係が得られ、比較的理想的な効果が得られました。これに基づいて、ゴダールらは精度をさらに向上させるために左右の一貫性制約を使用しましたが、層ごとのダウンサンプリングによって高度な特徴を抽出して受容野を増加させる一方で、特徴の解像度も常に低下しており、粒度も低下しています。は常に失われ、詳細なディテールの処理とエッジの明瞭さに影響を与えます。

この問題を軽減するために、Godard らはフル解像度のマルチスケール損失を導入し、低テクスチャ領域でのブラックホールとテクスチャ複製によって生じるアーティファクトを効果的に低減しました。ただし、この精度の向上にはまだ限界があります。最近、すべての段階で大域的な受容野を取得することを目的としたいくつかの Transformer ベースのモデルが無限の流れで出現しており、これは集中的な深度推定タスクにも非常に適しています。教師あり DPT では、ローカルな予測精度とグローバルな予測の一貫性を同時に確保するために、Transformer とマルチスケール構造を使用することが提案されており、次の図はネットワーク構造図です。

自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

2. 両眼視による 3D 認識

両眼視は視点変換による曖昧さを解決できるため、理論的にはそうであると言われています。 3D認識の精度を向上させることができます。ただし、双眼システムにはハードウェアとソフトウェアの点で比較的高い要件があります。ハードウェア的には、正確に登録された 2 台のカメラが必要であり、車両の運行中に登録の精度を確保する必要があります。ソフトウェア的には、アルゴリズムは 2 台のカメラからのデータを同時に処理する必要があり、計算の複雑さが高く、アルゴリズムのリアルタイム性を保証するのが困難です。単眼に比べて、両眼の仕事は比較的少なくなります。次に、3Dターゲット検出と奥行き推定の2つの側面からも簡単に紹介します。

2.1 3D ターゲット検出

3DOP は 2 段階の検出手法であり、Fast R-CNN 手法を 3D 分野に拡張したものです。まず、両眼画像を使用して深度マップが生成されます。深度マップは点群に変換され、グリッドデータ構造に定量化されます。これは、3D ターゲットの候補フレームを生成するための入力として使用されます。以前に紹介した疑似 LiDAR と同様に、(単眼、両眼、または低線数の LiDAR からの) 高密度深度マップが点群に変換され、点群ターゲット検出の分野のアルゴリズムが適用されます。 DSGN は、ステレオマッチングを利用して平面スキャンボリュームを構築し、3D ジオメトリとセマンティック情報をエンコードするためにそれらを 3D ジオメトリに変換します。これは、ステレオマッチングと高度なオブジェクト認識のためにピクセルレベルの特徴を抽出できるエンドツーエンドのフレームワークです。、シーンの深度の推定と 3D オブジェクトの検出を同時に行うことができます。ステレオ R-CNN は、ステレオ入力用に Faster R-CNN を拡張し、左右のビュー内のオブジェクトを同時に検出して関連付けます。 RPN の後に追加のブランチが追加され、まばらなキーポイント、視点、オブジェクトサイズを予測し、左右のビューの 2D 境界ボックスを結合して、粗い 3D オブジェクト境界ボックスを計算します。次に、左右の関心領域の領域ベースのフォトメトリック位置合わせを使用して、正確な 3D バウンディングボックスが復元されます。下の図はそのネットワーク構造です。

自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

2.2 奥行き推定

両眼奥行き推定の原理は非常に単純です。つまり、同じもの間の距離に基づいています。左右のビュー上の 3D 点ピクセル距離 d (2 台のカメラが同じ高さにあると仮定しているため、水平方向の距離のみが考慮されます)、つまり視差、カメラの焦点距離 f、 2台のカメラ間の距離B（基線長）から3D点の奥行きを推定します。式は次のようになり、視差を推定することで奥行きを計算できます。次に、他の画像上でピクセルごとに一致する点を見つけるだけです。

自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明

考えられるそれぞれの d について、各ピクセルでのマッチング誤差を計算できるため、3 次元誤差データのコストボリュームが取得されます。コストボリュームを使用すると、各ピクセルでの視差 (最小マッチングエラーに対応する d) を簡単に取得でき、奥行き値を取得できます。 MC-CNN は、畳み込みニューラルネットワークを使用して 2 つの画像パッチの一致度を予測し、それを使用してステレオマッチングコストを計算します。コストは、交差ベースのコスト集計とセミグローバルマッチングを通じて洗練され、その後、左右の整合性チェックが行われて、遮蔽された領域でのエラーが排除されます。 PSMNet は、後処理を必要としないステレオマッチングのためのエンドツーエンドの学習フレームワークを提案し、グローバルコンテキスト情報を画像特徴に組み込むためのピラミッドプーリングモジュールを導入し、グローバル情報をさらに強化するためのスタック型砂時計 3D CNN を提供します。下図はそのネットワーク構造です。

自動運転における 2D および 3D 視覚認識アルゴリズムの詳細な説明