現在、検出効率と検出結果の適切なバランスを取ることは困難です。我々は、光学リモートセンシング画像におけるターゲット検出ネットワークの効果を向上させるために、多層特徴ピラミッド、マルチ検出ヘッド戦略、およびハイブリッドアテンションモジュールを使用して、高解像度光学リモートセンシング画像におけるターゲット検出のための強化されたYOLOv5アルゴリズムを開発しました。 SIMD データセットによると、新しいアルゴリズムの mAP は YOLOv5 より 2.2%、YOLOX より 8.48% 優れており、検出結果と速度のバランスがより優れています。
リモートセンシング技術の急速な発展により、航空機、自動車、建物など、地表上の多くの物体を記述するために高解像度の光学リモートセンシング画像が使用されてきました。物体検出は、リモート センシング画像の解釈において重要な役割を果たし、リモート センシング画像のセグメント化、説明、ターゲット追跡に使用できます。ただし、従来のほとんどのデータセットには地上ビューが含まれているのに対し、航空光学式リモート センシング画像は、比較的広い視野と高高度の必要性により、スケールの多様性、視点の特異性、ランダムな向き、背景の複雑さの高さを示します。その結果、人工的な特徴検出を構築するために使用される技術には、従来、精度と速度に大きな違いがあるという記録がありました。社会のニーズと深層学習の発展の支援により、光学式リモートセンシング画像におけるターゲット検出にニューラルネットワークを使用することが必要となっています。
現在、深層学習を組み合わせて光学式リモートセンシング写真を分析するターゲット検出アルゴリズムは、教師あり、教師なし、弱教師ありの 3 つのタイプに分類できます。ただし、教師なしアルゴリズムや弱く教師ありのアルゴリズムは複雑で不確実性があるため、教師ありアルゴリズムが最も一般的に使用されます。さらに、教師あり物体検出アルゴリズムは 1 段階または 2 段階に分けることができます。航空機は通常空港に位置し、船舶は通常港や海洋に位置するという仮定に基づいて、ダウンサンプリングされた星画像で空港と港を検出し、検出された物体を元の超高解像度衛星画像にマッピングし直すことで、検出することができます。異なるサイズのオブジェクトを同時に。一部の研究者は、ターゲット方向のランダム化問題を解決することにより、リモートセンシング画像におけるターゲット検出の精度を向上させる、RCNN に基づく回転ターゲット検出方法を提案しました。
現在の YOLO シリーズ検出ヘッドのほとんどは FPN および PAFPN の出力特性に基づいています。その中で、YOLOv3 などの FPN ベースのネットワークとそのバリアントを図に示します。以下に、一方向融合機能を出力に直接利用します。 PAFPN アルゴリズムに基づく YOLOv4 および YOLOv5 は、これに基づいて低レベルから高レベルへのチャネルを追加し、低レベル信号を上向きに直接送信します (下図 b)。
上の図に示すように、一部の研究では、TPH-YOLOv5 モデルの特定の検出タスクのために検出ヘッドが追加されました。上の図 b と図 c では、PAFPN 機能のみが出力に使用でき、FPN 機能は十分に活用されていません。したがって、上の図 d に示すように、YOLOv7 は 3 つの補助ヘッドを FPN 出力に接続しますが、補助ヘッドは「粗い選択」にのみ使用され、重み評価は低くなります。 SSDの検出ヘッドはYOLOネットワークのラフすぎるアンカーセット設計を改善するために提案されており、マルチスケールに基づいた緻密なアンカー設計構成を提案している。図 f に示すように、この戦略では PANet と FPN の機能情報を同時に利用できます。さらに、出力を直接追加する 64 倍のダウンサンプリング プロセスがあり、ネットワークに以前のグローバル情報が含まれるようになります。
マルチ検出ヘッド方式は、ネットワークの出力機能を有効に活用できます。改良された YOLO は、高解像度のリモート センシング写真用の物体検出ネットワークです。以下の図に示すように:
バックボーン ネットワークの基本構造は、C3 モジュールと畳み込みモジュールをコアとした CSP 高密度ネットワークです。データ拡張後、画像がネットワークに供給され、カーネル サイズ 6 の Conv モジュールによるチャネル ミキシングの後、多くの畳み込みモジュールが特徴の取得を実行します。 SPPF と呼ばれる機能拡張モジュールの後、Neck の PANet に接続されます。ネットワークの検出能力を向上させるために、双方向の特徴融合が実行されます。 Conv2d は、融合されたフィーチャ レイヤーを個別に拡張してマルチレイヤー出力を生成するために使用されます。以下の図に示すように、NMS アルゴリズムはすべての単層検出器の出力を結合して、最終的な検出フレームを生成します。
以下の図 b は、改良された YOLO ネットワークの各モジュールの構造構成を示しています。
Conv には 2D 畳み込み層、BN 層のバッチ正規化と Silu 活性化関数が含まれ、C3 には 2 つの 2D 畳み込み層とボトルネック層が含まれ、Upsample はアップサンプリング層です。 SPPF モジュールは SPP モジュールのアクセラレーション バージョンであり、MAB モジュールは前述のとおり、ECA は左下隅に示されているとおりです。次元削減を行わずにチャネルレベルのグローバル平均プーリングを行った後、サイズ k の高速 1D 畳み込みを使用してローカルのクロスチャネルインタラクション情報を取得し、各チャネルとその k 個の隣接チャネルの関係を考慮して、ECA を効率的に実行します。上記の 2 つの変換は、2 つの空間方向に沿って特徴を収集し、一対の方向認識特徴マップを生成します。その後、これらが連結され、畳み込み関数とシグモイド関数を使用して変更され、アテンション出力が提供されます。
SIMD データセットは、マルチ カテゴリ、オープン ソース、高解像度のリモート センシング物体検出データセットであり、図 4 に示すように、合計 15 のカテゴリが含まれています。さらに、SIMD データセットは中小規模のターゲット (w
SPPF モジュールの出力を出力ヘッダーに接続して、画像内の大きなターゲットを識別できます。ただし、SPPF モジュールの出力には複数の接続があり、複数のスケールのターゲットが含まれるため、大きなオブジェクトを識別するために検出ヘッドに直接使用すると、上の図に示すように、モデルの表現が不十分になります。 MAB モジュール 一部の検出結果のヒートマップを視覚的に比較します。 MAB モジュールを追加した後、検出ヘッドは大きなターゲットの検出に重点を置き、小さなターゲットの予測を他の予測ヘッドに割り当てます。これにより、モデルの表現効果が向上し、ターゲットに基づいて検出ヘッドを分割する要件により適合します。 YOLO アルゴリズムのサイズ。
いくつかのテスト結果を上の写真に示します。それぞれの検出結果から判断すると、他のアルゴリズムと大きな違いはありませんが、私たちが研究したアルゴリズムは、他のアルゴリズムと比較して、時間の大幅な増加を避けながらモデルの検出効果を向上させ、アテンションメカニズムを使用しています。モデルの表現効果を高めます。
以上が改良された検出アルゴリズム: 高解像度の光学式リモートセンシング画像でのターゲット検出用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。