ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します-AI-php.cn

ターゲット検出の分野では、YOLOv9 は実装プロセスで進歩を続けており、新しいアーキテクチャとメソッドを採用することで、従来の畳み込みのパラメータ利用率が効果的に向上し、パフォーマンスがはるかに優れています。前世代の製品。

YOLOv8 が 2023 年 1 月に正式にリリースされてから 1 年以上が経過し、ついに YOLOv9 が登場しました。

Joseph Redmon 氏、Ali Farhadi 氏らが 2015 年に第一世代の YOLO モデルを提案して以来、ターゲット検出分野の研究者たちはそれを何度も更新し、反復してきました。 YOLO は画像のグローバル情報に基づく予測システムであり、そのモデルのパフォーマンスは継続的に強化されています。アルゴリズムとテクノロジーを継続的に改善することで、研究者は目覚ましい成果を達成し、ターゲット検出タスクにおける YOLO をますます強力にしています。これらの継続的な改善と最適化は、ターゲット検出技術の開発に新たな機会と課題をもたらし、同時にこの分野の進歩と革新を促進してきました。

今回の YOLOv9 は、中央研究院、台湾の台北理工大学などと共同で開発されました。関連論文「Learning What You Want to」プログラマブル勾配情報を使って学ぶ』》を公開しました。

ターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活します

論文アドレス: https://arxiv.org/pdf/2402.13616.pdf

GitHub アドレス: https://github.com/WongKinYiu/ yolov9

今日の深層学習手法は、モデルの予測結果が実際の状況に最も近くなるように、最適な目的関数を設計する方法に焦点を当てています。同時に、予測に十分な情報を取得できる適切なアーキテクチャを設計する必要があります。しかし、既存の方法は、入力データがレイヤーごとの特徴抽出と空間変換を受けるときに大量の情報が失われるという事実を無視しています。

したがって、YOLOv9 は、データが深いネットワークを介して送信されるときのデータ損失の重要な問題、つまり情報ボトルネックと可逆機能を深く研究しています。

研究者らは、複数の目標を達成するためにディープネットワークに必要なさまざまな変化に対処するために、プログラマブル勾配情報 (PGI) の概念を提案しました。 PGI は、目的関数を計算するためのターゲットタスクに完全な入力情報を提供することで、ネットワークの重みを更新するための信頼できる勾配情報を取得できます。

さらに、研究者らは、勾配パス計画に基づいた新しい軽量ネットワークアーキテクチャ、つまり Generalized Efficient Layer Aggregation Network (GELAN) を設計しました。このアーキテクチャにより、PGI が軽量モデルで優れた結果を達成できることが確認されています。

研究者らは、MS COCO データセットに基づいて、ターゲット検出タスクに関して提案された GELAN と PGI を検証しました。結果は、深い畳み込みに基づいて開発された SOTA 手法と比較して、GELAN が従来の畳み込み演算子のみを使用してより優れたパラメーター利用率を達成していることを示しています。

PGIとしては適応力が高く、軽量モデルから大型モデルまで幅広く使用可能です。これを使用して完全な情報を取得できるため、スクラッチからトレーニングしたモデルが、大規模なデータセットを使用して事前トレーニングされた SOTA モデルよりも優れた結果を達成できるようになります。以下の図 1 は、いくつかの比較結果を示しています。

新しくリリースされた YOLOv9 について、YOLOv7、YOLOv4、Scaled-YOLOv4、DPT の開発に参加した Alexey Bochkovskiy 氏は、YOLOv9 は次のように高く評価しました。畳み込みベースまたはトランスフォーマーのオブジェクト検出器よりも優れています。

ソース: https://twitter.com/alexeyab84/status/1760685626247250342 そしてネチズンはこう言ったYOLOv9 は新しい SOTA リアルタイム目標検出器のようであり、独自のカスタムトレーニングチュートリアルも準備中です。

#さらに多くの「勤勉な」ネチズンが YOLOv9 モデルに pip サポートを追加しました。

## 出典: https://twitter.com/kadirnar_ai/status/1760716187896283635

次に YOLOv9 の詳細を見てみましょう。

問題ステートメント
通常、ディープ
ニューラルネットワークの収束困難問題は、勾配の消失や勾配の飽和などの要因によるものだと考えられています。従来のディープニューラルネットワークには確かに存在します。しかし、最新のディープニューラルネットワークは、さまざまな正規化関数と活性化関数を設計することで、上記の問題を根本的に解決しました。しかし、それでも、ディープニューラルネットワークでは、収束速度が遅い、または収束効果が低いという問題がまだあります。では、この問題の本質は何でしょうか？情報ボトルネックの詳細な分析を通じて、研究者らは問題の根本原因を推測しました。非常に深いネットワークから最初に勾配が渡された直後、目標を達成するために必要な情報の多くは、失った。この推論を検証するために、研究者らは初期重みを使用してさまざまなアーキテクチャのディープネットワークに対してフィードフォワード処理を実行しました。図 2 はこれを視覚的に示しています。明らかに、PlainNet は深い層での物体検出に必要な多くの重要な情報を失います。 ResNet、CSPNet、GELAN が保持できる重要な情報の割合に関しては、実際にトレーニング後に取得できる精度と正の相関があります。研究者らはさらに、上記の問題の原因を解決するために、可逆ネットワークに基づく方法を設計しました。

方法の紹介

プログラマブル勾配情報 (PGI)

この研究は、新しい補助監視フレームワークであるプログラマブル勾配情報を提案します。 (PGI)、図 3(d) に示すように。
PGI は主に 3 つの部分、つまり (1) メインブランチ、(2) 補助可逆ブランチ、(3) マルチレベル補助情報から構成されます。

PGI の推論プロセスはメインブランチのみを使用するため、追加の推論コストはありません。

補助的な可逆ブランチはニューラルネットワークの処理に使用されます。深化によって引き起こされる問題、ネットワークの深化は情報のボトルネックを引き起こし、損失関数が信頼性の高い勾配を生成できなくなります。

マルチレベルの補助情報は、エラー蓄積問題に対処するように設計されています。深い監視、特に複数の予測ブランチを持つアーキテクチャと軽量モデルによって引き起こされます。

GELAN ネットワーク

さらに、この研究では、新しいネットワークアーキテクチャ GELAN も提案しています (次の図を参照)。研究者らは、CSPNet と ELAN の 2 つのニューラルネットワークアーキテクチャを組み合わせて、軽量性、推論速度、精度を考慮した一般化された効率的な層集約ネットワーク (GELAN) を設計しました。研究者らは、当初は畳み込み層のスタックのみを使用していた ELAN の機能を、あらゆる計算ブロックを使用できる新しいアーキテクチャに一般化しました。

実験結果
YOLOv9 のパフォーマンスを評価するために、研究ではまず YOLOv9 と、次の方法で訓練された他のリアルタイム物体検出器を比較しました。スクラッチ包括的な比較が行われ、結果が以下の表 1 に示されています。

調査では、ImageNet の事前トレーニング済みモデルも比較に含めました。結果を以下の図 5 に示します。従来の畳み込みを使用する YOLOv9 は、パラメーターの利用においてディープコンボリューションを使用する YOLO MS よりもさらに優れていることは注目に値します。

アブレーション実験
YOLOv9 の各コンポーネントの役割を調査するために、この研究では一連のアブレーション実験を実施しました。
この研究では、まず GELAN のコンピューティングブロックでアブレーション実験が行われました。以下の表 2 に示すように、この研究では、ELAN の畳み込み層を異なる計算ブロックに置き換えることによって、システムが良好なパフォーマンスを維持できることがわかりました。

研究では、次に、ELAN ブロック深さと CSP ブロック深さの異なるサイズの GELAN でアブレーション実験を実施しました。結果を以下の表 3 に示します。
PGI に関して、研究者らは補助可逆枝とバックボーンネットワークと首のマルチレベル補助情報のアブレーション研究をそれぞれ実施しました。表 4 に、すべての実験の結果を示します。表 4 からわかるように、PFH は深いモデルに対してのみ有効ですが、この論文で提案した PGI はさまざまな組み合わせで精度を向上させることができます。

研究者らはさらに、さまざまなサイズのモデルに PGI と深度モニタリングを実装し、結果を比較しました。結果を表 5 に示します。

図 6 は、ベースライン YOLOv7 から YOLOv9-E までコンポーネントを段階的に追加した結果を示しています。

#視覚化
研究者らは情報ボトルネックの問題を調査し、視覚化しました。図 6 は、次の手順で取得した特徴マップの視覚化結果を示しています。ランダムな初期重みをフィードフォワードとして使用するアーキテクチャ。

図 7 は、PGI がトレーニング中により信頼性の高い勾配を提供できるかどうかを示しています。これにより、更新に使用されるパラメーターが入力データとターゲットの間の関係を効果的に捉えることができます。

技術的な詳細については、元の記事を参照してください。

以上がターゲット検出用の新しい SOTA: YOLOv9 が登場し、新しいアーキテクチャにより従来の畳み込みが復活しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。