Kaedah pembelajaran mendalam hari ini memberi tumpuan kepada mereka bentuk fungsi objektif yang paling sesuai supaya keputusan ramalan model paling hampir dengan situasi sebenar. Pada masa yang sama, seni bina yang sesuai mesti direka bentuk untuk mendapatkan maklumat yang mencukupi untuk ramalan. Kaedah sedia ada mengabaikan fakta bahawa apabila data input mengalami pengekstrakan ciri lapisan demi lapisan dan transformasi spatial, sejumlah besar maklumat akan hilang. Artikel ini akan menyelidiki isu penting apabila menghantar data melalui rangkaian dalam, iaitu kesesakan maklumat dan fungsi boleh balik. Berdasarkan ini, konsep maklumat kecerunan boleh atur cara (PGI) dicadangkan untuk menghadapi pelbagai perubahan yang diperlukan oleh rangkaian dalam untuk mencapai pelbagai objektif. PGI boleh menyediakan maklumat input lengkap untuk tugas sasaran untuk mengira fungsi objektif, dengan itu mendapatkan maklumat kecerunan yang boleh dipercayai untuk mengemas kini berat rangkaian. Di samping itu, seni bina rangkaian ringan baharu-Generalized Efficient Layer Aggregation Network (GELAN) berdasarkan perancangan laluan kecerunan direka.
Hasil pengesahan menunjukkan seni bina GELAN memperoleh kelebihan ketara melalui PGI pada model ringan. Eksperimen pada set data MS COCO menunjukkan bahawa GELAN yang digabungkan dengan PGI boleh mencapai penggunaan parameter yang lebih baik daripada kaedah terkini berdasarkan lilitan mendalam menggunakan hanya pengendali lilitan tradisional. Kepelbagaian PGI menjadikannya sesuai untuk pelbagai model, daripada model ringan hingga besar. Dengan PGI, model dimaklumkan sepenuhnya, jadi adalah mungkin untuk mencapai hasil yang lebih baik menggunakan model yang dilatih dari awal daripada model terkini yang dipralatih pada set data yang besar.
Alamat artikel: https://arxiv.org/pdf/2402.13616
Pautan kod: https://github.com/WongKinYiu/yolov9
Penyasaran MSCO-masa sebenar Hasil perbandingan pengesan menunjukkan bahawa kaedah pengesanan sasaran berdasarkan GELAN dan PGI adalah jauh mendahului kaedah sebelumnya yang dilatih dari awal dari segi prestasi pengesanan sasaran. Kaedah baharu ini mengatasi RT DETR, yang bergantung pada pra-latihan set data yang besar, dari segi ketepatan, dan juga mengatasi prestasi YOLO MS berdasarkan reka bentuk lilitan mendalam dari segi penggunaan parameter. Keputusan ini menunjukkan bahawa kaedah GELAN dan PGI mempunyai potensi kelebihan dalam bidang pengesanan sasaran dan mungkin menjadi pilihan teknologi penting dalam penyelidikan dan aplikasi masa hadapan.
Seperti yang ditunjukkan dalam rajah di bawah, (a) Rangkaian Pengagregatan Laluan (PAN), (b) Lajur Boleh Balik (RevCol), (c) Penurunan Tradisional penyeliaan, dan (d) Maklumat Kecerunan Boleh Aturcara (PGI) yang dicadangkan oleh YOLOv9.
PGI terutamanya terdiri daripada tiga komponen:
ditunjukkan dalam rajah di bawah, (a) CSPNet, (b) ELAN, dan (c) GELAN yang dicadangkan oleh YOLOv9. Ia meniru CSPNet dan memanjangkan ELAN kepada GELAN, yang boleh menyokong sebarang blok pengkomputeran.
Jadual berikut menyenaraikan perbandingan YOLOv9 dengan pengesan objek masa nyata lain yang dilatih dari awal. Secara keseluruhan, kaedah berprestasi terbaik antara kaedah sedia ada ialah YOLO MS-S untuk model ringan, YOLO MS untuk model sederhana, YOLOv7 AF untuk model umum dan YOLOv8-X untuk model besar. Berbanding dengan YOLO MS model ringan dan sederhana, YOLOv9 mempunyai kira-kira 10% lebih sedikit parameter dan 5∼15% kurang pengiraan, tetapi masih mempunyai peningkatan 0.4∼0.6% dalam AP. Berbanding dengan YOLOv7 AF, YOLOv9-C mempunyai 42% lebih sedikit parameter dan 21% lebih sedikit pengiraan, tetapi mencapai AP yang sama (53%). Berbanding dengan YOLOv8-X, YOLOv9-X mempunyai 15% lebih sedikit parameter, 25% lebih sedikit pengiraan dan peningkatan ketara dalam AP, iaitu 1.7%. Keputusan perbandingan di atas menunjukkan bahawa YOLOv9 bertambah baik dengan ketara berbanding kaedah sedia ada dalam semua aspek.
Kaedah yang mengambil bahagian dalam perbandingan semuanya menggunakan ImageNet sebagai pemberat pra-latihan, termasuk RT DETR, RTMDet dan PP-YOLOE. YOLOv9 menggunakan kaedah latihan gores jelas melebihi prestasi kaedah lain.
Peta ciri (hasil visual): Output mengikut pemberat awal rawak PlainNet, ResNet, CSPNet dan GELAN pada kedalaman yang berbeza. Selepas 100 lapisan, ResNet mula menghasilkan output suapan ke hadapan yang cukup untuk mengelirukan maklumat sasaran. GELAN yang dicadangkan di sini masih boleh mengekalkan maklumat yang cukup lengkap pada lapisan ke-150, dan masih mempunyai keupayaan diskriminasi yang mencukupi pada lapisan ke-200.
Peta ciri PAN (hasil visualisasi) GELAN dan YOLOv9 (GELAN + PGI): Selepas pusingan pemanasan berat sebelah. GELAN mempunyai sedikit perbezaan awal, tetapi selepas menambah cawangan boleh balik PGI, ia lebih mampu memfokus pada objek sasaran.
Hasil visualisasi peta ciri keluaran berat awal rawak untuk seni bina rangkaian yang berbeza: (a) imej input, (b) PlainNet, (c) ResNet, (d) CSPNet dan (e) cadangan GELAN . Ia boleh dilihat daripada rajah bahawa dalam seni bina yang berbeza, tahap maklumat yang diberikan untuk mengira kehilangan fungsi objektif adalah berbeza, dan seni bina kami boleh mengekalkan maklumat yang paling lengkap dan memberikan maklumat kecerunan yang paling boleh dipercayai untuk mengira fungsi objektif.
Artikel ini mencadangkan untuk menggunakan PGI untuk menyelesaikan masalah kesesakan maklumat dan masalah bahawa mekanisme pengawasan yang mendalam tidak sesuai untuk rangkaian saraf ringan. GELAN direka bentuk, rangkaian neural yang cekap dan ringan. Dari segi pengesanan sasaran, GELAN menunjukkan prestasi yang kukuh dan stabil di bawah modul pengkomputeran dan tetapan kedalaman yang berbeza. Ia sememangnya boleh berskala secara meluas kepada model yang sesuai untuk pelbagai peranti inferens. Sebagai tindak balas kepada dua masalah di atas, pengenalan PGI membolehkan kedua-dua model ringan dan model dalam mencapai peningkatan yang ketara dalam ketepatan. YOLOv9, yang direka dengan menggabungkan PGI dan GELAN, menunjukkan daya saing yang kukuh. Reka bentuknya yang sangat baik membolehkan model dalam mengurangkan bilangan parameter sebanyak 49% dan jumlah pengiraan sebanyak 43% berbanding dengan YOLOv8, tetapi masih mencapai peningkatan AP 0.6% pada set data MS COCO.
Pautan asal: https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw
Atas ialah kandungan terperinci YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!