YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~-AI-php.cn

YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~

王林

Lepaskan： 2024-02-26 11:31:36

ke hadapan

1263 orang telah melayarinya

Kaedah pembelajaran mendalam hari ini memberi tumpuan kepada mereka bentuk fungsi objektif yang paling sesuai supaya keputusan ramalan model paling hampir dengan situasi sebenar. Pada masa yang sama, seni bina yang sesuai mesti direka bentuk untuk mendapatkan maklumat yang mencukupi untuk ramalan. Kaedah sedia ada mengabaikan fakta bahawa apabila data input mengalami pengekstrakan ciri lapisan demi lapisan dan transformasi spatial, sejumlah besar maklumat akan hilang. Artikel ini akan menyelidiki isu penting apabila menghantar data melalui rangkaian dalam, iaitu kesesakan maklumat dan fungsi boleh balik. Berdasarkan ini, konsep maklumat kecerunan boleh atur cara (PGI) dicadangkan untuk menghadapi pelbagai perubahan yang diperlukan oleh rangkaian dalam untuk mencapai pelbagai objektif. PGI boleh menyediakan maklumat input lengkap untuk tugas sasaran untuk mengira fungsi objektif, dengan itu mendapatkan maklumat kecerunan yang boleh dipercayai untuk mengemas kini berat rangkaian. Di samping itu, seni bina rangkaian ringan baharu-Generalized Efficient Layer Aggregation Network (GELAN) berdasarkan perancangan laluan kecerunan direka.

Hasil pengesahan menunjukkan seni bina GELAN memperoleh kelebihan ketara melalui PGI pada model ringan. Eksperimen pada set data MS COCO menunjukkan bahawa GELAN yang digabungkan dengan PGI boleh mencapai penggunaan parameter yang lebih baik daripada kaedah terkini berdasarkan lilitan mendalam menggunakan hanya pengendali lilitan tradisional. Kepelbagaian PGI menjadikannya sesuai untuk pelbagai model, daripada model ringan hingga besar. Dengan PGI, model dimaklumkan sepenuhnya, jadi adalah mungkin untuk mencapai hasil yang lebih baik menggunakan model yang dilatih dari awal daripada model terkini yang dipralatih pada set data yang besar.

Alamat artikel: https://arxiv.org/pdf/2402.13616

Pautan kod: https://github.com/WongKinYiu/yolov9

Prestasi cemerlang

Penyasaran MSCO-masa sebenar Hasil perbandingan pengesan menunjukkan bahawa kaedah pengesanan sasaran berdasarkan GELAN dan PGI adalah jauh mendahului kaedah sebelumnya yang dilatih dari awal dari segi prestasi pengesanan sasaran. Kaedah baharu ini mengatasi RT DETR, yang bergantung pada pra-latihan set data yang besar, dari segi ketepatan, dan juga mengatasi prestasi YOLO MS berdasarkan reka bentuk lilitan mendalam dari segi penggunaan parameter. Keputusan ini menunjukkan bahawa kaedah GELAN dan PGI mempunyai potensi kelebihan dalam bidang pengesanan sasaran dan mungkin menjadi pilihan teknologi penting dalam penyelidikan dan aplikasi masa hadapan.

YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~

Sumbangan artikel ini

secara teorinya menganalisis seni bina rangkaian neural dalam yang sedia ada dari perspektif fungsi boleh balik melalui proses ini, ia berjaya menerangkan banyak fenomena yang sukar dijelaskan pada masa lalu. PGI dan cawangan boleh balik tambahan juga direka bentuk berdasarkan analisis ini dan mencapai keputusan yang cemerlang.
PGI yang direka bentuk menyelesaikan masalah penyeliaan mendalam hanya boleh digunakan untuk seni bina rangkaian saraf yang sangat dalam, menjadikan seni bina ringan baharu benar-benar boleh digunakan untuk kerja harian.
GELAN yang direka bentuk hanya menggunakan lilitan tradisional untuk mencapai penggunaan parameter yang lebih tinggi daripada reka bentuk lilitan dalam berdasarkan teknologi terkini, sambil menunjukkan kelebihan hebat sebagai ringan, pantas dan tepat.
Menggabungkan PGI dan GELAN yang dicadangkan, prestasi pengesanan objek YOLOv9 pada set data MS COCO jauh melebihi pengesan objek masa nyata sedia ada dalam semua aspek.

Kaedah

PGI dan seni bina rangkaian serta kaedah yang berkaitan

Seperti yang ditunjukkan dalam rajah di bawah, (a) Rangkaian Pengagregatan Laluan (PAN), (b) Lajur Boleh Balik (RevCol), (c) Penurunan Tradisional penyeliaan, dan (d) Maklumat Kecerunan Boleh Aturcara (PGI) yang dicadangkan oleh YOLOv9.

YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~

PGI terutamanya terdiri daripada tiga komponen:

cawangan utama: seni bina untuk inferens;
Cawangan boleh balik bantu: menjana kecerunan yang boleh dipercayai untuk penghantaran ke belakang dari cawangan utama
; cabang utama untuk mempelajari maklumat semantik pelbagai peringkat boleh atur cara.

Seni bina GELAN

ditunjukkan dalam rajah di bawah, (a) CSPNet, (b) ELAN, dan (c) GELAN yang dicadangkan oleh YOLOv9. Ia meniru CSPNet dan memanjangkan ELAN kepada GELAN, yang boleh menyokong sebarang blok pengkomputeran.

YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~

Perbandingan hasil

Perbandingan dengan teknik sedia ada

Jadual berikut menyenaraikan perbandingan YOLOv9 dengan pengesan objek masa nyata lain yang dilatih dari awal. Secara keseluruhan, kaedah berprestasi terbaik antara kaedah sedia ada ialah YOLO MS-S untuk model ringan, YOLO MS untuk model sederhana, YOLOv7 AF untuk model umum dan YOLOv8-X untuk model besar. Berbanding dengan YOLO MS model ringan dan sederhana, YOLOv9 mempunyai kira-kira 10% lebih sedikit parameter dan 5∼15% kurang pengiraan, tetapi masih mempunyai peningkatan 0.4∼0.6% dalam AP. Berbanding dengan YOLOv7 AF, YOLOv9-C mempunyai 42% lebih sedikit parameter dan 21% lebih sedikit pengiraan, tetapi mencapai AP yang sama (53%). Berbanding dengan YOLOv8-X, YOLOv9-X mempunyai 15% lebih sedikit parameter, 25% lebih sedikit pengiraan dan peningkatan ketara dalam AP, iaitu 1.7%. Keputusan perbandingan di atas menunjukkan bahawa YOLOv9 bertambah baik dengan ketara berbanding kaedah sedia ada dalam semua aspek.

YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~

Perbandingan dengan pengesan objek masa nyata tercanggih

Kaedah yang mengambil bahagian dalam perbandingan semuanya menggunakan ImageNet sebagai pemberat pra-latihan, termasuk RT DETR, RTMDet dan PP-YOLOE. YOLOv9 menggunakan kaedah latihan gores jelas melebihi prestasi kaedah lain.

YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~

Hasil tervisualisasi

Peta ciri (hasil visual): Output mengikut pemberat awal rawak PlainNet, ResNet, CSPNet dan GELAN pada kedalaman yang berbeza. Selepas 100 lapisan, ResNet mula menghasilkan output suapan ke hadapan yang cukup untuk mengelirukan maklumat sasaran. GELAN yang dicadangkan di sini masih boleh mengekalkan maklumat yang cukup lengkap pada lapisan ke-150, dan masih mempunyai keupayaan diskriminasi yang mencukupi pada lapisan ke-200.

YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~

Peta ciri PAN (hasil visualisasi) GELAN dan YOLOv9 (GELAN + PGI): Selepas pusingan pemanasan berat sebelah. GELAN mempunyai sedikit perbezaan awal, tetapi selepas menambah cawangan boleh balik PGI, ia lebih mampu memfokus pada objek sasaran.

YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~

Hasil visualisasi peta ciri keluaran berat awal rawak untuk seni bina rangkaian yang berbeza: (a) imej input, (b) PlainNet, (c) ResNet, (d) CSPNet dan (e) cadangan GELAN . Ia boleh dilihat daripada rajah bahawa dalam seni bina yang berbeza, tahap maklumat yang diberikan untuk mengira kehilangan fungsi objektif adalah berbeza, dan seni bina kami boleh mengekalkan maklumat yang paling lengkap dan memberikan maklumat kecerunan yang paling boleh dipercayai untuk mengira fungsi objektif.

YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~

Kesimpulan

Artikel ini mencadangkan untuk menggunakan PGI untuk menyelesaikan masalah kesesakan maklumat dan masalah bahawa mekanisme pengawasan yang mendalam tidak sesuai untuk rangkaian saraf ringan. GELAN direka bentuk, rangkaian neural yang cekap dan ringan. Dari segi pengesanan sasaran, GELAN menunjukkan prestasi yang kukuh dan stabil di bawah modul pengkomputeran dan tetapan kedalaman yang berbeza. Ia sememangnya boleh berskala secara meluas kepada model yang sesuai untuk pelbagai peranti inferens. Sebagai tindak balas kepada dua masalah di atas, pengenalan PGI membolehkan kedua-dua model ringan dan model dalam mencapai peningkatan yang ketara dalam ketepatan. YOLOv9, yang direka dengan menggabungkan PGI dan GELAN, menunjukkan daya saing yang kukuh. Reka bentuknya yang sangat baik membolehkan model dalam mengurangkan bilangan parameter sebanyak 49% dan jumlah pengiraan sebanyak 43% berbanding dengan YOLOv8, tetapi masih mencapai peningkatan AP 0.6% pada set data MS COCO.

Pautan asal: https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw

Atas ialah kandungan terperinci YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!