Seperti yang dinyatakan dalam catatan blog sebelum ini, YOLOv8 menunjukkan prestasi yang sangat baik dalam Analisis Reka Letak Dokumen. Saya melatih semua model daripada siri YOLOv8 oleh kumpulan data DocLayNet dan mendapati bahawa model terkecil pun mencapai keseluruhan mAP50-95 71.8, manakala model terbesar mencapai 78.7 yang mengagumkan.
Baru-baru ini, Ultralytics mengeluarkan YOLOv11, lelaran terkini dalam siri YOLO pengesan objek masa nyata mereka. Versi baharu ini membawa peningkatan ketara kepada kedua-dua seni bina dan kaedah latihan.
? Hasilnya nampak menjanjikan! Saya memutuskan untuk melatih semua model YOLOv11 pada set data DocLayNet sekali lagi dan membandingkannya dengan siri YOLOv8 sebelumnya.
Untuk percubaan ini, saya terus menggunakan repositori saya https://github.com/ppaanngggg/yolo-doclaynet untuk menyediakan data dan melatih model menggunakan skrip tersuai saya. Pendekatan ini memastikan ketekalan dalam penyediaan data dan proses latihan, membolehkan perbandingan yang saksama antara model YOLOv8 dan YOLOv11.
Proses latihan dan penilaian untuk model YOLOv11 adalah mudah dan boleh dilaksanakan dengan arahan baris perintah yang mudah:
# To train the model python train.py {base-model} # To evaluate the model python eval.py {path-to-your-trained-model}
Berikut ialah jadual penilaian terperinci yang membandingkan model YOLOv8 dengan YOLOv11:
label | boxes | yolov8n | yolov11n | yolov8s | yolov11s | yolov8m | yolov11m | yolov8l | yolov11l | yolov8x | yolov11x |
---|---|---|---|---|---|---|---|---|---|---|---|
Params (M) | 3.2 | 2.6 | 11.2 | 9.4 | 25.9 | 20.1 | 43.7 | 25.3 | 68.2 | 56.9 | |
Caption | 1542 | 0.682 | 0.717 | 0.721 | 0.744 | 0.746 | 0.746 | 0.75 | 0.772 | 0.753 | 0.765 |
Footnote | 387 | 0.614 | 0.634 | 0.669 | 0.683 | 0.696 | 0.701 | 0.702 | 0.715 | 0.717 | 0.71 |
Formula | 1966 | 0.655 | 0.673 | 0.695 | 0.705 | 0.723 | 0.729 | 0.75 | 0.75 | 0.747 | 0.765 |
List-item | 10521 | 0.789 | 0.81 | 0.818 | 0.836 | 0.836 | 0.843 | 0.841 | 0.847 | 0.841 | 0.845 |
Page-footer | 3987 | 0.588 | 0.591 | 0.61 | 0.621 | 0.64 | 0.653 | 0.641 | 0.678 | 0.655 | 0.684 |
Page-header | 3365 | 0.707 | 0.704 | 0.754 | 0.76 | 0.769 | 0.778 | 0.776 | 0.788 | 0.784 | 0.795 |
Picture | 3497 | 0.723 | 0.758 | 0.762 | 0.783 | 0.789 | 0.8 | 0.796 | 0.805 | 0.805 | 0.802 |
Section-header | 8544 | 0.709 | 0.713 | 0.727 | 0.745 | 0.742 | 0.753 | 0.75 | 0.75 | 0.748 | 0.751 |
Table | 2394 | 0.82 | 0.846 | 0.854 | 0.874 | 0.88 | 0.88 | 0.885 | 0.891 | 0.886 | 0.89 |
Text | 29917 | 0.845 | 0.851 | 0.86 | 0.869 | 0.876 | 0.878 | 0.878 | 0.88 | 0.877 | 0.883 |
Title | 334 | 0.762 | 0.793 | 0.806 | 0.817 | 0.83 | 0.832 | 0.846 | 0.844 | 0.84 | 0.848 |
All | 66454 | 0.718 | 0.735 | 0.752 | 0.767 | 0.775 | 0.781 | 0.783 | 0.793 | 0.787 | 0.794 |
Saya juga telah mencipta plot untuk menggambarkan hubungan antara saiz model dan skor untuk kedua-dua siri ini:
Berdasarkan jadual dan plot di atas, kita boleh membuat kesimpulan
Berdasarkan jadual dan plot di atas, kita boleh membuat kesimpulan bahawa model YOLOv11 secara konsisten mengatasi prestasi rakan sejawat YOLOv8 mereka dalam semua saiz. Penambahbaikan amat ketara dalam model yang lebih kecil, dengan YOLOv11n mencapai peningkatan 1.7% dalam mAP50-95 berbanding YOLOv8n. Tambahan pula, model YOLOv11 biasanya mempunyai parameter yang lebih sedikit daripada yang setara dengan YOLOv8, menunjukkan kecekapan yang dipertingkatkan di samping prestasi yang lebih baik.
Model kegemaran saya ialah YOLOv11l. Saiznya lebih kurang sama dengan YOLOv8m, tetapi ia mengatasi prestasi YOLOv8x!
Walau bagaimanapun, YOLOv11x hanya menunjukkan sedikit peningkatan berbanding YOLOv11l walaupun mempunyai saiz model dua kali ganda.
Apakah pendapat anda tentang keputusan YOLOv11? Adakah anda mempunyai pengalaman menggunakan model YOLO untuk analisis susun atur dokumen? Saya ingin mendengar pandangan dan pengalaman anda dalam ulasan di bawah!
Atas ialah kandungan terperinci YOLOv Satu Terobosan Baru dalam Analisis Reka Letak Dokumen. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!