前のブログ投稿で述べたように、YOLOv8 はドキュメント レイアウト分析で非常に優れたパフォーマンスを発揮します。 YOLOv8 シリーズのすべてのモデルを DocLayNet データセットでトレーニングしたところ、最小のモデルでも全体の mAP50-95 が 71.8 に達し、最大のモデルでは驚異的な 78.7 に達していることがわかりました。
最近、Ultralytics は、リアルタイム物体検出器 YOLO シリーズの最新バージョンである YOLOv11 をリリースしました。この新しいバージョンでは、アーキテクチャとトレーニング方法の両方に大幅な改善が加えられています。
?結果は期待できそうです!すべての YOLOv11 モデルを DocLayNet データセットで再度トレーニングし、以前の YOLOv8 シリーズと比較することにしました。
この実験では、引き続きリポジトリ https://github.com/ppaanngggg/yolo-doclaynet を使用してデータを準備し、カスタム スクリプトを使用してモデルをトレーニングしました。このアプローチにより、データの準備とトレーニングのプロセスの一貫性が保証され、YOLOv8 モデルと YOLOv11 モデル間の公平な比較が可能になります。
YOLOv11 モデルのトレーニングと評価のプロセスは簡単で、簡単なコマンドライン命令で実行できます。
# To train the model python train.py {base-model} # To evaluate the model python eval.py {path-to-your-trained-model}
YOLOv8 モデルと YOLOv11 を比較した詳細な評価表は次のとおりです。
label | boxes | yolov8n | yolov11n | yolov8s | yolov11s | yolov8m | yolov11m | yolov8l | yolov11l | yolov8x | yolov11x |
---|---|---|---|---|---|---|---|---|---|---|---|
Params (M) | 3.2 | 2.6 | 11.2 | 9.4 | 25.9 | 20.1 | 43.7 | 25.3 | 68.2 | 56.9 | |
Caption | 1542 | 0.682 | 0.717 | 0.721 | 0.744 | 0.746 | 0.746 | 0.75 | 0.772 | 0.753 | 0.765 |
Footnote | 387 | 0.614 | 0.634 | 0.669 | 0.683 | 0.696 | 0.701 | 0.702 | 0.715 | 0.717 | 0.71 |
Formula | 1966 | 0.655 | 0.673 | 0.695 | 0.705 | 0.723 | 0.729 | 0.75 | 0.75 | 0.747 | 0.765 |
List-item | 10521 | 0.789 | 0.81 | 0.818 | 0.836 | 0.836 | 0.843 | 0.841 | 0.847 | 0.841 | 0.845 |
Page-footer | 3987 | 0.588 | 0.591 | 0.61 | 0.621 | 0.64 | 0.653 | 0.641 | 0.678 | 0.655 | 0.684 |
Page-header | 3365 | 0.707 | 0.704 | 0.754 | 0.76 | 0.769 | 0.778 | 0.776 | 0.788 | 0.784 | 0.795 |
Picture | 3497 | 0.723 | 0.758 | 0.762 | 0.783 | 0.789 | 0.8 | 0.796 | 0.805 | 0.805 | 0.802 |
Section-header | 8544 | 0.709 | 0.713 | 0.727 | 0.745 | 0.742 | 0.753 | 0.75 | 0.75 | 0.748 | 0.751 |
Table | 2394 | 0.82 | 0.846 | 0.854 | 0.874 | 0.88 | 0.88 | 0.885 | 0.891 | 0.886 | 0.89 |
Text | 29917 | 0.845 | 0.851 | 0.86 | 0.869 | 0.876 | 0.878 | 0.878 | 0.88 | 0.877 | 0.883 |
Title | 334 | 0.762 | 0.793 | 0.806 | 0.817 | 0.83 | 0.832 | 0.846 | 0.844 | 0.84 | 0.848 |
All | 66454 | 0.718 | 0.735 | 0.752 | 0.767 | 0.775 | 0.781 | 0.783 | 0.793 | 0.787 | 0.794 |
これら 2 つのシリーズのモデル サイズとスコアの関係を示すプロットも作成しました。
上記の表とプロットに基づいて、次のように結論付けることができます
上記の表とプロットに基づいて、YOLOv11 モデルはすべてのサイズにおいて一貫して YOLOv8 モデルより優れていると結論付けることができます。この改善は特に小型モデルで顕著であり、YOLOv11n では YOLOv8n と比較して mAP50-95 が 1.7% 増加しました。さらに、YOLOv11 モデルは通常、YOLOv8 モデルよりもパラメーターが少なく、パフォーマンスが向上しているだけでなく効率も向上していることを示しています。
私のお気に入りのモデルは YOLOv11l です。サイズは YOLOv8m とほぼ同じですが、パフォーマンスは YOLOv8x を上回ります!
ただし、YOLOv11x は、モデル サイズが 2 倍であるにもかかわらず、YOLOv11l に比べてわずかな改善しか示していません。
YOLOv11 の結果についてどう思いますか?文書レイアウト分析に YOLO モデルを使用した経験はありますか?以下のコメント欄であなたの洞察や経験をぜひお聞かせください!
以上がYOLOv ドキュメント レイアウト分析の新たなブレークスルーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。