Python クローラーが一部の Web サイトの検証コードをクロールすると、検証コードの認識の問題が発生することがあります。現在のほとんどの検証コードは 4 つのカテゴリに分かれています: 1. 検証コードの計算 2. スライダー検証コード 3. 認識画像認証コード4、音声認証コード
認証コードを特定することが主な目的です認識されるのは単純な認証コードです認識率を上げたい場合独自のフォント ライブラリをトレーニングするには多大な労力がかかります。
検証コードの識別には、通常次の手順が含まれます:
1. グレースケール処理
2. 二値化
3. 境界線を削除します (はいの場合)
4. ノイズリダクション
##5. 文字のカットや傾き補正##6. トレーニング用フォントライブラリ
##7. 認識最初のこの6ステップのうちの3ステップが基本です。4と5は状況に応じて選択してください。認証コードは必ずしもカットする必要はありません。認識率は大幅に向上する場合もあれば、低下する場合もあります。使用される主な Python ライブラリ: Pillow (Python 画像処理ライブラリ)、OpenCV (高度な画像処理ライブラリ)、pytesseract (認識ライブラリ)
次の場合:
1. 認識させる検証コード画像をスクリプトと同階層のimgフォルダに置き、out_imgフォルダを作成します
2. python3ファイル名3. 二値化やノイズ除去などのさまざまな段階の画像が out_img フォルダーに保存され、最終的な認識結果が画面に表示されます。
完全な QR コード識別コード:
えー
以上がPython が検証コードを認識する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。