デジタル時代の継続的な発展に伴い、保管と検索を容易にするために、大量の紙文書をデジタル化する必要があります。データを効果的に変換するために、多くの企業や個人は、スキャンした紙文書のテキストをデジタル形式に変換できる OCR テクノロジー (光学式文字認識、光学式文字認識) を選択しています。
PHP は、一般的に使用されるプログラミング言語として、OCR 認識やテキスト認識にも使用できます。この記事では、PHPを使用してOCR認識とテキスト認識を行う方法を紹介します。
1. PHP OCR 認識
PHP で OCR 認識を実行するには、いくつかの OCR 認識ライブラリを使用します。現在、より一般的に使用されているものには、Tesseract OCR、OCRopus などが含まれます。
Tesseract OCR は、最も有名な無料の OCR (光学式文字認識、光学式文字認識) エンジンの 1 つです。これは HP Labs によって開発され、現在は Google によって保守されています。 Tesseract は、複数のプラットフォーム (Windows、Mac OS、Linux など) および複数のプログラミング言語 (C、Python、Java など) で利用できます。
次は、Tesseract OCR を使用して画像を認識する簡単な PHP の例です:
// Tesseract OCR エンジンと PHP Tesseract OCR パッケージをインストールします
apt-get install tesseract-ocr
composer require thiagoalessio/tesseract_ocr
//Load image
$image = new Imagick('path/to/image');
//画像内のテキストを認識
$ tesseract = new TesseractOCR();
$tesseract->image($image);
$text = $tesseract->run();
echo $text;// 出力テキスト認識
2. PHP テキスト認識
PHP でテキスト認識を実行するには、いくつかのテキスト認識ライブラリを使用します。現在、より一般的に使用されているものには、IDA S.E. OCR、Nanonets OCR などが含まれます。
パッケージによってインストール方法と使用方法が異なるため、Nanonets OCR を例として、Nanonets OCR を使用して画像内のテキストを識別する簡単な PHP の例を以下に示します。アカウントを登録し、API キーとモデル ID を取得します
PHP SDK をインストールします
Nanonets OCR から認識結果を取得します
$api_key = 'YOUR から認識結果を取得しますAPI KEY';
$model_id = 'あなたのモデル ID';
$nocr = 新しい NanonetsOCRNanonetsOCR($api_key, $model_id);
$result = $nocr->upload('path / to/image');echo $result;
分析結果
$text = '';
foreach ($json['result'][0]['prediction'] as $line) {
$text .= $line['ocr_text'] . "
";
}
echo $text;
以上がPHP を OCR 認識とテキスト認識に使用するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。