PHP と Alibaba Cloud OCR を使用して PDF ファイルからテキストをすばやく抽出するにはどうすればよいですか?
PHP と Alibaba Cloud OCR を使用して PDF ファイルからテキストをすばやく抽出するにはどうすればよいですか?
はじめに:
デジタル時代の到来により、ますます多くの文書が PDF 形式で保存されます。一部のシナリオでは、自動文書処理や情報抽出など、さらなる処理や分析のために PDF ファイルからテキストを抽出する必要があります。この記事では、PHP と Alibaba Cloud OCR サービスを使用して、PDF ファイルからテキストをすばやく抽出する方法を紹介します。
ステップ 1: Alibaba Cloud OCR サービスを構成する
まず、Alibaba Cloud に OCR サービスを登録してアクティブ化する必要があります。アクセス キー ID とアクセス キー シークレットを取得し、OCR アプリケーションを作成してアプリケーションの下にキーを生成します。この情報は後続のコードで使用されます。
ステップ 2: PHP-SDK のインストールと構成
Alibaba Cloud では、SDK の PHP バージョンが提供されています。composer を使用すると、SDK をすばやくインストールして構成できます。ターミナルで次のコマンドを実行します:
composer require alibabacloud/ocr-sdk-php
インストールが完了したら、次のコードをプロジェクトに追加し、SDK を導入し、アクセス キー ID とアクセス キー シークレットを構成します:
<?php use AlibabaCloudClientAlibabaCloud; use AlibabaCloudClientExceptionClientException; use AlibabaCloudClientExceptionServerException; AlibabaCloud::accessKeyClient('your-access-key-id', 'your-access-key-secret') ->regionId('cn-shanghai') ->asDefaultClient(); ?>
上記のコードを「」に配置します。「your-access-key-id」と「your-access-key-secret」を実際の情報に置き換えます。
ステップ 3: OCR サービスを使用して PDF テキストを抽出する
PHP スクリプトでは、Alibaba Cloud OCR が提供する「ocr_document_recognize」インターフェイスを使用して PDF ファイルを識別し、その中のテキストを取得できます。
以下はサンプル コードです:
try { $result = AlibabaCloud::rpc() ->product('ocr') ->scheme('https') ->version('2019-12-30') ->action('ocr_document_recognize') ->method('POST') ->host('ocr.cn-shanghai.aliyuncs.com') ->options([ 'query' => [ 'RegionId' => 'cn-shanghai', 'AccessKeyId' => 'your-access-key-id', 'AccessKeySecret' => 'your-access-key-secret', ], ]) ->request(); // 解析返回结果 $text = ''; foreach ($result['Data']['Regions'] as $region) { foreach ($region['Lines'] as $line) { $text .= $line['Text'] . " "; } } // 打印提取的文字 echo $text; } catch (ClientException $e) { echo $e->getErrorMessage() . PHP_EOL; } catch (ServerException $e) { echo $e->getErrorMessage() . PHP_EOL; }
上記のコードの「your-access-key-id」と「your-access-key-secret」を実際の情報に置き換えます。
上記の手順により、PHP と Alibaba Cloud OCR サービスを使用して PDF ファイルからテキストを迅速に抽出できます。実際のニーズに応じて、抽出されたテキストをさらに処理および分析できます。
概要:
この記事では、PHP と Alibaba Cloud OCR サービスを使用して PDF ファイルからテキストを迅速に抽出する方法を紹介します。 Alibaba Cloud OCR サービスを設定し、PHP-SDK をインストールすると、Alibaba Cloud OCR が提供するインターフェイスを使用して PDF ファイルを識別し、そのファイル内のテキスト情報を抽出できます。これにより、自動化された文書処理や情報抽出作業を簡単に実行でき、業務効率が向上します。
以上がPHP と Alibaba Cloud OCR を使用して PDF ファイルからテキストをすばやく抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド

PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法
