ホームページ バックエンド開発 PHPチュートリアル PHP と Alibaba Cloud OCR を使用して PDF ファイルからテキストをすばやく抽出するにはどうすればよいですか?

PHP と Alibaba Cloud OCR を使用して PDF ファイルからテキストをすばやく抽出するにはどうすればよいですか?

Jul 19, 2023 pm 05:12 PM
php ocr PDF抽出

PHP と Alibaba Cloud OCR を使用して PDF ファイルからテキストをすばやく抽出するにはどうすればよいですか?

はじめに:
デジタル時代の到来により、ますます多くの文書が PDF 形式で保存されます。一部のシナリオでは、自動文書処理や情報抽出など、さらなる処理や分析のために PDF ファイルからテキストを抽出する必要があります。この記事では、PHP と Alibaba Cloud OCR サービスを使用して、PDF ファイルからテキストをすばやく抽出する方法を紹介します。

ステップ 1: Alibaba Cloud OCR サービスを構成する
まず、Alibaba Cloud に OCR サービスを登録してアクティブ化する必要があります。アクセス キー ID とアクセス キー シークレットを取得し、OCR アプリケーションを作成してアプリケーションの下にキーを生成します。この情報は後続のコードで使用されます。

ステップ 2: PHP-SDK のインストールと構成
Alibaba Cloud では、SDK の PHP バージョンが提供されています。composer を使用すると、SDK をすばやくインストールして構成できます。ターミナルで次のコマンドを実行します:

composer require alibabacloud/ocr-sdk-php
ログイン後にコピー

インストールが完了したら、次のコードをプロジェクトに追加し、SDK を導入し、アクセス キー ID とアクセス キー シークレットを構成します:

<?php
use AlibabaCloudClientAlibabaCloud;
use AlibabaCloudClientExceptionClientException;
use AlibabaCloudClientExceptionServerException;

AlibabaCloud::accessKeyClient('your-access-key-id', 'your-access-key-secret')
            ->regionId('cn-shanghai')
            ->asDefaultClient();
?>
ログイン後にコピー

上記のコードを「」に配置します。「your-access-key-id」と「your-access-key-secret」を実際の情報に置き換えます。

ステップ 3: OCR サービスを使用して PDF テキストを抽出する
PHP スクリプトでは、Alibaba Cloud OCR が提供する「ocr_document_recognize」インターフェイスを使用して PDF ファイルを識別し、その中のテキストを取得できます。

以下はサンプル コードです:

try {
    $result = AlibabaCloud::rpc()
              ->product('ocr')
              ->scheme('https')
              ->version('2019-12-30')
              ->action('ocr_document_recognize')
              ->method('POST')
              ->host('ocr.cn-shanghai.aliyuncs.com')
              ->options([
                'query' => [
                  'RegionId' => 'cn-shanghai',
                  'AccessKeyId' => 'your-access-key-id',
                  'AccessKeySecret' => 'your-access-key-secret',
                ],
              ])
              ->request();
    
    // 解析返回结果
    $text = '';
    foreach ($result['Data']['Regions'] as $region) {
        foreach ($region['Lines'] as $line) {
            $text .= $line['Text'] . "
";
        }
    }
    
    // 打印提取的文字
    echo $text;

} catch (ClientException $e) {
    echo $e->getErrorMessage() . PHP_EOL;
} catch (ServerException $e) {
    echo $e->getErrorMessage() . PHP_EOL;
}
ログイン後にコピー

上記のコードの「your-access-key-id」と「your-access-key-secret」を実際の情報に置き換えます。

上記の手順により、PHP と Alibaba Cloud OCR サービスを使用して PDF ファイルからテキストを迅速に抽出できます。実際のニーズに応じて、抽出されたテキストをさらに処理および分析できます。

概要:
この記事では、PHP と Alibaba Cloud OCR サービスを使用して PDF ファイルからテキストを迅速に抽出する方法を紹介します。 Alibaba Cloud OCR サービスを設定し、PHP-SDK をインストールすると、Alibaba Cloud OCR が提供するインターフェイスを使用して PDF ファイルを識別し、そのファイル内のテキスト情報を抽出できます。これにより、自動化された文書処理や情報抽出作業を簡単に実行でき、業務効率が向上します。

以上がPHP と Alibaba Cloud OCR を使用して PDF ファイルからテキストをすばやく抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド Dec 24, 2024 pm 04:42 PM

Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド

CakePHP プロジェクトの構成 CakePHP プロジェクトの構成 Sep 10, 2024 pm 05:25 PM

CakePHP プロジェクトの構成

CakePHP の日付と時刻 CakePHP の日付と時刻 Sep 10, 2024 pm 05:27 PM

CakePHP の日付と時刻

CakePHP ファイルのアップロード CakePHP ファイルのアップロード Sep 10, 2024 pm 05:27 PM

CakePHP ファイルのアップロード

CakePHP ルーティング CakePHP ルーティング Sep 10, 2024 pm 05:25 PM

CakePHP ルーティング

CakePHP について話し合う CakePHP について話し合う Sep 10, 2024 pm 05:28 PM

CakePHP について話し合う

PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 Dec 20, 2024 am 11:31 AM

PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法

CakePHP クイックガイド CakePHP クイックガイド Sep 10, 2024 pm 05:27 PM

CakePHP クイックガイド

See all articles