ホームページ > バックエンド開発 > PHPチュートリアル > PHP で Word、Excel、PowerPoint ファイルからテキストを抽出する方法

PHP で Word、Excel、PowerPoint ファイルからテキストを抽出する方法

Linda Hamilton
リリース: 2024-11-17 14:15:02
オリジナル
627 人が閲覧しました

How to Extract Text from Word, Excel, and PowerPoint Files in PHP?

PHP で Word ファイル .doc、.docx、.xlsx、.pptx からテキストを抽出する方法

アップロードされた Word 文書からのテキストの抽出これは、文書内の検索などのタスク、特に履歴書や履歴書が関係するシナリオでは非常に重要です。この記事では、この一般的な問題に対する包括的な解決策を提供します。

Doc/Docx ファイルの抽出

Doc/Docx ファイルはバイナリ BLOB です。 .doc ファイルの場合は fopen 関数を使用でき、.docx ファイルの場合は zip_open 関数を利用できます。これは、docx ファイルは本質的に XML ファイルを含む ZIP ファイルであるためです。

Excel ファイルの抽出

XLSX ファイルからテキストを抽出するには、特定の XML ファイル xl/sharedStrings.xml。このファイルからコンテンツを抽出し、プレーン テキストの HTML タグを取り除きます。

PowerPoint ファイルの抽出

PPTX ファイルも同様のアプローチに従います。スライド XML ファイルを繰り返し処理し、その内容を抽出して連結します。

クラス実装

これらの抽出をカプセル化する

DocxConversion という名前の PHP クラスを提供します。方法。このクラスは引数としてファイル パスを受け取り、次の関数を持ちます:

  • read_doc(): .doc ファイルの抽出を処理します。
  • read_docx (): .docx ファイルを処理しますextension.
  • xlsx_to_text(): .xlsx ファイルの抽出を処理します。
  • pptx_to_text(): .pptx ファイルを処理しますextract.
  • convertToText(): ファイル拡張子に基づいて適切な抽出方法を選択します。

使用法

このクラスを使用するには、ファイル パスを使用してインスタンスを作成し、

convertToText() メソッド。このメソッドは、抽出されたテキストを文字列として返します。

例:

$docObj = new DocxConversion("test.docx");
$docText = $docObj->convertToText();
echo $docText;
ログイン後にコピー
このスクリプトは、指定された .docx ファイルからテキストを抽出して表示します。

以上がPHP で Word、Excel、PowerPoint ファイルからテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート