PHP で Microsoft Office ドキュメントからテキストを抽出する (.doc、.docx、.xlsx、.pptx)
はじめに
多くの場合、Word、Excel、PowerPoint ファイルなどの Microsoft Office ドキュメントからテキストを抽出する必要が生じます。これは、特定のキーワードの検索や文書コンテンツのインデックス作成など、さまざまな目的で非常に重要です。ただし、これらのアプリケーションで使用されるファイル形式が異なるため、このタスクには課題が生じる可能性があります。
Doc および Docx ファイル
Doc および docx ファイルは Word ドキュメント形式です。 doc ファイルはバイナリ BLOB ですが、docx ファイルは基本的に XML ファイルを含む zip アーカイブです。これらの種類のファイルからテキストを抽出するには、次のメソッドを利用できます。
.doc ファイルの場合、fopen を使用してファイルを読み取り、バイナリ データを操作してテキストを取得できます。 content.
.docx ファイルの場合、zip_open 関数を使用して「word/document.xml」ファイルを抽出できます。この XML ファイルには、ドキュメントの書式設定されたテキストが含まれており、タグを削除して取得できます。
Xlsx ファイル
Xlsx ファイルは、Microsoft Excel で使用されます。 zip アーカイブ。これらのファイルからテキストを抽出するためのキー ファイルは「xl/sharedStrings.xml」です。この XML ファイルには、実際のテキスト コンテンツが保存されます。このファイルにアクセスするには、再度 zip_open を使用し、ファイルの内容を抽出し、XML タグを削除します。
Pptx ファイル
Pptx ファイル。Microsoft PowerPoint で使用されます。 zip アーカイブ形式にも準拠します。 「ppt/slides/slideX.xml」ファイル (X はスライド番号を表します) を抽出し、XML コンテンツを処理してテキストを取得する必要があります。
結論
上記の手法を組み合わせ、提供されている PHP クラス DocxConversion を使用することで、.doc、.docx、.xlsx、および .pptx ファイルからテキストを効果的に抽出できます。この機能により、幅広いデータ分析とドキュメント処理タスクが可能になります。
以上がPHP で Microsoft Office ドキュメント (.doc、.docx、.xlsx、.pptx) からテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。