如何在PHP 中從Word 文件.doc、.docx、.xlsx、.pptx 中提取文字
從上傳的Word 文檔中提取文字對於文件內搜尋等任務至關重要,特別是在涉及簡歷/簡歷的場景中。本文為這個常見問題提供了全面的解決方案。
Doc/Docx 檔案擷取
Doc/Docx 檔案是二進位 blob。對於 .doc 文件,您可以使用 fopen 函數,而對於 .docx 文件,您可以使用 zip_open 函數。這是因為 docx 檔案本質上是包含 XML 檔案的 ZIP 檔案。
Excel 文件提取
要從 XLSX 文件中提取文本,我們關注特定的 XML 文件,xl/sharedStrings.xml。我們從此文件中提取內容,並去除純文字的 HTML 標籤。
PowerPoint 檔案擷取
PPTX 檔案遵循類似的方法。我們迭代幻燈片 XML 文件,提取並連接它們的內容。
類別實作
我們提供一個名為 DocxConversion 的 PHP 類別來封裝這些擷取方法。此類別接受檔案路徑作為參數,並具有以下函數:
用法
要使用此類,請使用檔案路徑實例化它並呼叫convertToText() 方法。該方法以字串形式傳回提取的文字。
範例:
$docObj = new DocxConversion("test.docx"); $docText = $docObj->convertToText(); echo $docText;
此腳本將從指定的 .docx 檔案中提取文字並顯示它。
以上是如何用 PHP 從 Word、Excel 和 PowerPoint 文件中提取文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!