首頁 > 後端開發 > php教程 > 如何用 PHP 從 Word、Excel 和 PowerPoint 文件中提取文字?

如何用 PHP 從 Word、Excel 和 PowerPoint 文件中提取文字?

Linda Hamilton
發布: 2024-11-17 14:15:02
原創
617 人瀏覽過

How to Extract Text from Word, Excel, and PowerPoint Files in PHP?

如何在PHP 中從Word 文件.doc、.docx、.xlsx、.pptx 中提取文字

從上傳的Word 文檔中提取文字對於文件內搜尋等任務至關重要,特別是在涉及簡歷/簡歷的場景中。本文為這個常見問題提供了全面的解決方案。

Doc/Docx 檔案擷取

Doc/Docx 檔案是二進位 blob。對於 .doc 文件,您可以使用 fopen 函數,而對於 .docx 文件,您可以使用 zip_open 函數。這是因為 docx 檔案本質上是包含 XML 檔案的 ZIP 檔案。

Excel 文件提取

要從 XLSX 文件中提取文本,我們關注特定的 XML 文件,xl/sharedStrings.xml。我們從此文件中提取內容,並去除純文字的 HTML 標籤。

PowerPoint 檔案擷取

PPTX 檔案遵循類似的方法。我們迭代幻燈片 XML 文件,提取並連接它們的內容。

類別實作

我們提供一個名為 DocxConversion 的 PHP 類別來封裝這些擷取方法。此類別接受檔案路徑作為參數,並具有以下函數:

  • read_doc():處理 .doc 檔案擷取。
  • read_docx ():處理 .docx 檔案
  • xlsx_to_text():處理 .xlsx 檔案擷取。
  • pptx_to_text():處理 .pptx 檔案擷取。
  • convertToText():依照檔案副檔名選擇適當的擷取方法。

用法

要使用此類,請使用檔案路徑實例化它並呼叫convertToText() 方法。該方法以字串形式傳回提取的文字。

範例:

$docObj = new DocxConversion("test.docx");
$docText = $docObj->convertToText();
echo $docText;
登入後複製

此腳本將從指定的 .docx 檔案中提取文字並顯示它。

以上是如何用 PHP 從 Word、Excel 和 PowerPoint 文件中提取文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板