如何在 PHP 中从 Word 文件 .doc、.docx、.xlsx、.pptx 中提取文本
从上传的 Word 文档中提取文本对于文档内搜索等任务至关重要,特别是在涉及简历/简历的场景中。本文为这个常见问题提供了全面的解决方案。
Doc/Docx 文件提取
Doc/Docx 文件是二进制 blob。对于 .doc 文件,您可以使用 fopen 函数,而对于 .docx 文件,您可以使用 zip_open 函数。这是因为 docx 文件本质上是包含 XML 文件的 ZIP 文件。
Excel 文件提取
要从 XLSX 文件中提取文本,我们关注特定的 XML 文件,xl/sharedStrings.xml。我们从此文件中提取内容,并去除纯文本的 HTML 标签。
PowerPoint 文件提取
PPTX 文件遵循类似的方法。我们迭代幻灯片 XML 文件,提取并连接它们的内容。
类实现
我们提供一个名为 DocxConversion 的 PHP 类来封装这些提取方法。该类接受文件路径作为参数,并具有以下函数:
用法
要使用此类,请使用文件路径实例化它并调用 convertToText() 方法。该方法以字符串形式返回提取的文本。
示例:
$docObj = new DocxConversion("test.docx"); $docText = $docObj->convertToText(); echo $docText;
此脚本将从指定的 .docx 文件中提取文本并显示它。
以上是如何用 PHP 从 Word、Excel 和 PowerPoint 文件中提取文本?的详细内容。更多信息请关注PHP中文网其他相关文章!