Mengekstrak Teks daripada Fail Microsoft Office dalam PHP
Mendapatkan semula teks daripada dokumen Word yang dimuat naik mungkin mencabar. Artikel ini membentangkan penyelesaian untuk mengekstrak teks dengan cekap daripada format fail Microsoft Office yang berbeza (.doc, .docx, .xlsx, .pptx) dan menyimpannya dalam pangkalan data untuk carian yang mudah.
Penyelesaian untuk .doc dan Fail .docx
Dokumen dengan sambungan fail .doc atau .docx boleh dikendalikan menggunakan kelas DocxConversion. Ia menawarkan dua kaedah:
read_doc() untuk fail .doc, yang membaca fail sebagai gumpalan binari menggunakan fopen.
read_docx() untuk fail .docx, yang mentafsirkannya sebagai fail zip termampat yang mengandungi fail XML.
Penyelesaian untuk Fail .xlsx (Excel)
Untuk fail Excel (.xlsx) , fungsi xlsx_to_text() digunakan. Ia membuka fail sebagai arkib zip dan mengekstrak fail sharedStrings.xml, yang mengandungi data teks.
Penyelesaian untuk Fail .pptx (PowerPoint)
Begitu juga, pptx_to_text() mengendalikan fail PowerPoint (.pptx). Ia membuka fail sebagai arkib zip dan berulang melalui fail XML slaid individu, mengekstrak teks.
Penggunaan
Untuk menggunakan fungsi ini, buat contoh baharu kelas DocxConversion dan panggil kaedah convertToText(). Ia akan menentukan jenis fail dan menggunakan kaedah pengekstrakan teks yang sesuai.
Contoh Penggunaan:
$docObj = new DocxConversion("test.docx"); $docText = $docObj->convertToText(); echo $docText;
Kelebihan
Penyelesaian ini menawarkan beberapa faedah:
Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Teks daripada Fail Microsoft Office dalam PHP?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!