Cara Mengekstrak Teks daripada Fail Word .doc, .docx, .xlsx, .pptx dalam PHP
Mengekstrak teks daripada dokumen Word yang dimuat naik adalah penting untuk tugas seperti mencari dalam dokumen, terutamanya dalam senario yang melibatkan CV/resume. Artikel ini menyediakan penyelesaian menyeluruh untuk masalah biasa ini.
Pengeluaran Fail Doc/Docx
Fail Doc/Docx ialah gumpalan binari. Untuk fail .doc, anda boleh menggunakan fungsi fopen, manakala untuk fail .docx, anda boleh menggunakan fungsi zip_open. Ini kerana fail docx pada asasnya ialah fail ZIP yang mengandungi fail XML.
Excel File Extraction
Untuk mengekstrak teks daripada fail XLSX, kami menumpukan pada fail XML tertentu, xl/sharedStrings.xml. Kami mengekstrak kandungan daripada fail ini dan menanggalkan teg HTML untuk teks biasa.
Pengeluaran Fail PowerPoint
Fail PPTX mengikut pendekatan yang sama. Kami mengulangi fail XML slaid, mengekstrak dan menggabungkan kandungannya.
Pelaksanaan Kelas
Kami menyediakan kelas PHP bernama DocxConversion yang merangkumi pengekstrakan ini kaedah. Kelas menerima laluan fail sebagai hujah dan mempunyai fungsi berikut:
Penggunaan
Untuk menggunakan kelas ini, nyatakannya dengan laluan fail dan panggil kaedah convertToText(). Kaedah ini mengembalikan teks yang diekstrak sebagai rentetan.
Contoh:
$docObj = new DocxConversion("test.docx"); $docText = $docObj->convertToText(); echo $docText;
Skrip ini akan mengekstrak teks daripada fail .docx yang ditentukan dan memaparkannya.
Atas ialah kandungan terperinci Bagaimana untuk mengekstrak teks daripada Word, Excel, dan Fail PowerPoint dalam PHP?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!