Adakah Perpustakaan PHP untuk Menghuraikan PDF?
Soalan:
Saya mencari penghurai PDF untuk PHP. Saya perlu mengekstrak jadual daripada PDF dan menukarnya kepada tatasusunan. Adakah terdapat sebarang cadangan?
Jawapan:
Membuat penghurai PDF tersuai adalah tugas yang sukar kerana kerumitan spesifikasi PDF dan variasi dalam cara penjana PDF yang berbeza beroperasi. Walau bagaimanapun, terdapat beberapa nasihat penting untuk dipertimbangkan jika anda memutuskan untuk menulis sendiri:
-
Fahami pemetaan semula fon Adobe: Adobe sering memetakan semula fon, jadi aksara mungkin tidak selalu sepadan kepada nilai yang diharapkan. Anda perlu mengenal pasti objek pemetaan untuk menguraikan kod aksara.
-
Gunakan kelas abstrak: Cipta kelas untuk jenis objek dan jenis asli yang berbeza untuk memudahkan penghuraian. Ini akan membolehkan anda menyesuaikan proses penghuraian untuk jenis tertentu.
-
Kuatkuasakan versi PDF tertentu: Tentukan versi PDF yang anda sokong dan kuatkuasakannya. Elakkan daripada cuba menjadikan parser serasi dengan semua versi, kerana ia boleh menjadi terlalu rumit.
-
Kendalikan strim mampat dengan berhati-hati: Strim mampat mungkin mempunyai hujah panjang yang tidak tepat. Kempiskannya dan paksa panjang untuk kebolehpercayaan.
-
Gunakan mb_strlen untuk panjang rentetan: Gunakan mb_strlen($string, '8bit') untuk menentukan panjang rentetan dengan tepat, mengendalikan set aksara yang berbeza dan kemungkinan tidak sah watak.
Atas ialah kandungan terperinci Adakah Terdapat Perpustakaan PHP Khusus untuk Menghuraikan Jadual PDF?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!