Memandangkan teknologi Internet terus berkembang, orang ramai mempunyai keperluan yang lebih tinggi dan lebih tinggi untuk format fail. Sebagai contoh, banyak syarikat atau individu kini lebih suka menggunakan format HTML semasa memproses dokumen, kerana format HTML mempunyai kelebihan pengendalian yang mudah, persembahan visual dan kebolehoperasian rangkaian. Format PDF juga merupakan format dokumen yang digunakan secara meluas. Jadi, bagaimana untuk menukar dokumen dalam format PDF ke dalam format HTML? Artikel ini akan memperkenalkan kaedah yang dilaksanakan dalam bahasa PHP: menggunakan perpustakaan phppdf untuk menukar PDF kepada kod HTML.
1. Pengenalan kepada perpustakaan phppdf
Pustaka phppdf ialah perpustakaan PHP sumber terbuka yang digunakan untuk membaca dan menghuraikan fail PDF dan menukarnya kepada kod HTML atau fail teks. Kerana perpustakaan phppdf berkuasa, anda perlu memasang perpustakaan phppdf terlebih dahulu sebelum anda boleh menukar fail PDF.
2. Pasang pustaka phppdf
Cara paling mudah untuk memasang perpustakaan phppdf adalah dengan memasangnya melalui komposer Anda hanya perlu melaksanakan arahan berikut dalam direktori akar projek:
composer require smalot/pdfparser
Selepas pemasangan, jika anda perlu menggunakan perpustakaan phppdf untuk menukar PDF kepada kod HTML, anda perlu merujuk ruang nama berikut dalam kod PHP:
use Smalot\PdfParser\Parser;
3
Semasa pemasangan Selepas membina perpustakaan phppdf, kami boleh menggunakannya untuk menghuraikan fail PDF Berikut ialah kod sampel:
$parser = new Parser(); $pdf = $parser->parseFile('path/to/pdf/file'); $text = $pdf->getText(); // 获取PDF文本内容 $html = $pdf->toHtml(); // 获取HTML代码
Dalam kod, kami mula-mula mencipta objek Parser untuk. menghuraikan fail PDF. Kemudian, kami memanggil kaedah parseFile untuk menghuraikan fail PDF Parameter kaedah ini ialah laluan fail PDF. Selepas menghuraikannya, kami boleh mendapatkan kandungan teks fail PDF melalui kaedah getText, atau mendapatkan kod HTML yang ditukar daripada fail PDF melalui kaedah toHtml.
4. Memproses kod HTML
Memandangkan pemformatan fail PDF adalah rumit, dan pemformatan format HTML agak mudah, pemprosesan kod HTML yang ditukar daripada PDF juga merupakan tugas penting. Berikut ialah beberapa kaedah untuk memproses kod HTML:
1 Padamkan teg berlebihan
Mungkin terdapat banyak teg berlebihan dalam fail PDF, seperti teg div yang tidak berguna, teg p kosong, dsb. Teg bukan sahaja menggunakan ruang pada halaman HTML, tetapi juga boleh menjejaskan pengalaman membaca. Oleh itu, apabila menggunakan PDF ke kod HTML, kita perlu memadamkan tag tidak berguna ini secara seragam.
Kod sampel:
$html = preg_replace('/<\/?div[^>]*>/', '', $html); $html = preg_replace('/(<p[^>]*><\/p>)*\n/', '', $html);
2. Laraskan reka letak
Susun atur dokumen PDF selalunya tidak teratur dan perlu dilaraskan. Sebagai contoh, anda perlu menambah beberapa helaian gaya CSS untuk mengawal saiz fon atau jarak baris tajuk.
Kod contoh:
$html = "<!DOCTYPE html>\n<html>\n<head>\n<style> h1,h2,h3,h4,h5,h6 { margin: 0; line-height: 1.6em; font-size: 1em; }\n </style>\n</head>\n<body>\n" . $html . "</body>\n</html>";
Dalam kod, kami menambahkan helaian gaya, yang melaraskan tajuk, mengalih keluar lekukan tajuk dan melaraskan saiz fon dan jarak baris.
5. Ringkasan
Artikel ini memperkenalkan proses penggunaan perpustakaan phppdf untuk menukar PDF kepada kod HTML, termasuk langkah-langkah memasang perpustakaan phppdf, menghurai fail PDF dan memproses kod HTML. Melalui artikel ini, saya percaya bahawa pembaca telah menguasai kaedah menggunakan perpustakaan phppdf untuk menukar PDF kepada kod HTML saya harap ia akan membantu pembaca dalam pembangunan projek sebenar.
Atas ialah kandungan terperinci Cara menggunakan phppdf untuk menukar PDF kepada html (contoh kod). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!