Mengekstrak Imej Resolusi Asli daripada PDF dalam Python
Untuk pengekstrakan imej yang tepat daripada PDF, adalah penting untuk mengekalkan resolusi dan format asal bagi imej. PyMuPDF menawarkan penyelesaian yang mudah untuk tugas ini.
Untuk bermula, import modul PyMuPDF dan buka fail PDF sasaran:
<code class="python">import fitz doc = fitz.open("file.pdf")</code>
Lelar melalui halaman dan ekstrak imej menggunakan getPageImageList:
<code class="python">for i in range(len(doc)): for img in doc.getPageImageList(i): xref = img[0] pix = fitz.Pixmap(doc, xref)</code>
Bergantung pada jenis imej, tulis imej sebagai PNG atau tukar imej CMYK kepada RGB sebelum menulis sebagai PNG:
<code class="python">if pix.n < 5: pix.writePNG("p%s-%s.png" % (i, xref)) else: pix1 = fitz.Pixmap(fitz.csRGB, pix) pix1.writePNG("p%s-%s.png" % (i, xref))</code>
Berikut ialah sumber tambahan untuk diterokai:
Dengan penyelesaian Python ini, anda boleh mengekstrak imej daripada PDF dengan cekap sambil mengekalkan resolusi dan format aslinya, memastikan pembiakan dan analisis yang tepat.
Atas ialah kandungan terperinci Cara Mengekstrak Imej Resolusi Asli daripada PDF Menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!