Cara Mengekstrak Imej Resolusi Asli daripada PDF Menggunakan Python-Tutorial Python-php.cn

Cara Mengekstrak Imej Resolusi Asli daripada PDF Menggunakan Python

Barbara Streisand

Lepaskan： 2024-10-22 07:50:03

asal

1071 orang telah melayarinya

How to Extract Native Resolution Images from PDFs Using Python

Mengekstrak Imej Resolusi Asli daripada PDF dalam Python

Untuk pengekstrakan imej yang tepat daripada PDF, adalah penting untuk mengekalkan resolusi dan format asal bagi imej. PyMuPDF menawarkan penyelesaian yang mudah untuk tugas ini.

Untuk bermula, import modul PyMuPDF dan buka fail PDF sasaran:

<code class="python">import fitz
doc = fitz.open("file.pdf")</code>

Salin selepas log masuk

Lelar melalui halaman dan ekstrak imej menggunakan getPageImageList:

<code class="python">for i in range(len(doc)):
    for img in doc.getPageImageList(i):
        xref = img[0]
        pix = fitz.Pixmap(doc, xref)</code>

Salin selepas log masuk

Bergantung pada jenis imej, tulis imej sebagai PNG atau tukar imej CMYK kepada RGB sebelum menulis sebagai PNG:

<code class="python">if pix.n < 5:
            pix.writePNG("p%s-%s.png" % (i, xref))
else:               
            pix1 = fitz.Pixmap(fitz.csRGB, pix)
            pix1.writePNG("p%s-%s.png" % (i, xref))</code>

Salin selepas log masuk

Berikut ialah sumber tambahan untuk diterokai:

[Dokumentasi Pengekstrakan Imej PyMuPDF](https://pymupdf.readthedocs.io/en/latest/image-extraction.html)
[Pengeluaran Imej FitZ yang Diperbaiki untuk FitZ 1.19.6]( https://stackoverflow.com/a/74345380)

Dengan penyelesaian Python ini, anda boleh mengekstrak imej daripada PDF dengan cekap sambil mengekalkan resolusi dan format aslinya, memastikan pembiakan dan analisis yang tepat.

Atas ialah kandungan terperinci Cara Mengekstrak Imej Resolusi Asli daripada PDF Menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!