Bagaimana Mengekstrak Teks daripada Fail PDF Menggunakan Versi Terkini PDFMiner dalam Python?

Patricia Arquette
Lepaskan: 2024-10-17 14:29:30
asal
357 orang telah melayarinya

How to Extract Text from PDF Files Using the Latest Version of PDFMiner in Python?

Extracting Text from PDF Files with PDFMiner in Python

Question:

How can I extract text from a PDF file using the latest version of PDFMiner in Python?

Answer:

PDFMiner has undergone significant API updates recently. Here's how you can extract text using its current version:

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>
Salin selepas log masuk

Note: This solution addresses the API changes introduced by PDFMiner's recent updates, ensuring compatibility with the current version of the library.

Atas ialah kandungan terperinci Bagaimana Mengekstrak Teks daripada Fail PDF Menggunakan Versi Terkini PDFMiner dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!