Bagaimana untuk mengekstrak maklumat secara berkumpulan daripada PDF menggunakan Python-Tutorial Python-php.cn

Bagaimana untuk mengekstrak maklumat secara berkumpulan daripada PDF menggunakan Python

Untuk menggunakanpythonuntuk mengekstrak maklumat daripadapdf, anda boleh menggunakan perpustakaanPythonyang dipanggil PyPDF2. Berikut ialah contoh mudah untuk membantu anda mula mengekstrak maklumat teks daripada PDF:

Pertama, anda perlu memasang perpustakaan PyPDF2. Pustaka boleh dipasang dalam terminal atau command prompt menggunakan arahan berikut:

pip install PyPDF2

Salin selepas log masuk

Kemudian, anda boleh menggunakan kod berikut untuk mengekstrak maklumat teks daripada PDF:

import PyPDF2 def extract_text_from_pdf(pdf_path): with open(pdf_path, 'rb') as file: pdf = PyPDF2.PdfFileReader(file) text = "" for page_number in range(pdf.getNumPages()): page = pdf.getPage(page_number) text += page.extractText() return text # 批量提取PDF中的文本信息 pdf_folder = "pdf文件夹路径" output_folder = "输出文件夹路径" import os for filename in os.listdir(pdf_folder): if filename.endswith(".pdf"): pdf_path = os.path.join(pdf_folder, filename) text = extract_text_from_pdf(pdf_path) output_path = os.path.join(output_folder, f"{filename}.txt") with open(output_path, 'w', encoding='utf-8') as file: file.write(text)

Salin selepas log masuk

Dalam kod di atas,pdf_folder是包含PDF文件的文件夹的路径，output_folderialah laluan folder yang teks yang diekstrak akan dikeluarkan. Kod ini akan melingkari semua fail PDF dalam folder, mengekstrak kandungan teks setiap fail dan menyimpan teks yang diekstrak ke fail teks yang sepadan.

Sila ambil perhatian bahawa kod ini hanya boleh mengekstrak maklumat teks biasa dalam PDF Jika PDF mengandungi kandungan bukan teks seperti imej atau jadual, kod itu mungkin tidak mengekstrak atau mengekstrak dengan betul.

Atas ialah kandungan terperinci Bagaimana untuk mengekstrak maklumat secara berkumpulan daripada PDF menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!