communauté Apprendre Bibliothèque d'outils Loisirs

Français

Maison > développement back-end > Tutoriel Python > Comment extraire par lots des informations d'un PDF à l'aide de Python

Comment extraire par lots des informations d'un PDF à l'aide de Python

PHPz

Libérer： 2024-03-02 09:25:16

avant

666 Les gens l'ont consulté

Comment extraire par lots des informations dun PDF à laide de Python

Pour utiliser python pour extraire par lots des informations de pdf, vous pouvez utiliser une bibliothèque dans Python appelée PyPDF2. Voici un exemple simple pour vous aider à commencer à extraire des informations textuelles à partir d'un PDF :

Tout d'abord, vous devez installer la bibliothèque PyPDF2. La bibliothèque peut être installée dans le terminal ou l'invite de commande à l'aide de la commande suivante :

pip install PyPDF2

Copier après la connexion

Ensuite, vous pouvez utiliser le code suivant pour extraire les informations textuelles du PDF :

import PyPDF2

def extract_text_from_pdf(pdf_path):
with open(pdf_path, &#x27;rb&#x27;) as file:
pdf = PyPDF2.PdfFileReader(file)
text = ""
for page_number in range(pdf.getNumPages()):
page = pdf.getPage(page_number)
text += page.extractText()
return text

# 批量提取PDF中的文本信息
pdf_folder = "pdf文件夹路径"
output_folder = "输出文件夹路径"

import os

for filename in os.listdir(pdf_folder):
if filename.endswith(".pdf"):
pdf_path = os.path.join(pdf_folder, filename)
text = extract_text_from_pdf(pdf_path)

output_path = os.path.join(output_folder, f"{filename}.txt")
with open(output_path, &#x27;w&#x27;, encoding=&#x27;utf-8&#x27;) as file:
file.write(text)

Copier après la connexion

Dans le code ci-dessus, pdf_folder是包含PDF文件的文件夹的路径，output_folder est le chemin du dossier vers lequel le texte extrait sera sorti. Le code parcourra tous les fichiers PDF du dossier, extraira le contenu textuel de chaque fichier et enregistrera le texte extrait dans le fichier texte correspondant.

Veuillez noter que ce code ne peut extraire que des informations en texte brut au format PDF. Si le PDF contient du contenu non textuel tel que des images ou des tableaux, le code peut ne pas être extrait ou extrait correctement.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées：

python En vedette

source：lsjlt.com

Article précédent：Comment remplacer une chaîne spécifiée en python Article suivant：Comment supprimer des nombres d'une chaîne en python

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Les clés du codage : libérer la puissance du C pour les débutants

2024-10-13 11:44:01
Connectez votre site Web aux bases de données avec PHP et MySQL

2024-10-13 09:56:31
Résolution de problèmes avec Python : débloquez des solutions puissantes en tant que codeur débutant

2024-10-11 20:58:41
Python Power, simplifié : une approche de la programmation adaptée aux débutants

2024-10-11 16:53:11
PHP et médias sociaux : intégrez votre site Web au monde

2024-10-11 11:54:51
Galeries d'images dynamiques avec PHP : présentez votre travail en ligne

2024-10-10 16:21:01
Créez des API et des services Web avec PHP

2024-10-10 15:18:02
Démystifier Java : un chemin clair et simple pour les nouveaux programmeurs

2024-10-10 13:34:01
Créer des jeux et des graphiques avec C : une introduction amusante et pratique

2024-10-10 13:26:26
Comment jouer Cheng Yaojin dans Glory of Kings ?

2024-10-10 11:38:42

Derniers numéros

Python/MySQL ne peut pas conserver correctement les données entières Aucun code n'est requis ici. Je souhaite enregistrer un numéro très long car je crée un je...

Depuis 2024-04-04 19:09:44

0

1

367

En utilisant Selenium, vous voulez cliquer et définir une URL en classe J'ai besoin d'un autre conseil aujourd'hui. J'essaie de créer du code Python/Selenium et l...

Depuis 2024-04-04 14:14:44

0

1

3492

Selenium + Python - inspecter l'image viaexecute_script Je dois vérifier qu'une image est affichée sur la page en utilisant du sélénium en python....

Depuis 2024-04-03 09:32:15

0

1

375

Comment conserver les X premières lignes et supprimer les lignes du tableau J'ai une grande table avec des millions d'enregistrements dans MySQLincident_archive, je s...

Depuis 2024-04-01 18:32:54

0

1

347

Comment récupérer un texte Google Weather spécifique à l'aide de BeautifulSoup ? Comment trouver le texte du cours « New York City, USA » en Python à l'aide de BeautifulSo...

Depuis 2024-04-01 14:06:14

0

1

308

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal