Python pour le NLP : Comment identifier et traiter les données tabulaires des fichiers PDF ?
Résumé :
Avec l'avènement de l'ère numérique, une grande quantité de données est stockée dans les ordinateurs au format PDF. Cela comprend une grande quantité de données tabulaires, très précieuses pour la recherche et l’application du traitement du langage naturel (NLP). Cet article explique comment utiliser Python et certaines bibliothèques couramment utilisées pour identifier et traiter les données tabulaires des fichiers PDF. L'article donnera des exemples de code spécifiques combinés avec des exemples.
Peut être installé à l'aide de la commande pip :
pip install PyPDF2 pip install tabula-py pip install pandas
Lecture de fichiers PDF
La lecture de fichiers PDF est simple grâce à la bibliothèque PyPDF2. Voici un exemple de code pour lire et imprimer le texte d'un fichier PDF :
import PyPDF2 def read_pdf(file_path): with open(file_path, 'rb') as file: pdf_reader = PyPDF2.PdfFileReader(file) num_pages = pdf_reader.getNumPages() for page in range(num_pages): page_content = pdf_reader.getPage(page).extractText() print(page_content)
Extraire des données tabulaires
Pour extraire des données tabulaires d'un fichier PDF, nous pouvons utiliser la bibliothèque tabula-py. Vous trouverez ci-dessous un exemple de code pour extraire les données du premier tableau dans un fichier PDF et l'enregistrer sous forme de fichier CSV :
import tabula def extract_table(file_path, page_num): dfs = tabula.read_pdf(file_path, pages=page_num, multiple_tables=True) table = dfs[0] # 假设第一个表格是我们想要提取的表格 table.to_csv('table.csv', index=False) # 将表格数据保存为CSV文件
Traitement des données du tableau
Une fois que nous avons réussi à extraire les données du tableau, nous pouvons utiliser la bibliothèque pandas pour traitement ultérieur. Vous trouverez ci-dessous un exemple de code qui lit les données tabulaires d'un fichier CSV et calcule la moyenne de chaque colonne :
import pandas as pd def process_table(csv_file): table = pd.read_csv(csv_file) average_values = table.mean(axis=0) print(average_values)
Conclusion :
En utilisant Python et certaines bibliothèques courantes, nous pouvons facilement identifier et traiter les données tabulaires à partir de fichiers PDF. Dans cet article, nous expliquons comment installer les bibliothèques nécessaires, lire des fichiers PDF, extraire des données tabulaires et traiter les données tabulaires. Ces opérations fournissent une base et une référence pour d’autres recherches et applications sur le traitement du langage naturel. J'espère que cet article vous aidera !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!