


Comment extraire des phrases clés de fichiers PDF à l'aide de Python pour le NLP ?
Comment utiliser Python pour le PNL pour extraire des phrases clés de fichiers PDF ?
Introduction :
Avec le développement rapide des technologies de l'information, le traitement du langage naturel (NLP) joue un rôle important dans des domaines tels que l'analyse de texte, l'extraction d'informations et la traduction automatique. Dans les applications pratiques, il est souvent nécessaire d'extraire des informations clés à partir d'une grande quantité de données textuelles, par exemple en extrayant des phrases clés à partir de fichiers PDF. Cet article explique comment utiliser le package NLP de Python pour extraire des phrases clés de fichiers PDF et fournit des exemples de code détaillés.
Étape 1 : Installez les bibliothèques Python requises
Avant de commencer, nous devons installer plusieurs bibliothèques Python pour faciliter le traitement de texte ultérieur et l'analyse des fichiers PDF.
1. Installez la bibliothèque nltk :
Entrez la commande suivante sur la ligne de commande pour installer la bibliothèque nltk :
pip install nltk
2 Installez la bibliothèque pdfminer :
Entrez la commande suivante sur la ligne de commande pour installer la bibliothèque pdfminer :
pip install pdfminer.six
Étape 2 : Analyser les fichiers PDF
Tout d'abord, nous devons convertir le fichier PDF au format texte brut. La bibliothèque pdfminer nous offre la fonctionnalité nécessaire pour analyser les fichiers PDF.
Ce qui suit est une fonction qui peut convertir des fichiers PDF en texte brut :
from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfpage import PDFPage from io import StringIO def convert_pdf_to_text(file_path): resource_manager = PDFResourceManager() string_io = StringIO() laparams = LAParams() device = TextConverter(resource_manager, string_io, laparams=laparams) interpreter = PDFPageInterpreter(resource_manager, device) with open(file_path, 'rb') as file: for page in PDFPage.get_pages(file): interpreter.process_page(page) text = string_io.getvalue() device.close() string_io.close() return text
Étape 3 : Extraire les phrases clés
Ensuite, nous devons utiliser la bibliothèque nltk pour extraire les phrases clés. nltk fournit des fonctions riches pour la tokenisation de texte, la segmentation de mots et la segmentation de phrases.
Ce qui suit est une fonction qui peut extraire des phrases clés du texte donné :
import nltk def extract_key_sentences(text, num_sentences): sentences = nltk.sent_tokenize(text) word_frequencies = {} for sentence in sentences: words = nltk.word_tokenize(sentence) for word in words: if word not in word_frequencies: word_frequencies[word] = 1 else: word_frequencies[word] += 1 sorted_word_frequencies = sorted(word_frequencies.items(), key=lambda x: x[1], reverse=True) top_sentences = [sentence for (sentence, _) in sorted_word_frequencies[:num_sentences]] return top_sentences
Étape 4 : Exemple de code complet
Ce qui suit est l'exemple de code complet qui montre comment extraire des phrases clés d'un fichier PDF :
from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfpage import PDFPage from io import StringIO import nltk def convert_pdf_to_text(file_path): resource_manager = PDFResourceManager() string_io = StringIO() laparams = LAParams() device = TextConverter(resource_manager, string_io, laparams=laparams) interpreter = PDFPageInterpreter(resource_manager, device) with open(file_path, 'rb') as file: for page in PDFPage.get_pages(file): interpreter.process_page(page) text = string_io.getvalue() device.close() string_io.close() return text def extract_key_sentences(text, num_sentences): sentences = nltk.sent_tokenize(text) word_frequencies = {} for sentence in sentences: words = nltk.word_tokenize(sentence) for word in words: if word not in word_frequencies: word_frequencies[word] = 1 else: word_frequencies[word] += 1 sorted_word_frequencies = sorted(word_frequencies.items(), key=lambda x: x[1], reverse=True) top_sentences = [sentence for (sentence, _) in sorted_word_frequencies[:num_sentences]] return top_sentences # 示例使用 pdf_file = 'example.pdf' text = convert_pdf_to_text(pdf_file) key_sentences = extract_key_sentences(text, 5) for sentence in key_sentences: print(sentence)
Résumé :
Cet article présente la méthode d'extraction de phrases clés à partir de fichiers PDF à l'aide du package NLP de Python. En convertissant les fichiers PDF en texte brut via la bibliothèque pdfminer et en utilisant les fonctions de tokenisation et de segmentation de phrases de la bibliothèque nltk, nous pouvons facilement extraire des phrases clés. Cette méthode est largement utilisée dans des domaines tels que l’extraction d’informations, la synthèse de textes et la construction de graphes de connaissances. J'espère que le contenu de cet article vous sera utile et pourra être utilisé dans des applications pratiques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Stock Market GPT
Recherche d'investissement basée sur l'IA pour des décisions plus intelligentes

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds



1. Utilisez des outils de conversion en ligne tels que Smallpdf, Adobe Acrobat ou Zamzar. 2. Ces outils fournissent généralement une interface facile à utiliser, permettant aux utilisateurs de télécharger des fichiers PDF et éventuellement de les convertir au format Word. 3. Une fois la conversion terminée, les utilisateurs peuvent télécharger le document Word et effectuer d'autres modifications. 4. Utilisez un logiciel de conversion PDF professionnel, tel qu'Adobe Acrobat Pro ou Wondershare PDFelement.

Comment enregistrer des pages Web au format PDF dans Google Chrome ? Les pages Web de Google Chrome se chargent très rapidement, elles sont donc bien accueillies par de nombreux utilisateurs. De nombreux utilisateurs aiment utiliser Google Chrome pour le bureau ou le travail. Lorsque nous recherchons des informations dans le navigateur, nous pouvons exporter la page d'informations en mode PDF, ce qui est pratique. pour nous, affichez et modifiez, mais de nombreux utilisateurs ne savent pas comment enregistrer des pages Web au format PDF. Cet article vous présentera les étapes pour enregistrer des pages Web au format PDF dans les paramètres de Google Chrome. J'espère qu'il pourra vous être utile. Paramètres de Google Chrome pour enregistrer des pages Web au format PDF Étapes d'introduction : Nous visitons Google Chrome, recherchons la page Web du fichier PDF que vous souhaitez conserver, puis cliquons avec le pointeur de la souris sur [Personnaliser et contrôler] ci-dessus, puis sélectionnons [

1. Cliquez sur le navigateur Safari. 2. Cliquez sur le bouton Partager. 3. Sélectionnez Créer un PDF.

1. Exécutez [Modifier] → [Rechercher] pour trouver rapidement les titres portant la marque [§§§] Après les avoir sélectionnés, exécutez [Style et format] pour les définir comme style de titre 3. La même méthode est utilisée pour traiter les titres de premier et deuxième niveaux avec [§][§§]. Recherchez le caractère de saut de page [------------------] dans le fichier texte d'origine, puis remplacez-le pour obtenir l'effet de saut de page. Vous pouvez tous les remplacer par l'identifiant de saut de page souhaité en exécutant la fonction Remplacer dans le menu Edition, en sélectionnant Options avancées, puis en sélectionnant Saut de page manuel (K) dans Caractères spéciaux. Vous pouvez également saisir l’identifiant de saut de page manuel ^m directement dans la zone Remplacer par pour terminer cette opération. Sélectionnez [§] dans n'importe quel titre, cliquez sur [Modifier] → [Remplacer], ne saisissez aucun contenu

Comment utiliser PHP pour créer des PDF Installez les bibliothèques requises : PHP7.1 ou supérieur, bibliothèque mPDF. Créez des fichiers PDF : instancier des objets mPDF, écrire du contenu HTML et générer des fichiers PDF. Cas pratique : Générez des factures utilisateur, comprenant les informations client, les informations sur la facture, la liste des produits et le montant total.

Utilisez Adobe Acrobatpro pour insérer la vidéo ou l'audio dans PDF. Les étapes spécifiques sont les suivantes: 1. Ouvrez le fichier PDF et entrez le groupe d'outils "Commentaire et marque" ou "Préparer le formulaire"; 2. Sélectionnez la fonction "File Jatt" ou "Insérer des supports"; 3. Sélectionnez le fichier requis dans l'ordinateur pour terminer l'insertion. Après insertion, une icône qui peut être jouée en double-cliquant sur l'icône sera générée. Cliquez avec le bouton droit sur l'icône peut ajuster le style d'affichage et confirmer si le chemin du fichier est correct. Les notes incluent: assurez-vous que les fichiers multimédias sont dans le même répertoire que le PDF pour éviter les problèmes de chemin. Il est recommandé que le destinataire utilise le logiciel Adobe Acrobat Series pour l'ouvrir pour assurer la compatibilité. Le fonctionnement de différentes versions est légèrement différent et il est recommandé d'utiliser AcrobatDC pour une meilleure prise en charge fonctionnelle et compatibilité. entier

L'utilisation de balises est la méthode la plus simple et recommandée. La syntaxe convient aux navigateurs modernes pour intégrer directement le PDF; 2. L'utilisation de balises peut fournir une meilleure prise en charge du contenu de contrôle et de sauvegarde, la syntaxe est, et fournit des liens de téléchargement dans les balises sous forme de solutions de sauvegarde lorsqu'elles ne sont pas prises en charge; 3. Il peut être intégré via Google Docsviewer, mais il n'est pas recommandé d'utiliser largement en raison de problèmes de confidentialité et de performances; 4. Afin d'améliorer l'expérience utilisateur, les hauteurs appropriées doivent être définies, des tailles réactives (telles que la hauteur: 80VH) et les liens de téléchargement PDF doivent être fournis afin que les utilisateurs puissent les télécharger et les visualiser eux-mêmes.
