Maison développement back-end Tutoriel Python Comment extraire des phrases clés de fichiers PDF à l'aide de Python pour le NLP ?

Comment extraire des phrases clés de fichiers PDF à l'aide de Python pour le NLP ?

Sep 28, 2023 am 11:36 AM
pdf extrait phrases clés

如何利用Python for NLP从PDF文件中提取关键句子?

Comment utiliser Python pour le PNL pour extraire des phrases clés de fichiers PDF ?

Introduction :
Avec le développement rapide des technologies de l'information, le traitement du langage naturel (NLP) joue un rôle important dans des domaines tels que l'analyse de texte, l'extraction d'informations et la traduction automatique. Dans les applications pratiques, il est souvent nécessaire d'extraire des informations clés à partir d'une grande quantité de données textuelles, par exemple en extrayant des phrases clés à partir de fichiers PDF. Cet article explique comment utiliser le package NLP de Python pour extraire des phrases clés de fichiers PDF et fournit des exemples de code détaillés.

Étape 1 : Installez les bibliothèques Python requises
Avant de commencer, nous devons installer plusieurs bibliothèques Python pour faciliter le traitement de texte ultérieur et l'analyse des fichiers PDF.

1. Installez la bibliothèque nltk :
Entrez la commande suivante sur la ligne de commande pour installer la bibliothèque nltk :

pip install nltk

2 Installez la bibliothèque pdfminer :
Entrez la commande suivante sur la ligne de commande pour installer la bibliothèque pdfminer :

.
pip install pdfminer.six

Étape 2 : Analyser les fichiers PDF
Tout d'abord, nous devons convertir le fichier PDF au format texte brut. La bibliothèque pdfminer nous offre la fonctionnalité nécessaire pour analyser les fichiers PDF.

Ce qui suit est une fonction qui peut convertir des fichiers PDF en texte brut :

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_text(file_path):
    resource_manager = PDFResourceManager()
    string_io = StringIO()
    laparams = LAParams()
    device = TextConverter(resource_manager, string_io, laparams=laparams)
    interpreter = PDFPageInterpreter(resource_manager, device)

    with open(file_path, 'rb') as file:
        for page in PDFPage.get_pages(file):
            interpreter.process_page(page)

    text = string_io.getvalue()
    device.close()
    string_io.close()

    return text

Étape 3 : Extraire les phrases clés
Ensuite, nous devons utiliser la bibliothèque nltk pour extraire les phrases clés. nltk fournit des fonctions riches pour la tokenisation de texte, la segmentation de mots et la segmentation de phrases.

Ce qui suit est une fonction qui peut extraire des phrases clés du texte donné :

import nltk

def extract_key_sentences(text, num_sentences):
    sentences = nltk.sent_tokenize(text)
    word_frequencies = {}
    for sentence in sentences:
        words = nltk.word_tokenize(sentence)
        for word in words:
            if word not in word_frequencies:
                word_frequencies[word] = 1
            else:
                word_frequencies[word] += 1

    sorted_word_frequencies = sorted(word_frequencies.items(), key=lambda x: x[1], reverse=True)
    top_sentences = [sentence for (sentence, _) in sorted_word_frequencies[:num_sentences]]

    return top_sentences

Étape 4 : Exemple de code complet
Ce qui suit est l'exemple de code complet qui montre comment extraire des phrases clés d'un fichier PDF :

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from io import StringIO
import nltk

def convert_pdf_to_text(file_path):
    resource_manager = PDFResourceManager()
    string_io = StringIO()
    laparams = LAParams()
    device = TextConverter(resource_manager, string_io, laparams=laparams)
    interpreter = PDFPageInterpreter(resource_manager, device)

    with open(file_path, 'rb') as file:
        for page in PDFPage.get_pages(file):
            interpreter.process_page(page)

    text = string_io.getvalue()
    device.close()
    string_io.close()

    return text

def extract_key_sentences(text, num_sentences):
    sentences = nltk.sent_tokenize(text)
    word_frequencies = {}
    for sentence in sentences:
        words = nltk.word_tokenize(sentence)
        for word in words:
            if word not in word_frequencies:
                word_frequencies[word] = 1
            else:
                word_frequencies[word] += 1

    sorted_word_frequencies = sorted(word_frequencies.items(), key=lambda x: x[1], reverse=True)
    top_sentences = [sentence for (sentence, _) in sorted_word_frequencies[:num_sentences]]

    return top_sentences

# 示例使用
pdf_file = 'example.pdf'
text = convert_pdf_to_text(pdf_file)
key_sentences = extract_key_sentences(text, 5)
for sentence in key_sentences:
    print(sentence)

Résumé :
Cet article présente la méthode d'extraction de phrases clés à partir de fichiers PDF à l'aide du package NLP de Python. En convertissant les fichiers PDF en texte brut via la bibliothèque pdfminer et en utilisant les fonctions de tokenisation et de segmentation de phrases de la bibliothèque nltk, nous pouvons facilement extraire des phrases clés. Cette méthode est largement utilisée dans des domaines tels que l’extraction d’informations, la synthèse de textes et la construction de graphes de connaissances. J'espère que le contenu de cet article vous sera utile et pourra être utilisé dans des applications pratiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Stock Market GPT

Stock Market GPT

Recherche d'investissement basée sur l'IA pour des décisions plus intelligentes

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment convertir un pdf en word Comment convertir un pdf en word Apr 30, 2024 pm 05:58 PM

1. Utilisez des outils de conversion en ligne tels que Smallpdf, Adobe Acrobat ou Zamzar. 2. Ces outils fournissent généralement une interface facile à utiliser, permettant aux utilisateurs de télécharger des fichiers PDF et éventuellement de les convertir au format Word. 3. Une fois la conversion terminée, les utilisateurs peuvent télécharger le document Word et effectuer d'autres modifications. 4. Utilisez un logiciel de conversion PDF professionnel, tel qu'Adobe Acrobat Pro ou Wondershare PDFelement.

Comment enregistrer des pages Web au format PDF dans Google Chrome Comment enregistrer des pages Web au format PDF dans Google Chrome Apr 08, 2024 pm 03:10 PM

Comment enregistrer des pages Web au format PDF dans Google Chrome ? Les pages Web de Google Chrome se chargent très rapidement, elles sont donc bien accueillies par de nombreux utilisateurs. De nombreux utilisateurs aiment utiliser Google Chrome pour le bureau ou le travail. Lorsque nous recherchons des informations dans le navigateur, nous pouvons exporter la page d'informations en mode PDF, ce qui est pratique. pour nous, affichez et modifiez, mais de nombreux utilisateurs ne savent pas comment enregistrer des pages Web au format PDF. Cet article vous présentera les étapes pour enregistrer des pages Web au format PDF dans les paramètres de Google Chrome. J'espère qu'il pourra vous être utile. Paramètres de Google Chrome pour enregistrer des pages Web au format PDF Étapes d'introduction : Nous visitons Google Chrome, recherchons la page Web du fichier PDF que vous souhaitez conserver, puis cliquons avec le pointeur de la souris sur [Personnaliser et contrôler] ci-dessus, puis sélectionnons [

Étapes pour convertir des pages Web au format PDF sur iPhone 8 Étapes pour convertir des pages Web au format PDF sur iPhone 8 Mar 26, 2024 pm 04:21 PM

1. Cliquez sur le navigateur Safari. 2. Cliquez sur le bouton Partager. 3. Sélectionnez Créer un PDF.

Méthode détaillée de création de documents pdf avec wps Méthode détaillée de création de documents pdf avec wps Mar 27, 2024 pm 05:51 PM

1. Exécutez [Modifier] → [Rechercher] pour trouver rapidement les titres portant la marque [§§§] Après les avoir sélectionnés, exécutez [Style et format] pour les définir comme style de titre 3. La même méthode est utilisée pour traiter les titres de premier et deuxième niveaux avec [§][§§]. Recherchez le caractère de saut de page [------------------] dans le fichier texte d'origine, puis remplacez-le pour obtenir l'effet de saut de page. Vous pouvez tous les remplacer par l'identifiant de saut de page souhaité en exécutant la fonction Remplacer dans le menu Edition, en sélectionnant Options avancées, puis en sélectionnant Saut de page manuel (K) dans Caractères spéciaux. Vous pouvez également saisir l’identifiant de saut de page manuel ^m directement dans la zone Remplacer par pour terminer cette opération. Sélectionnez [§] dans n'importe quel titre, cliquez sur [Modifier] → [Remplacer], ne saisissez aucun contenu

Comment créer un PDF avec PHP ? Comment créer un PDF avec PHP ? Apr 20, 2024 am 11:39 AM

Comment utiliser PHP pour créer des PDF Installez les bibliothèques requises : PHP7.1 ou supérieur, bibliothèque mPDF. Créez des fichiers PDF : instancier des objets mPDF, écrire du contenu HTML et générer des fichiers PDF. Cas pratique : Générez des factures utilisateur, comprenant les informations client, les informations sur la facture, la liste des produits et le montant total.

Comment ajouter une vidéo ou un son à un PDF à l'aide d'Adobe Acrobat Pro? Comment ajouter une vidéo ou un son à un PDF à l'aide d'Adobe Acrobat Pro? Jul 08, 2025 am 12:50 AM

Utilisez Adobe Acrobatpro pour insérer la vidéo ou l'audio dans PDF. Les étapes spécifiques sont les suivantes: 1. Ouvrez le fichier PDF et entrez le groupe d'outils "Commentaire et marque" ou "Préparer le formulaire"; 2. Sélectionnez la fonction "File Jatt" ou "Insérer des supports"; 3. Sélectionnez le fichier requis dans l'ordinateur pour terminer l'insertion. Après insertion, une icône qui peut être jouée en double-cliquant sur l'icône sera générée. Cliquez avec le bouton droit sur l'icône peut ajuster le style d'affichage et confirmer si le chemin du fichier est correct. Les notes incluent: assurez-vous que les fichiers multimédias sont dans le même répertoire que le PDF pour éviter les problèmes de chemin. Il est recommandé que le destinataire utilise le logiciel Adobe Acrobat Series pour l'ouvrir pour assurer la compatibilité. Le fonctionnement de différentes versions est légèrement différent et il est recommandé d'utiliser AcrobatDC pour une meilleure prise en charge fonctionnelle et compatibilité. entier

Comment intégrer un document PDF dans HTML? Comment intégrer un document PDF dans HTML? Aug 01, 2025 am 06:52 AM

L'utilisation de balises est la méthode la plus simple et recommandée. La syntaxe convient aux navigateurs modernes pour intégrer directement le PDF; 2. L'utilisation de balises peut fournir une meilleure prise en charge du contenu de contrôle et de sauvegarde, la syntaxe est, et fournit des liens de téléchargement dans les balises sous forme de solutions de sauvegarde lorsqu'elles ne sont pas prises en charge; 3. Il peut être intégré via Google Docsviewer, mais il n'est pas recommandé d'utiliser largement en raison de problèmes de confidentialité et de performances; 4. Afin d'améliorer l'expérience utilisateur, les hauteurs appropriées doivent être définies, des tailles réactives (telles que la hauteur: 80VH) et les liens de téléchargement PDF doivent être fournis afin que les utilisateurs puissent les télécharger et les visualiser eux-mêmes.

See all articles