Maison développement back-end Tutoriel Python Comment extraire des phrases clés de fichiers PDF à l'aide de Python pour le NLP ?

Comment extraire des phrases clés de fichiers PDF à l'aide de Python pour le NLP ?

Sep 28, 2023 am 11:36 AM
pdf extrait phrases clés

如何利用Python for NLP从PDF文件中提取关键句子?

Comment utiliser Python pour le PNL pour extraire des phrases clés de fichiers PDF ?

Introduction :
Avec le développement rapide des technologies de l'information, le traitement du langage naturel (NLP) joue un rôle important dans des domaines tels que l'analyse de texte, l'extraction d'informations et la traduction automatique. Dans les applications pratiques, il est souvent nécessaire d'extraire des informations clés à partir d'une grande quantité de données textuelles, par exemple en extrayant des phrases clés à partir de fichiers PDF. Cet article explique comment utiliser le package NLP de Python pour extraire des phrases clés de fichiers PDF et fournit des exemples de code détaillés.

Étape 1 : Installez les bibliothèques Python requises
Avant de commencer, nous devons installer plusieurs bibliothèques Python pour faciliter le traitement de texte ultérieur et l'analyse des fichiers PDF.

1. Installez la bibliothèque nltk :
Entrez la commande suivante sur la ligne de commande pour installer la bibliothèque nltk :

pip install nltk

2 Installez la bibliothèque pdfminer :
Entrez la commande suivante sur la ligne de commande pour installer la bibliothèque pdfminer :

.
pip install pdfminer.six

Étape 2 : Analyser les fichiers PDF
Tout d'abord, nous devons convertir le fichier PDF au format texte brut. La bibliothèque pdfminer nous offre la fonctionnalité nécessaire pour analyser les fichiers PDF.

Ce qui suit est une fonction qui peut convertir des fichiers PDF en texte brut :

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_text(file_path):
    resource_manager = PDFResourceManager()
    string_io = StringIO()
    laparams = LAParams()
    device = TextConverter(resource_manager, string_io, laparams=laparams)
    interpreter = PDFPageInterpreter(resource_manager, device)

    with open(file_path, 'rb') as file:
        for page in PDFPage.get_pages(file):
            interpreter.process_page(page)

    text = string_io.getvalue()
    device.close()
    string_io.close()

    return text

Étape 3 : Extraire les phrases clés
Ensuite, nous devons utiliser la bibliothèque nltk pour extraire les phrases clés. nltk fournit des fonctions riches pour la tokenisation de texte, la segmentation de mots et la segmentation de phrases.

Ce qui suit est une fonction qui peut extraire des phrases clés du texte donné :

import nltk

def extract_key_sentences(text, num_sentences):
    sentences = nltk.sent_tokenize(text)
    word_frequencies = {}
    for sentence in sentences:
        words = nltk.word_tokenize(sentence)
        for word in words:
            if word not in word_frequencies:
                word_frequencies[word] = 1
            else:
                word_frequencies[word] += 1

    sorted_word_frequencies = sorted(word_frequencies.items(), key=lambda x: x[1], reverse=True)
    top_sentences = [sentence for (sentence, _) in sorted_word_frequencies[:num_sentences]]

    return top_sentences

Étape 4 : Exemple de code complet
Ce qui suit est l'exemple de code complet qui montre comment extraire des phrases clés d'un fichier PDF :

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from io import StringIO
import nltk

def convert_pdf_to_text(file_path):
    resource_manager = PDFResourceManager()
    string_io = StringIO()
    laparams = LAParams()
    device = TextConverter(resource_manager, string_io, laparams=laparams)
    interpreter = PDFPageInterpreter(resource_manager, device)

    with open(file_path, 'rb') as file:
        for page in PDFPage.get_pages(file):
            interpreter.process_page(page)

    text = string_io.getvalue()
    device.close()
    string_io.close()

    return text

def extract_key_sentences(text, num_sentences):
    sentences = nltk.sent_tokenize(text)
    word_frequencies = {}
    for sentence in sentences:
        words = nltk.word_tokenize(sentence)
        for word in words:
            if word not in word_frequencies:
                word_frequencies[word] = 1
            else:
                word_frequencies[word] += 1

    sorted_word_frequencies = sorted(word_frequencies.items(), key=lambda x: x[1], reverse=True)
    top_sentences = [sentence for (sentence, _) in sorted_word_frequencies[:num_sentences]]

    return top_sentences

# 示例使用
pdf_file = 'example.pdf'
text = convert_pdf_to_text(pdf_file)
key_sentences = extract_key_sentences(text, 5)
for sentence in key_sentences:
    print(sentence)

Résumé :
Cet article présente la méthode d'extraction de phrases clés à partir de fichiers PDF à l'aide du package NLP de Python. En convertissant les fichiers PDF en texte brut via la bibliothèque pdfminer et en utilisant les fonctions de tokenisation et de segmentation de phrases de la bibliothèque nltk, nous pouvons facilement extraire des phrases clés. Cette méthode est largement utilisée dans des domaines tels que l’extraction d’informations, la synthèse de textes et la construction de graphes de connaissances. J'espère que le contenu de cet article vous sera utile et pourra être utilisé dans des applications pratiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Porce de variable PHP expliquée
1 Il y a quelques mois By 百草
Conseils pour écrire des commentaires PHP
4 Il y a quelques semaines By 百草
Commentant le code en php
4 Il y a quelques semaines By 百草
<🎜>: Grow A Garden - Guide complet des marchands itinérants
3 Il y a quelques semaines By Jack chen

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel PHP
1510
276
Comment fusionner des PDF sur iPhone Comment fusionner des PDF sur iPhone Feb 02, 2024 pm 04:05 PM

Lorsque vous travaillez avec plusieurs documents ou plusieurs pages du même document, vous souhaiterez peut-être les combiner en un seul fichier à partager avec d'autres. Pour un partage facile, Apple vous permet de fusionner plusieurs fichiers PDF en un seul fichier pour éviter d'envoyer plusieurs fichiers. Dans cet article, nous vous aiderons à connaître toutes les façons de fusionner deux ou plusieurs PDF en un seul fichier PDF sur iPhone. Comment fusionner des fichiers PDF sur iPhone Sur iOS, vous pouvez fusionner des fichiers PDF en un seul de deux manières : en utilisant l'application Fichiers et l'application Raccourcis. Méthode 1 : utiliser l'application Fichiers Le moyen le plus simple de fusionner deux ou plusieurs PDF en un seul fichier consiste à utiliser l'application Fichiers. Ouvrir sur iPhone

Comment importer et annoter des PDF dans Apple Notes Comment importer et annoter des PDF dans Apple Notes Oct 13, 2023 am 08:05 AM

Dans iOS 17 et MacOS Sonoma, Apple a ajouté la possibilité d'ouvrir et d'annoter des PDF directement dans l'application Notes. Lisez la suite pour savoir comment procéder. Dans les dernières versions d'iOS et de macOS, Apple a mis à jour l'application Notes pour prendre en charge les PDF en ligne, ce qui signifie que vous pouvez insérer des PDF dans Notes, puis lire, annoter et collaborer sur le document. Cette fonctionnalité fonctionne également avec les documents numérisés et est disponible sur iPhone et iPad. Annoter un PDF dans Notes sur iPhone et iPad Si vous utilisez un iPhone et souhaitez annoter un PDF dans Notes, la première chose à faire est de sélectionner le fichier PDF

3 façons d'obtenir du texte à partir d'un PDF sur iPhone 3 façons d'obtenir du texte à partir d'un PDF sur iPhone Mar 16, 2024 pm 09:20 PM

La fonction Live Text d'Apple reconnaît le texte, les notes manuscrites et les chiffres dans les photos ou via l'application Appareil photo et vous permet de coller ces informations sur n'importe quelle autre application. Mais que faire lorsque vous travaillez avec un PDF et que vous souhaitez en extraire du texte ? Dans cet article, nous expliquerons toutes les façons d'extraire du texte à partir de fichiers PDF sur iPhone. Comment obtenir du texte à partir d'un fichier PDF sur iPhone [3 méthodes] Méthode 1 : faire glisser du texte sur un PDF Le moyen le plus simple d'extraire du texte d'un PDF est de le copier, comme sur n'importe quelle autre application contenant du texte. 1. Ouvrez le fichier PDF dont vous souhaitez extraire le texte, puis appuyez longuement n'importe où sur le PDF et commencez à faire glisser la partie du texte que vous souhaitez copier. 2

Comment convertir des fichiers png en pdf Comment convertir des fichiers png en pdf Nov 14, 2023 am 10:41 AM

Les méthodes comprennent : 1. Utiliser des outils de conversion de documents professionnels ; 2. Utiliser des outils de conversion en ligne ; 3. Utiliser des imprimantes virtuelles ;

Comment exporter des fichiers Xmind vers des fichiers PDF Comment exporter des fichiers Xmind vers des fichiers PDF Mar 20, 2024 am 10:30 AM

xmind est un logiciel de cartographie mentale très pratique. Il s'agit d'un formulaire cartographique créé à partir de la réflexion et de l'inspiration des gens. Après avoir créé le fichier xmind, nous le convertissons généralement au format de fichier PDF pour faciliter la diffusion et l'utilisation par chacun. vers des fichiers pdf ? Vous trouverez ci-dessous les étapes spécifiques pour votre référence. 1. Tout d’abord, montrons comment exporter la carte mentale vers un document PDF. Sélectionnez le bouton de fonction [Fichier]-[Exporter]. 2. Sélectionnez [Document PDF] dans la nouvelle interface apparue et cliquez sur le bouton [Suivant]. 3. Sélectionnez les paramètres dans l'interface d'exportation : format du papier, orientation, résolution et emplacement de stockage du document. Après avoir terminé les réglages, cliquez sur le bouton [Terminer]. 4. Si vous cliquez sur le bouton [Terminer]

Comment vérifier la signature dans un PDF Comment vérifier la signature dans un PDF Feb 18, 2024 pm 05:33 PM

Nous recevons généralement des fichiers PDF du gouvernement ou d'autres agences, certains avec des signatures numériques. Après avoir vérifié la signature, nous voyons le message SignatureValid et une coche verte. Si la signature n'est pas vérifiée, la validité est inconnue. La vérification des signatures est importante, voyons comment le faire en PDF. Comment vérifier les signatures au format PDF La vérification des signatures au format PDF le rend plus fiable et le document est plus susceptible d'être accepté. Vous pouvez vérifier les signatures dans les documents PDF des manières suivantes. Ouvrez le PDF dans Adobe Reader Cliquez avec le bouton droit sur la signature et sélectionnez Afficher les propriétés de la signature Cliquez sur le bouton Afficher le certificat du signataire Ajoutez la signature à la liste des certificats de confiance à partir de l'onglet Confiance Cliquez sur Vérifier la signature pour terminer la vérification.

Résoudre le problème du téléchargement de fichiers PDF en PHP7 Résoudre le problème du téléchargement de fichiers PDF en PHP7 Feb 29, 2024 am 11:12 AM

Résoudre les problèmes rencontrés lors du téléchargement de fichiers PDF en PHP7 En développement web, nous rencontrons souvent le besoin d'utiliser PHP pour télécharger des fichiers. Le téléchargement de fichiers PDF en particulier peut aider les utilisateurs à obtenir les informations ou les fichiers nécessaires. Cependant, vous rencontrerez parfois des problèmes lors du téléchargement de fichiers PDF en PHP7, tels que des caractères tronqués et des téléchargements incomplets. Cet article détaillera comment résoudre les problèmes que vous pourriez rencontrer lors du téléchargement de fichiers PDF en PHP7 et fournira quelques exemples de code spécifiques. Analyse du problème : en PHP7, en raison de l'encodage des caractères et du H

Découvrez comment faire pivoter des fichiers PDF à l'aide des touches de raccourci du navigateur Edge Découvrez comment faire pivoter des fichiers PDF à l'aide des touches de raccourci du navigateur Edge Jan 05, 2024 am 09:17 AM

Bien que les fichiers PDF soient très pratiques à utiliser, de nombreux amis aiment toujours utiliser Word pour les modifier et les visualiser, alors comment les convertir ? Jetons un coup d'œil à la méthode de fonctionnement détaillée ci-dessous. Touche de raccourci de rotation PDF du navigateur Edge : A : La touche de raccourci pour la rotation est F9. 1. Cliquez avec le bouton droit sur le fichier PDF et sélectionnez « Ouvrir avec ». 2. Sélectionnez « Microsoft Edge » pour ouvrir le fichier PDF. 3. Après avoir saisi le fichier pdf, une barre des tâches apparaîtra ci-dessous. 4. Cliquez sur le bouton de rotation à côté du signe « + » pour faire pivoter vers la droite.

See all articles