Rumah pembangunan bahagian belakang Tutorial Python Bagaimana untuk mengekstrak ayat utama daripada fail PDF menggunakan Python untuk NLP?

Bagaimana untuk mengekstrak ayat utama daripada fail PDF menggunakan Python untuk NLP?

Sep 28, 2023 am 11:36 AM
pdf ekstrak ayat kunci

如何利用Python for NLP从PDF文件中提取关键句子?

Bagaimana cara menggunakan Python untuk NLP untuk mengekstrak ayat utama daripada fail PDF?

Pengenalan:
Dengan perkembangan pesat teknologi maklumat, Natural Language Processing (NLP) memainkan peranan penting dalam bidang seperti analisis teks, pengekstrakan maklumat dan terjemahan mesin. Dalam aplikasi praktikal, selalunya perlu untuk mengekstrak maklumat penting daripada sejumlah besar data teks, seperti mengekstrak ayat utama daripada fail PDF. Artikel ini akan memperkenalkan cara menggunakan pakej NLP Python untuk mengekstrak ayat utama daripada fail PDF, dan memberikan contoh kod terperinci.

Langkah 1: Pasang perpustakaan Python yang diperlukan
Sebelum kita mula, kita perlu memasang beberapa perpustakaan Python untuk memudahkan pemprosesan teks seterusnya dan penghuraian fail PDF.

1. Pasang perpustakaan nltk:
Masukkan arahan berikut pada baris arahan untuk memasang perpustakaan nltk:

pip install nltk

2 Pasang perpustakaan pdfminer:
Masukkan arahan berikut pada baris arahan untuk memasang perpustakaan pdfminer:

.
pip install pdfminer.six

Langkah 2: Menghuraikan fail PDF
Mula-mula, kita perlu menukar fail PDF kepada format teks biasa. Pustaka pdfminer memberikan kami fungsi untuk menghuraikan fail PDF.

Berikut ialah fungsi yang boleh menukar fail PDF kepada teks biasa:

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_text(file_path):
    resource_manager = PDFResourceManager()
    string_io = StringIO()
    laparams = LAParams()
    device = TextConverter(resource_manager, string_io, laparams=laparams)
    interpreter = PDFPageInterpreter(resource_manager, device)

    with open(file_path, 'rb') as file:
        for page in PDFPage.get_pages(file):
            interpreter.process_page(page)

    text = string_io.getvalue()
    device.close()
    string_io.close()

    return text

Langkah 3: Ekstrak ayat utama
Seterusnya, kita perlu menggunakan perpustakaan nltk untuk mengekstrak ayat utama. nltk menyediakan fungsi yang kaya untuk tokenisasi, pembahagian perkataan dan pembahagian ayat teks.

Berikut ialah fungsi yang boleh mengekstrak ayat utama daripada teks yang diberikan:

import nltk

def extract_key_sentences(text, num_sentences):
    sentences = nltk.sent_tokenize(text)
    word_frequencies = {}
    for sentence in sentences:
        words = nltk.word_tokenize(sentence)
        for word in words:
            if word not in word_frequencies:
                word_frequencies[word] = 1
            else:
                word_frequencies[word] += 1

    sorted_word_frequencies = sorted(word_frequencies.items(), key=lambda x: x[1], reverse=True)
    top_sentences = [sentence for (sentence, _) in sorted_word_frequencies[:num_sentences]]

    return top_sentences

Langkah 4: Lengkapkan kod contoh
Berikut ialah contoh kod lengkap yang menunjukkan cara mengekstrak ayat utama daripada fail PDF:

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from io import StringIO
import nltk

def convert_pdf_to_text(file_path):
    resource_manager = PDFResourceManager()
    string_io = StringIO()
    laparams = LAParams()
    device = TextConverter(resource_manager, string_io, laparams=laparams)
    interpreter = PDFPageInterpreter(resource_manager, device)

    with open(file_path, 'rb') as file:
        for page in PDFPage.get_pages(file):
            interpreter.process_page(page)

    text = string_io.getvalue()
    device.close()
    string_io.close()

    return text

def extract_key_sentences(text, num_sentences):
    sentences = nltk.sent_tokenize(text)
    word_frequencies = {}
    for sentence in sentences:
        words = nltk.word_tokenize(sentence)
        for word in words:
            if word not in word_frequencies:
                word_frequencies[word] = 1
            else:
                word_frequencies[word] += 1

    sorted_word_frequencies = sorted(word_frequencies.items(), key=lambda x: x[1], reverse=True)
    top_sentences = [sentence for (sentence, _) in sorted_word_frequencies[:num_sentences]]

    return top_sentences

# 示例使用
pdf_file = 'example.pdf'
text = convert_pdf_to_text(pdf_file)
key_sentences = extract_key_sentences(text, 5)
for sentence in key_sentences:
    print(sentence)

Ringkasan :
Artikel ini memperkenalkan kaedah mengekstrak ayat utama daripada fail PDF menggunakan pakej NLP Python. Dengan menukar fail PDF kepada teks biasa melalui perpustakaan pdfminer, dan menggunakan tokenisasi dan fungsi segmentasi ayat perpustakaan nltk, kami boleh mengekstrak ayat utama dengan mudah. Kaedah ini digunakan secara meluas dalam bidang seperti pengekstrakan maklumat, rumusan teks dan pembinaan graf pengetahuan. Saya harap kandungan artikel ini berguna kepada anda dan boleh digunakan dalam aplikasi praktikal.

Atas ialah kandungan terperinci Bagaimana untuk mengekstrak ayat utama daripada fail PDF menggunakan Python untuk NLP?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Stock Market GPT

Stock Market GPT

Penyelidikan pelaburan dikuasakan AI untuk keputusan yang lebih bijak

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bagaimana untuk menukar pdf ke word Bagaimana untuk menukar pdf ke word Apr 30, 2024 pm 05:58 PM

1. Gunakan alat penukaran dalam talian seperti Smallpdf, Adobe Acrobat atau Zamzar. 2. Alat ini biasanya menyediakan antara muka yang ringkas dan mudah digunakan, membolehkan pengguna memuat naik fail PDF dan menukarnya kepada format Word secara pilihan. 3. Selepas penukaran selesai, pengguna boleh memuat turun dokumen Word dan melakukan penyuntingan selanjutnya. 4. Gunakan perisian penukaran PDF profesional, seperti Adobe Acrobat Pro atau Wondershare PDFelement.

Bagaimana untuk menyimpan halaman web sebagai pdf dalam Google Chrome Bagaimana untuk menyimpan halaman web sebagai pdf dalam Google Chrome Apr 08, 2024 pm 03:10 PM

Bagaimana untuk menyimpan halaman web sebagai pdf dalam Google Chrome? Halaman web Google Chrome dimuatkan dengan sangat cepat, jadi ia dialu-alukan oleh ramai pengguna yang suka menggunakan Google Chrome untuk pejabat atau kerja Apabila kami mencari maklumat dalam penyemak imbas, kami boleh mengeksport halaman maklumat ke mod PDF, yang memudahkan untuk kami Lihat dan edit, tetapi ramai pengguna tidak tahu cara menyimpan halaman web sebagai PDF. Artikel ini akan memperkenalkan kepada anda langkah-langkah untuk menyimpan halaman web sebagai PDF dalam tetapan Google Chrome saya harap ia boleh membantu anda. Tetapan Google Chrome untuk menyimpan halaman web sebagai pengenalan langkah PDF: Kami melawati Google Chrome, cari halaman web fail PDF yang anda ingin simpan, kemudian klik penuding tetikus pada [Sesuaikan dan Kawalan] di atas, dan kemudian pilih [

Kaedah terperinci membuat dokumen pdf dengan wps Kaedah terperinci membuat dokumen pdf dengan wps Mar 27, 2024 pm 05:51 PM

1. Laksanakan [Edit] → [Cari] untuk mencari tajuk yang ditandakan dengan cepat dengan [§§§]. Selepas memilihnya, laksanakan [Gaya dan Format] untuk menetapkannya sebagai gaya Tajuk 3. Kaedah yang sama digunakan untuk memproses tajuk peringkat pertama dan kedua dengan [§][§§]. Cari aksara pemisah halaman [-------------------] dalam fail teks asal, dan kemudian gantikannya untuk mencapai kesan pemisah halaman. Anda boleh menggantikan kesemuanya dengan pengecam pemisah halaman yang dikehendaki dengan melaksanakan fungsi Ganti dalam menu Edit, memilih Pilihan Lanjutan, dan kemudian memilih Pecah Halaman Manual (K) dalam Aksara Khas. Anda juga boleh menaip pengecam pemisah halaman manual ^m terus ke dalam kotak Ganti dengan untuk menyelesaikan operasi ini. Pilih [§] dalam mana-mana tajuk, klik [Edit] → [Ganti], jangan masukkan sebarang kandungan

Bagaimana untuk membuat PDF menggunakan PHP? Bagaimana untuk membuat PDF menggunakan PHP? Apr 20, 2024 am 11:39 AM

Cara menggunakan PHP untuk membuat PDF Pasang perpustakaan yang diperlukan: PHP7.1 atau lebih tinggi, perpustakaan mPDF. Cipta fail PDF: nyatakan objek mPDF, tulis kandungan HTML dan keluarkan fail PDF. Kes praktikal: Jana invois pengguna, termasuk maklumat pelanggan, maklumat invois, senarai produk dan jumlah keseluruhan.

Bagaimana untuk menambah video atau audio ke PDF menggunakan Adobe Acrobat Pro? Bagaimana untuk menambah video atau audio ke PDF menggunakan Adobe Acrobat Pro? Jul 08, 2025 am 12:50 AM

Gunakan Adobe AcrobatPro untuk memasukkan video atau audio ke PDF. Langkah -langkah khusus ialah: 1. Buka fail PDF dan masukkan kumpulan alat "Komen dan Tandakan" atau "Sediakan"; 2. Pilih fungsi "Lampirkan Fail" atau "Masukkan Media"; 3. Pilih fail yang diperlukan dari komputer untuk melengkapkan penyisipan. Selepas memasukkan, ikon yang boleh dimainkan dengan mengklik dua kali ikon akan dihasilkan. Klik kanan ikon boleh menyesuaikan gaya paparan dan mengesahkan sama ada laluan fail betul. Nota termasuk: Pastikan fail media berada dalam direktori yang sama dengan PDF untuk mengelakkan masalah laluan. Adalah disyorkan bahawa penerima menggunakan perisian siri Adobe Acrobat untuk membukanya untuk memastikan keserasian. Operasi versi yang berbeza sedikit berbeza, dan disyorkan untuk menggunakan AcrobatDC untuk sokongan dan keserasian fungsi yang lebih baik. keseluruhan

Bagaimana untuk membenamkan dokumen PDF dalam HTML? Bagaimana untuk membenamkan dokumen PDF dalam HTML? Aug 01, 2025 am 06:52 AM

Menggunakan tag adalah kaedah yang paling mudah dan disyorkan. Sintaks ini sesuai untuk pelayar moden untuk membenamkan PDF secara langsung; 2. Menggunakan tag boleh memberikan sokongan kandungan kawalan dan sandaran yang lebih baik, sintaks adalah, dan menyediakan pautan muat turun dalam tag sebagai penyelesaian sandaran apabila mereka tidak disokong; 3. Ia boleh tertanam melalui Google Docsviewer, tetapi tidak disyorkan untuk digunakan secara meluas kerana isu privasi dan prestasi; 4. Untuk meningkatkan pengalaman pengguna, ketinggian yang sesuai harus ditetapkan, saiz responsif (seperti ketinggian: 80VH) dan pautan muat turun PDF harus disediakan supaya pengguna dapat memuat turun dan melihatnya sendiri.

Bagaimana untuk mengekstrak halaman dari PDF menggunakan Adobe Acrobat? Bagaimana untuk mengekstrak halaman dari PDF menggunakan Adobe Acrobat? Jul 05, 2025 am 12:05 AM

Terdapat tiga cara utama untuk menggunakan Adobeacrobat untuk mengekstrak halaman tertentu dalam PDF. Pertama, melalui fungsi "Susun Halaman", anda boleh memilih satu halaman atau beberapa halaman dan klik "Ekstrak" untuk mengekstrak; kedua, gunakan fungsi "Eksport PDF" untuk menyesuaikan nombor halaman yang akan diekstrak dalam skop halaman untuk pengekstrakan batch; Akhirnya, gunakan fungsi "Split Document" untuk memecah keseluruhan PDF ke dalam fail bebas setiap halaman, dan menyokong penjimatan kepada subfolder untuk pengurusan.

See all articles