


Bagaimana untuk mengekstrak ayat utama daripada fail PDF menggunakan Python untuk NLP?
Bagaimana cara menggunakan Python untuk NLP untuk mengekstrak ayat utama daripada fail PDF?
Pengenalan:
Dengan perkembangan pesat teknologi maklumat, Natural Language Processing (NLP) memainkan peranan penting dalam bidang seperti analisis teks, pengekstrakan maklumat dan terjemahan mesin. Dalam aplikasi praktikal, selalunya perlu untuk mengekstrak maklumat penting daripada sejumlah besar data teks, seperti mengekstrak ayat utama daripada fail PDF. Artikel ini akan memperkenalkan cara menggunakan pakej NLP Python untuk mengekstrak ayat utama daripada fail PDF, dan memberikan contoh kod terperinci.
Langkah 1: Pasang perpustakaan Python yang diperlukan
Sebelum kita mula, kita perlu memasang beberapa perpustakaan Python untuk memudahkan pemprosesan teks seterusnya dan penghuraian fail PDF.
1. Pasang perpustakaan nltk:
Masukkan arahan berikut pada baris arahan untuk memasang perpustakaan nltk:
pip install nltk
2 Pasang perpustakaan pdfminer:
Masukkan arahan berikut pada baris arahan untuk memasang perpustakaan pdfminer:
pip install pdfminer.six
Langkah 2: Menghuraikan fail PDF
Mula-mula, kita perlu menukar fail PDF kepada format teks biasa. Pustaka pdfminer memberikan kami fungsi untuk menghuraikan fail PDF.
Berikut ialah fungsi yang boleh menukar fail PDF kepada teks biasa:
from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfpage import PDFPage from io import StringIO def convert_pdf_to_text(file_path): resource_manager = PDFResourceManager() string_io = StringIO() laparams = LAParams() device = TextConverter(resource_manager, string_io, laparams=laparams) interpreter = PDFPageInterpreter(resource_manager, device) with open(file_path, 'rb') as file: for page in PDFPage.get_pages(file): interpreter.process_page(page) text = string_io.getvalue() device.close() string_io.close() return text
Langkah 3: Ekstrak ayat utama
Seterusnya, kita perlu menggunakan perpustakaan nltk untuk mengekstrak ayat utama. nltk menyediakan fungsi yang kaya untuk tokenisasi, pembahagian perkataan dan pembahagian ayat teks.
Berikut ialah fungsi yang boleh mengekstrak ayat utama daripada teks yang diberikan:
import nltk def extract_key_sentences(text, num_sentences): sentences = nltk.sent_tokenize(text) word_frequencies = {} for sentence in sentences: words = nltk.word_tokenize(sentence) for word in words: if word not in word_frequencies: word_frequencies[word] = 1 else: word_frequencies[word] += 1 sorted_word_frequencies = sorted(word_frequencies.items(), key=lambda x: x[1], reverse=True) top_sentences = [sentence for (sentence, _) in sorted_word_frequencies[:num_sentences]] return top_sentences
Langkah 4: Lengkapkan kod contoh
Berikut ialah contoh kod lengkap yang menunjukkan cara mengekstrak ayat utama daripada fail PDF:
from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfpage import PDFPage from io import StringIO import nltk def convert_pdf_to_text(file_path): resource_manager = PDFResourceManager() string_io = StringIO() laparams = LAParams() device = TextConverter(resource_manager, string_io, laparams=laparams) interpreter = PDFPageInterpreter(resource_manager, device) with open(file_path, 'rb') as file: for page in PDFPage.get_pages(file): interpreter.process_page(page) text = string_io.getvalue() device.close() string_io.close() return text def extract_key_sentences(text, num_sentences): sentences = nltk.sent_tokenize(text) word_frequencies = {} for sentence in sentences: words = nltk.word_tokenize(sentence) for word in words: if word not in word_frequencies: word_frequencies[word] = 1 else: word_frequencies[word] += 1 sorted_word_frequencies = sorted(word_frequencies.items(), key=lambda x: x[1], reverse=True) top_sentences = [sentence for (sentence, _) in sorted_word_frequencies[:num_sentences]] return top_sentences # 示例使用 pdf_file = 'example.pdf' text = convert_pdf_to_text(pdf_file) key_sentences = extract_key_sentences(text, 5) for sentence in key_sentences: print(sentence)
Ringkasan :
Artikel ini memperkenalkan kaedah mengekstrak ayat utama daripada fail PDF menggunakan pakej NLP Python. Dengan menukar fail PDF kepada teks biasa melalui perpustakaan pdfminer, dan menggunakan tokenisasi dan fungsi segmentasi ayat perpustakaan nltk, kami boleh mengekstrak ayat utama dengan mudah. Kaedah ini digunakan secara meluas dalam bidang seperti pengekstrakan maklumat, rumusan teks dan pembinaan graf pengetahuan. Saya harap kandungan artikel ini berguna kepada anda dan boleh digunakan dalam aplikasi praktikal.
Atas ialah kandungan terperinci Bagaimana untuk mengekstrak ayat utama daripada fail PDF menggunakan Python untuk NLP?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Stock Market GPT
Penyelidikan pelaburan dikuasakan AI untuk keputusan yang lebih bijak

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



1. Gunakan alat penukaran dalam talian seperti Smallpdf, Adobe Acrobat atau Zamzar. 2. Alat ini biasanya menyediakan antara muka yang ringkas dan mudah digunakan, membolehkan pengguna memuat naik fail PDF dan menukarnya kepada format Word secara pilihan. 3. Selepas penukaran selesai, pengguna boleh memuat turun dokumen Word dan melakukan penyuntingan selanjutnya. 4. Gunakan perisian penukaran PDF profesional, seperti Adobe Acrobat Pro atau Wondershare PDFelement.

Bagaimana untuk menyimpan halaman web sebagai pdf dalam Google Chrome? Halaman web Google Chrome dimuatkan dengan sangat cepat, jadi ia dialu-alukan oleh ramai pengguna yang suka menggunakan Google Chrome untuk pejabat atau kerja Apabila kami mencari maklumat dalam penyemak imbas, kami boleh mengeksport halaman maklumat ke mod PDF, yang memudahkan untuk kami Lihat dan edit, tetapi ramai pengguna tidak tahu cara menyimpan halaman web sebagai PDF. Artikel ini akan memperkenalkan kepada anda langkah-langkah untuk menyimpan halaman web sebagai PDF dalam tetapan Google Chrome saya harap ia boleh membantu anda. Tetapan Google Chrome untuk menyimpan halaman web sebagai pengenalan langkah PDF: Kami melawati Google Chrome, cari halaman web fail PDF yang anda ingin simpan, kemudian klik penuding tetikus pada [Sesuaikan dan Kawalan] di atas, dan kemudian pilih [

1. Laksanakan [Edit] → [Cari] untuk mencari tajuk yang ditandakan dengan cepat dengan [§§§]. Selepas memilihnya, laksanakan [Gaya dan Format] untuk menetapkannya sebagai gaya Tajuk 3. Kaedah yang sama digunakan untuk memproses tajuk peringkat pertama dan kedua dengan [§][§§]. Cari aksara pemisah halaman [-------------------] dalam fail teks asal, dan kemudian gantikannya untuk mencapai kesan pemisah halaman. Anda boleh menggantikan kesemuanya dengan pengecam pemisah halaman yang dikehendaki dengan melaksanakan fungsi Ganti dalam menu Edit, memilih Pilihan Lanjutan, dan kemudian memilih Pecah Halaman Manual (K) dalam Aksara Khas. Anda juga boleh menaip pengecam pemisah halaman manual ^m terus ke dalam kotak Ganti dengan untuk menyelesaikan operasi ini. Pilih [§] dalam mana-mana tajuk, klik [Edit] → [Ganti], jangan masukkan sebarang kandungan

Cara menggunakan PHP untuk membuat PDF Pasang perpustakaan yang diperlukan: PHP7.1 atau lebih tinggi, perpustakaan mPDF. Cipta fail PDF: nyatakan objek mPDF, tulis kandungan HTML dan keluarkan fail PDF. Kes praktikal: Jana invois pengguna, termasuk maklumat pelanggan, maklumat invois, senarai produk dan jumlah keseluruhan.

Gunakan Adobe AcrobatPro untuk memasukkan video atau audio ke PDF. Langkah -langkah khusus ialah: 1. Buka fail PDF dan masukkan kumpulan alat "Komen dan Tandakan" atau "Sediakan"; 2. Pilih fungsi "Lampirkan Fail" atau "Masukkan Media"; 3. Pilih fail yang diperlukan dari komputer untuk melengkapkan penyisipan. Selepas memasukkan, ikon yang boleh dimainkan dengan mengklik dua kali ikon akan dihasilkan. Klik kanan ikon boleh menyesuaikan gaya paparan dan mengesahkan sama ada laluan fail betul. Nota termasuk: Pastikan fail media berada dalam direktori yang sama dengan PDF untuk mengelakkan masalah laluan. Adalah disyorkan bahawa penerima menggunakan perisian siri Adobe Acrobat untuk membukanya untuk memastikan keserasian. Operasi versi yang berbeza sedikit berbeza, dan disyorkan untuk menggunakan AcrobatDC untuk sokongan dan keserasian fungsi yang lebih baik. keseluruhan

Menggunakan tag adalah kaedah yang paling mudah dan disyorkan. Sintaks ini sesuai untuk pelayar moden untuk membenamkan PDF secara langsung; 2. Menggunakan tag boleh memberikan sokongan kandungan kawalan dan sandaran yang lebih baik, sintaks adalah, dan menyediakan pautan muat turun dalam tag sebagai penyelesaian sandaran apabila mereka tidak disokong; 3. Ia boleh tertanam melalui Google Docsviewer, tetapi tidak disyorkan untuk digunakan secara meluas kerana isu privasi dan prestasi; 4. Untuk meningkatkan pengalaman pengguna, ketinggian yang sesuai harus ditetapkan, saiz responsif (seperti ketinggian: 80VH) dan pautan muat turun PDF harus disediakan supaya pengguna dapat memuat turun dan melihatnya sendiri.

Terdapat tiga cara utama untuk menggunakan Adobeacrobat untuk mengekstrak halaman tertentu dalam PDF. Pertama, melalui fungsi "Susun Halaman", anda boleh memilih satu halaman atau beberapa halaman dan klik "Ekstrak" untuk mengekstrak; kedua, gunakan fungsi "Eksport PDF" untuk menyesuaikan nombor halaman yang akan diekstrak dalam skop halaman untuk pengekstrakan batch; Akhirnya, gunakan fungsi "Split Document" untuk memecah keseluruhan PDF ke dalam fail bebas setiap halaman, dan menyokong penjimatan kepada subfolder untuk pengurusan.
