Python untuk NLP: Bagaimana untuk mengekstrak kata kunci secara automatik daripada fail PDF?-Tutorial Python-php.cn

Python untuk NLP: Bagaimana untuk mengekstrak kata kunci secara automatik daripada fail PDF?

PHPz

Lepaskan： 2023-09-27 20:09:38

asal

1582 orang telah melayarinya

Python for NLP：如何自动提取PDF文件中的关键词？

Python untuk NLP: Bagaimana untuk mengekstrak kata kunci secara automatik daripada fail PDF?

Dalam pemprosesan bahasa semula jadi (NLP), pengekstrakan kata kunci ialah tugas penting. Ia dapat mengenal pasti perkataan atau frasa yang paling representatif dan bermaklumat daripada teks. Artikel ini akan memperkenalkan cara menggunakan Python untuk mengekstrak kata kunci daripada fail PDF, dan melampirkan contoh kod tertentu.

Pasang perpustakaan bergantung
Sebelum kita mula, kita perlu memasang beberapa perpustakaan Python yang diperlukan. Perpustakaan ini akan membantu kami memproses fail PDF dan melaksanakan pengekstrakan kata kunci. Sila jalankan arahan berikut dalam terminal untuk memasang perpustakaan yang diperlukan:
```
pip install PyPDF2
pip install nltk
```
Salin selepas log masuk
Import perpustakaan dan modul
Sebelum kita mula menulis kod, kita perlu mengimport kod Perpustakaan dan modul yang diperlukan. Berikut ialah contoh kod untuk perpustakaan dan modul yang perlu diimport:
```
import PyPDF2
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist
```
Salin selepas log masuk

Membaca fail PDF
Pertama, kita perlu membaca fail PDF dengan Pustaka PyPDF2. Berikut ialah contoh kod yang membaca fail PDF dan menukarkannya kepada teks:

def extract_text_from_pdf(file_path):
 pdf_file = open(file_path, 'rb')
 reader = PyPDF2.PdfFileReader(pdf_file)
 num_pages = reader.numPages
 text = ""
 for page in range(num_pages):
     text += reader.getPage(page).extract_text()
 return text

Salin selepas log masuk

Memproses data teks
Sebelum mengekstrak kata kunci, kita perlu Data menjalani beberapa prapemprosesan. Ini termasuk mengalih keluar kata henti, membahagikan perkataan dan mengira kekerapan kejadian, dsb. Berikut ialah kod sampel:

def preprocess_text(text):
 stop_words = set(stopwords.words('english'))
 tokens = word_tokenize(text.lower())
 filtered_tokens = [token for token in tokens if token.isalnum() and token not in stop_words]
 fdist = FreqDist(filtered_tokens)
 return fdist

Salin selepas log masuk

Ekstrak kata kunci
Kini, kita boleh menggunakan data teks praproses untuk mengekstrak kata kunci. Berikut ialah contoh kod:

def extract_keywords(file_path, top_n):
 text = extract_text_from_pdf(file_path)
 fdist = preprocess_text(text)
 keywords = [pair[0] for pair in fdist.most_common(top_n)]
 return keywords

Salin selepas log masuk

Jalankan kod dan cetak hasilnya
Akhirnya, kami boleh menjalankan kod dan mencetak kata kunci yang diekstrak. Berikut ialah kod sampel:

file_path = 'example.pdf'  # 替换为你的PDF文件路径
top_n = 10  # 希望提取的关键词数量

keywords = extract_keywords(file_path, top_n)
print("提取到的关键词：")
for keyword in keywords:
 print(keyword)

Salin selepas log masuk

Melalui langkah di atas, kami berjaya menggunakan Python untuk mengekstrak kata kunci secara automatik daripada fail PDF. Anda boleh melaraskan kod dan mengekstrak lebih banyak atau kurang kata kunci mengikut keperluan anda.

Di atas ialah pengenalan ringkas dan contoh kod tentang cara menggunakan Python untuk mengekstrak kata kunci secara automatik daripada fail PDF. Saya harap artikel ini akan membantu anda dalam pengekstrakan kata kunci dalam NLP. Jika anda mempunyai sebarang soalan, sila berasa bebas untuk bertanya kepada saya.

Atas ialah kandungan terperinci Python untuk NLP: Bagaimana untuk mengekstrak kata kunci secara automatik daripada fail PDF?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!