Python untuk NLP: Bagaimana untuk memproses teks PDF yang mengandungi berbilang kata kunci?
Pengenalan:
Dalam bidang pemprosesan bahasa semula jadi (NLP), pemprosesan teks PDF yang mengandungi berbilang kata kunci adalah keperluan biasa. Artikel ini akan memperkenalkan cara menggunakan perpustakaan Python untuk mencapai fungsi ini, dan memberikan contoh kod khusus.
Perpustakaan ini boleh dipasang melalui arahan berikut:
pip install PyPDF2
import PyPDF2 def read_pdf(file_path): with open(file_path, 'rb') as file: reader = PyPDF2.PdfReader(file) text = '' for page in reader.pages: text += page.extract_text() return text
Kod di atas mentakrifkan fungsi read_pdf
yang menerima laluan fail PDF sebagai input dan mengembalikan kandungan teks dalam fail. read_pdf
,该函数接受一个PDF文件的路径作为输入,并返回该文件中的文本内容。
import re def search_keywords(text, keywords): matches = [] for keyword in keywords: pattern = re.compile(r'' + keyword + r'', re.IGNORECASE) matches.extend(pattern.findall(text)) return matches
上面的代码定义了一个函数search_keywords
,该函数接受一个文本字符串和一个关键字列表作为输入,并返回在文本中找到的关键字列表。
pdf_file = 'example.pdf' keywords = ['Python', 'NLP', '文本处理'] text = read_pdf(pdf_file) matches = search_keywords(text, keywords) print("关键字搜索结果:") for match in matches: print(match)
上面的代码首先指定了一个要处理的PDF文件example.pdf
和一组关键字列表(可以根据实际情况进行修改)。然后,它调用read_pdf
函数读取文本,并使用search_keywords
Seterusnya, kita perlu mencari teks berdasarkan kata kunci yang diberikan. Kefungsian ini boleh dicapai menggunakan perpustakaan ungkapan biasa (semula). Berikut ialah contoh kod:
Kod di atas mentakrifkan fungsi
example.pdf
untuk diproses dan satu set senarai kata kunci (boleh diubah suai mengikut situasi sebenar). Ia kemudian memanggil fungsi read_pdf
untuk membaca teks dan menggunakan fungsi search_keywords
untuk mencari kata kunci dalam teks. Akhirnya, ia mencetak semua hasil carian. Kesimpulan:
Dengan menggunakan PyPDF2 dan perpustakaan semula, kami boleh memproses teks PDF yang mengandungi berbilang kata kunci dengan mudah. Contoh di atas menyediakan rangka kerja asas yang boleh diubah suai dan dikembangkan mengikut keperluan sebenar.Atas ialah kandungan terperinci Python untuk NLP: Bagaimana untuk mengendalikan teks PDF yang mengandungi berbilang kata kunci?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!