Bagaimana untuk menggunakan Python untuk NLP untuk menukar teks PDF kepada data yang boleh dianalisis?-Tutorial Python-php.cn

Bagaimana untuk menggunakan Python untuk NLP untuk menukar teks PDF kepada data yang boleh dianalisis?

PHPz

Lepaskan： 2023-09-28 11:29:13

asal

827 orang telah melayarinya

如何利用Python for NLP将PDF文本转换为可分析的数据？

Bagaimana untuk menggunakan Python untuk NLP untuk menukar teks PDF kepada data yang boleh dianalisis?

Pengenalan:
Natural Language Processing (NLP) ialah cabang penting dalam bidang kecerdasan buatan Ia didedikasikan untuk menyelidik dan membangunkan kaedah dan teknologi yang membolehkan komputer memahami, memproses dan menjana bahasa semula jadi. Dalam aplikasi NLP, menukar teks PDF kepada data boleh dianalisis adalah tugas biasa. Artikel ini akan memperkenalkan cara melaksanakan proses ini menggunakan Python dan perpustakaan berkaitannya.

Langkah 1: Pasang perpustakaan bergantung
Sebelum kami mula memproses teks PDF, kami perlu memasang beberapa perpustakaan Python yang diperlukan. Yang paling penting ialah PyPDF2 dan NLTK (Natural Language Toolkit). Perpustakaan ini boleh dipasang melalui arahan berikut:

pip install PyPDF2
pip install nltk

Salin selepas log masuk

Selain itu, anda juga harus ambil perhatian bahawa sebelum menggunakan NLTK buat kali pertama, anda perlu melaksanakan kod berikut untuk permulaan yang diperlukan:

import nltk
nltk.download('punkt')

Salin selepas log masuk

Langkah 2: Baca teks PDF
Menggunakan perpustakaan PyPDF2 boleh menjadi mudah Baca kandungan teks PDF dengan cekap. Berikut ialah kod sampel yang membaca fail PDF dan mendapat keseluruhan teks:

import PyPDF2

def read_pdf(file_path):
    with open(file_path, 'rb') as file:
        pdf = PyPDF2.PdfFileReader(file)
        text = ''
        for page in range(pdf.numPages):
            text += pdf.getPage(page).extract_text()
        return text

Salin selepas log masuk

Fungsi ini menerima laluan fail PDF sebagai parameter dan mengembalikan keseluruhan kandungan teks fail PDF.

Langkah 3: Pembahagian ayat dan perkataan
Sebelum menukar teks PDF kepada data yang boleh dianalisis, kita perlu membahagikan teks kepada ayat dan segmen perkataan. Langkah ini boleh dicapai menggunakan perpustakaan NLTK. Berikut ialah contoh kod untuk membahagikan teks kepada ayat dan perkataan:

import nltk

def preprocess(text):
    sentences = nltk.sent_tokenize(text)
    words = [nltk.word_tokenize(sentence) for sentence in sentences]
    return words

Salin selepas log masuk

Fungsi ini menerima rentetan teks sebagai parameter dan mengembalikan senarai yang terdiri daripada senarai ayat, yang setiap satunya terdiri daripada senarai perkataan.

Langkah 4: Statistik kekerapan perkataan
Dengan teks selepas pembahagian ayat dan pembahagian perkataan, kami boleh melakukan statistik kekerapan perkataan. Berikut ialah contoh kod mudah yang mengira kekerapan setiap perkataan dalam teks:

from collections import Counter

def word_frequency(words):
    word_count = Counter()
    for sentence in words:
        word_count.update(sentence)
    return word_count

Salin selepas log masuk

Fungsi ini menerima senarai ayat sebagai parameter dan mengembalikan kamus frekuensi perkataan di mana kuncinya ialah perkataan dan nilainya adalah Nombor kali perkataan itu muncul dalam teks.

Langkah 5: Pengiktirafan Entiti Dinamakan
Dalam tugasan NLP, Pengiktirafan Entiti Dinamakan (NER) ialah tugas biasa, yang bertujuan untuk mengenal pasti entiti seperti nama orang, nama tempat dan nama organisasi daripada teks. Pustaka NLTK dalam Python menyediakan beberapa model NER pra-terlatih yang boleh digunakan untuk mengenali entiti yang dinamakan. Berikut ialah kod contoh mudah untuk mengenal pasti entiti yang dinamakan dalam teks:

from nltk import ne_chunk, pos_tag, word_tokenize
from nltk.tree import Tree

def ner(text):
    words = word_tokenize(text)
    tagged_words = pos_tag(words)
    ner_tree = ne_chunk(tagged_words)

    entities = []
    for entity in ner_tree:
        if isinstance(entity, Tree) and entity.label() == 'PERSON':
            entities.append(' '.join([leaf[0] for leaf in entity.leaves()]))

    return entities

Salin selepas log masuk

Fungsi ini menerima rentetan teks sebagai parameter dan mengembalikan senarai nama yang mengandungi entiti yang dikenal pasti dalam teks.

Kesimpulan:
Menggunakan Python untuk NLP, kami boleh menukar teks PDF kepada data yang boleh dianalisis. Dalam artikel ini, kami memperkenalkan cara menggunakan perpustakaan PyPDF2 dan NLTK untuk membaca teks PDF, serta kaedah untuk pembahagian ayat, pembahagian perkataan, statistik kekerapan perkataan dan pengecaman entiti bernama. Melalui langkah ini, kami boleh menukar teks PDF kepada data yang boleh digunakan oleh tugas NLP untuk lebih memahami dan menganalisis kandungan teks.

Atas ialah kandungan terperinci Bagaimana untuk menggunakan Python untuk NLP untuk menukar teks PDF kepada data yang boleh dianalisis?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!