Bagaimanakah saya boleh mengekstrak teks bersih dengan cekap daripada HTML dalam Python?-Tutorial Python-php.cn

Bagaimanakah saya boleh mengekstrak teks bersih dengan cekap daripada HTML dalam Python?

Mary-Kate Olsen

Lepaskan： 2024-11-29 22:58:11

asal

637 orang telah melayarinya

How Can I Efficiently Extract Clean Text from HTML in Python?

Mengekstrak Teks daripada HTML dengan Python

Objektif anda adalah untuk mengekstrak teks daripada fail HTML dalam Python, mereplikasi output yang anda perolehi dengan menyalin teks daripada pelayar dan menampalnya ke dalam teks editor.

Cabaran

Ekspresi biasa tidak cukup teguh untuk HTML yang kurang terbentuk. Walaupun Beautiful Soup sering disyorkan, ia boleh mengambil kandungan yang tidak diingini seperti JavaScript dan gagal mentafsir entiti HTML.

Alternatif Menjanjikan: html2text

Walaupun ia menghasilkan penurunan nilai dan bukannya teks biasa, html2text mengendalikan entiti HTML dengan betul dan mengabaikan JavaScript. Walau bagaimanapun, dokumentasi dan contohnya adalah terhad.

Kod Optimum untuk Pengekstrakan Teks

Kod di bawah menawarkan penyelesaian berkesan yang menapis elemen yang tidak diingini dan mengekalkan entiti HTML:

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
soup = BeautifulSoup(html, features="html.parser")

# Remove scripts and styles
for script in soup(["script", "style"]):
    script.extract()

# Extract text
text = soup.get_text()

# Convert line breaks and remove whitespace
lines = (line.strip() for line in text.splitlines())
chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
text = '\n'.join(chunk for chunk in chunks if chunk)

print(text)

Salin selepas log masuk

Pergantungan

Untuk menggunakan ini kod, anda memerlukan BeautifulSoup4 dipasang dengan:

pip install beautifulsoup4

Salin selepas log masuk

Atas ialah kandungan terperinci Bagaimanakah saya boleh mengekstrak teks bersih dengan cekap daripada HTML dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!