Mengekstrak Teks daripada HTML dengan Python
Objektif anda adalah untuk mengekstrak teks daripada fail HTML dalam Python, mereplikasi output yang anda perolehi dengan menyalin teks daripada pelayar dan menampalnya ke dalam teks editor.
Cabaran
Ekspresi biasa tidak cukup teguh untuk HTML yang kurang terbentuk. Walaupun Beautiful Soup sering disyorkan, ia boleh mengambil kandungan yang tidak diingini seperti JavaScript dan gagal mentafsir entiti HTML.
Alternatif Menjanjikan: html2text
Walaupun ia menghasilkan penurunan nilai dan bukannya teks biasa, html2text mengendalikan entiti HTML dengan betul dan mengabaikan JavaScript. Walau bagaimanapun, dokumentasi dan contohnya adalah terhad.
Kod Optimum untuk Pengekstrakan Teks
Kod di bawah menawarkan penyelesaian berkesan yang menapis elemen yang tidak diingini dan mengekalkan entiti HTML:
from urllib.request import urlopen from bs4 import BeautifulSoup url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen(url).read() soup = BeautifulSoup(html, features="html.parser") # Remove scripts and styles for script in soup(["script", "style"]): script.extract() # Extract text text = soup.get_text() # Convert line breaks and remove whitespace lines = (line.strip() for line in text.splitlines()) chunks = (phrase.strip() for line in lines for phrase in line.split(" ")) text = '\n'.join(chunk for chunk in chunks if chunk) print(text)
Pergantungan
Untuk menggunakan ini kod, anda memerlukan BeautifulSoup4 dipasang dengan:
pip install beautifulsoup4
Atas ialah kandungan terperinci Bagaimanakah saya boleh mengekstrak teks bersih dengan cekap daripada HTML dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!