如何使用 BeautifulSoup 從網頁中僅提取可見文字？-Python教學-PHP中文網

如何使用 BeautifulSoup 從網頁中僅提取可見文字？

Linda Hamilton

發布： 2024-11-15 11:08:02

原創

933 人瀏覽過

How to Extract Only Visible Text from Webpages with BeautifulSoup?

如何使用 BeautifulSoup 從網頁中只提取可見文字

網頁抓取通常涉及選擇網頁內容的特定部分，包括可見文字。 BeautifulSoup 是一個流行的網頁抓取庫，可用於僅提取可見文本，不包括註釋和腳本等隱藏元素。

原始問題：

原始問題問題旨在將可見文字與網頁隔離，特別是排除腳本標籤、HTML 註解和其他不可見內容。使用者希望檢索主體文字和可能的一些選項卡名稱，同時避免使用 CSS 和 JavaScript 等元素。

答案解釋：

提供的答案利用 BeautifulSoup以及自訂過濾來滿足此請求。 tag_visible() 函數評估給定元素是否屬於一組特定的不可見元素類型（例如樣式、腳本、頭部）或它是否是 HTML 註解。如果是，則傳回 False，表示應排除該元素。

text_from_html() 函數使用帶有 text 參數的 BeautifulSoup.findAll() 方法來捕獲所有文字元素。隨後，它將 tag_visible() 過濾器應用於文字元素以隔離可見元素。最後，它將可見文字組合成單一字串，僅產生網頁可見文字的所需結果。

以上是如何使用 BeautifulSoup 從網頁中僅提取可見文字？的詳細內容。更多資訊請關注PHP中文網其他相關文章！