使用 BeautifulSoup 進行網頁文字擷取:專門擷取可見文字
網頁抓取通常涉及從網頁中擷取特定文字內容。使用廣泛使用的 HTML 解析庫 BeautifulSoup,您可能會遇到僅提取網頁上可見文字的挑戰,排除腳本、註釋和 CSS 等不需要的元素。
識別可見文本
要確定特定 HTML 元素是否包含可見文本,可以使用 tag_visible 函數。此函數檢查目標元素的父元素是否在一組特定的排除標籤(例如樣式、腳本、頭部)內,或者目標元素是否為註解。如果滿足任一條件,函數將傳回 False,表示該元素不被視為可見。
提取可見文本
要從網頁中提取可見文本,請按照以下步驟操作:
用法示例
下面的代碼演示瞭如何使用這些技術從網頁中提取可見文本:
from bs4 import BeautifulSoup from bs4.element import Comment import urllib.request def tag_visible(element): if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']: return False if isinstance(element, Comment): return False return True def text_from_html(body): soup = BeautifulSoup(body, 'html.parser') texts = soup.findAll(text=True) visible_texts = filter(tag_visible, texts) return u" ".join(t.strip() for t in visible_texts) html = urllib.request.urlopen('http://www.nytimes.com/2009/12/21/us/21storm.html').read() print(text_from_html(html))
通過利用這種方法,您可以有效地從網頁中抓取可見文本,排除不相關的內容來自腳本、評論和其他隱藏元素。
以上是如何使用 BeautifulSoup 從網頁中僅提取可見文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!