使用 Python 和 BeautifulSoup 從網頁擷取連結
本文示範如何從網頁擷取連結並收集其 URL 位址使用 Python 和 BeautifulSoup
問題:
如何使用Python提取網頁中嵌入的連結的URL?
解決方案:
要實現這一點,您可以利用 BeautifulSoup 提供的 SoupStrainer 類別。以下程式碼片段舉例說明了該過程:
import httplib2 from bs4 import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request('http://www.nytimes.com') for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')): if link.has_attr('href'): print(link['href'])
此程式碼建立與指定網頁的連接,即範例中的「http://www.nytimes.com」。它使用 BeautifulSoup 解析 HTML 回應並應用 SoupStrainer('a') 過濾器,該過濾器重點關注頁面內的 'a' 標籤(表示連結)。對於找到的每個鏈接,程式碼都會檢索其“href”屬性,其中包含實際的 URL 位址。
以上是如何使用 Python 和 BeautifulSoup 從網頁中提取超連結?的詳細內容。更多資訊請關注PHP中文網其他相關文章!