如何使用 Python 和 BeautifulSoup 從網頁中提取超連結？-Python教學-PHP中文網

如何使用 Python 和 BeautifulSoup 從網頁中提取超連結？

Linda Hamilton

發布： 2024-12-11 11:06:10

原創

596 人瀏覽過

How Can I Extract Hyperlinks from a Webpage Using Python and BeautifulSoup?

使用 Python 和 BeautifulSoup 從網頁擷取連結

本文示範如何從網頁擷取連結並收集其 URL 位址使用 Python 和 BeautifulSoup

問題：

如何使用Python提取網頁中嵌入的連結的URL？

解決方案：

要實現這一點，您可以利用 BeautifulSoup 提供的 SoupStrainer 類別。以下程式碼片段舉例說明了該過程：

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

登入後複製

此程式碼建立與指定網頁的連接，即範例中的「http://www.nytimes.com」。它使用 BeautifulSoup 解析 HTML 回應並應用 SoupStrainer('a') 過濾器，該過濾器重點關注頁面內的 'a' 標籤（表示連結）。對於找到的每個鏈接，程式碼都會檢索其“href”屬性，其中包含實際的 URL 位址。

以上是如何使用 Python 和 BeautifulSoup 從網頁中提取超連結？的詳細內容。更多資訊請關注PHP中文網其他相關文章！