首頁 > 後端開發 > Python教學 > 如何使用 Python 和 BeautifulSoup 從網頁中提取超連結和 URL?

如何使用 Python 和 BeautifulSoup 從網頁中提取超連結和 URL?

Patricia Arquette
發布: 2024-12-08 00:12:11
原創
1022 人瀏覽過

How Can I Extract Hyperlinks and URLs from a Webpage Using Python and BeautifulSoup?

使用Python和BeautifulSoup檢索網頁連結

問題:如何從以下網頁中提取超連結並使用以下方式獲取他們的URL Python?

答案:

要使用 Python 和 BeautifulSoup 有效地從網頁中提取連結和 URL 位址,您可以使用 SoupStrainer 類別。下面是一個程式碼片段:

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])
登入後複製

此程式碼首先取得網頁的 HTML 內容(使用 httplib2 函式庫)。然後,它使用 BeautifulSoup 來解析 HTML,使用 SoupStrainer 類別僅過濾標籤以提高效率。最後,它迭代 a 標籤並列印每個標籤的 href 屬性,從而有效地提取連結 URL。

有關各種解析場景的更多詳細信息,請參閱BeautifulSoup 文件:

[BeautifulSoup文件](https://www.crummy.com/software/BeautifulSoup/bs4/docSoup/bs4/doc /)

以上是如何使用 Python 和 BeautifulSoup 從網頁中提取超連結和 URL?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板