社群學習工具庫休閒

繁体中文

首頁 > 後端開發 > Python教學 > Python使用四種方法實現獲取當前頁面內所有連結的對比分析

Python使用四種方法實現獲取當前頁面內所有連結的對比分析

黄舟

發布： 2017-08-20 10:28:38

原創

2045 人瀏覽過

這篇文章主要介紹了Python獲取當前頁面內所有鏈接的方法,結合實例形式對比分析了Python常用的四種獲取頁面鏈接的方法,並附帶了iframe框架內鏈接的獲取方法,需要的朋友可以參考下

本文實例講述了Python獲取目前頁面內所有連結的四種方法。分享給大家供大家參考，具體如下：

&#39;&#39;&#39;
得到当前页面所有连接
&#39;&#39;&#39;
import requests
import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver
url = &#39;http://www.testweb.com&#39;
r = requests.get(url)
r.encoding = &#39;gb2312&#39;
# 利用 re （太黄太暴力！）
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\&#39;).+?(?=\&#39;)" , r.text)
for link in matchs:
  print(link)
print()
# 利用 BeautifulSoup4 （DOM树）
soup = BeautifulSoup(r.text,&#39;lxml&#39;)
for a in soup.find_all(&#39;a&#39;):
  link = a[&#39;href&#39;]
  print(link)
print()
# 利用 lxml.etree （XPath）
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
  print(link)
print()
# 利用selenium（要开浏览器！）
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
  print(link.get_attribute("href"))
driver.close()

登入後複製

#注意：若頁面中含有iframe，則iframe 內所包含頁面的所有標籤都無法用以上四種方法獲得！！！此時則要：

# 再打开所有iframe查找全部的a标签
for iframe in soup.find_all(&#39;iframe&#39;):
  url_ifr = iframe[&#39;src&#39;] # 取得当前iframe的src属性值 
  rr = requests.get(url_ifr)
  rr.encoding = &#39;gb2312&#39;
  soup_ifr = BeautifulSoup(rr.text,&#39;lxml&#39;)
  for a in soup_ifr.find_all(&#39;a&#39;):
    link = a[&#39;href&#39;]
    m = re.match(r&#39;http:\/\/.*?(?=\/)&#39;,link)
    #print(link)
    if m:
      all_urls.add(m.group(0))

登入後複製

以上是Python使用四種方法實現獲取當前頁面內所有連結的對比分析的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

python 實現方法

來源：php.cn

上一篇：Python如何實現爬取需要登入的網站程式碼實例下一篇：Python中關於numpy靈活定義神經網路結構的實例

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

從零開始打造自己的PHP框架的影片資料

2023-03-15 16:54:01
PHPMailer如何利用QQ信箱完成郵件傳送功能的實例分析

2023-03-15 12:26:02
php中關於IMAP如何收取電子郵件的方法介紹

2023-03-14 18:58:01
php如何快速實現數組去重的實例

2023-03-14 11:30:01
html中關於標籤的全部屬性的使用總結

1970-01-01 08:00:00
php基礎知識總結（新手入門必備）

2023-03-16 15:20:01
JavaScript中typeof的使用方法介紹

1970-01-01 08:00:00
JavaScript中confirm()方法的使用介紹

1970-01-01 08:00:00
HTML5 Placeholder屬性的詳情介紹

1970-01-01 08:00:00
ReactJS中表單的單選多選與反選的實作方法

1970-01-01 08:00:00

最新問題

Python/MySQL無法正確持久化整數數據在這裡不需要任何程式碼。我想要保存一個非常長的數字，因為我正在製作一個遊戲，需要保存分數。但是我測試了一下，將分數設定為25000000000，但在mysql中儲存為2147483...

來自於 2024-04-04 19:09:44

0

1

367

使用selenium想要點擊並在類別中定義URL 今天我需要另一個提示。我正在嘗試建立Python/Selenium程式碼，想法是點擊www.thewebsiteIwantoclickon下面是我正在處理的HTML範例。類別ent...

來自於 2024-04-04 14:14:44

0

1

3492

Selenium + Python - 透過execute_script檢查映像我需要使用python中的selenium驗證圖片是否顯示在頁面上。例如，讓我們檢查https://openweathermap.org/頁面左上角的標誌。我使用execute_s...

來自於 2024-04-03 09:32:15

0

1

375

保留前X行，刪除表格行的方法我在MySQLincident_archive中有一個包含數百萬筆記錄的大表，我想按created列對行進行排序，並保留前X行並刪除其餘行，最有效的方法是什麼。到目前為止，我用Py...

來自於 2024-04-01 18:32:54

0

1

347

如何使用 BeautifulSoup 抓取特定的Google天氣文字？如何使用BeautifulSoup在Python中找到課程文本“美國紐約市”？嘗試複製影片進行練習，但不再有效。嘗試在官方文件中找到一些內容，但沒有成功。或者我的get_html_...

來自於 2024-04-01 14:06:14

0

1

308

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1421868
php入門教程之一週學會PHP

4266467
JAVA 初級入門影片教學

2520706
小甲魚零基礎入門學習Python影片教學

506659
PHP 零基礎入門教學

861713

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板