如何使用Python正規表示式進行爬蟲反爬蟲-Python教學-PHP中文網

如何使用Python正規表示式進行爬蟲反爬蟲

WBOY

發布： 2023-06-23 09:19:42

原創

635 人瀏覽過

在做爬蟲的過程中，我們常常會遇到反爬蟲的機制，這就需要我們使用一些工具和技巧來繞過這些障礙。其中，正規表示式就是一個非常重要的工具，它可以幫助我們在爬蟲中進行資料匹配和處理。下面，我們將介紹如何使用Python正規表示式進行爬蟲反爬蟲。

認識正規表示式

正規表示式是用來描述文字模式的工具，它可以透過一些特定的符號和字詞來描述目標字串的特定模式。在Python中，我們可以使用re模組來操作正規表示式。

例如，如果我們想要匹配一個電話號碼（格式為xxx-xxxx-xxxx），那麼我們可以使用如下的正規表示式：

import re

regex = re.compile(r'd{3}-d{4}-d{4}')

登入後複製

這個正規表示式中，d表示符合數字，{3}表示符合3個數字，{4}表示符合4個數字，-表示符合連字符。透過這個正規表示式，我們就可以匹配出符合該模式的電話號碼。

爬取網頁內容

在進行反爬蟲之前，我們首先需要爬取目標網站的內容。在Python中，我們可以使用requests庫來取得網頁內容。例如，我們想要取得貓眼電影的排行榜頁面，可以使用以下程式碼：

import requests

url = 'https://maoyan.com/board'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

response = requests.get(url, headers=headers)

html = response.text

登入後複製

其中，headers參數是偽造的請求頭，可以幫助我們繞過一些反爬蟲機制。 response.text表示取得到的網頁內容，現在我們已經拿到了目標網頁的原始碼。

使用正規表示式進行資料處理

拿到網頁原始碼後，我們需要使用正規表示式來擷取我們需要的資訊。以貓眼電影排行榜為例，我們想要取得排行榜中所有電影的名稱和上映時間。透過查看原始程式碼，我們可以發現這些資訊都在如下的HTML標籤中：

<dd>
    <div class="movie-item-info">
        <p class="name"><a href="/films/1211269" title="误杀" data-act="boarditem-click" data-val="{movieId:1211269}">误杀</a></p>
        <p class="star">
                主演：肖央,谭卓,钟南山
        </p>
<p class="releasetime">上映时间：2020-12-04</p>    </div>
    <div class="movie-item-number score-num">
        <p class="score"><i class="integer">9.</i><i class="fraction">7</i></p>        
    </div>
</dd>

登入後複製

我們可以使用如下的正規表示式來匹配出電影名稱和上映時間：

pattern = re.compile('<p class="name"><a href="/films/d+" title="(.*?)" data-act="boarditem-click".*?<p class="releasetime">(.*?)</p>', re.S)

登入後複製

這個在正規表示式中，.*?表示非貪婪匹配，也就是只匹配必要的文字內容。 re.S表示讓.可以符合任意字符，包括換行符。現在我們已經建立了一個可以匹配電影名稱和上映時間的正規表示式。

接下來，我們可以使用正規表示式的findall方法來提取出符合的結果：

movies = re.findall(pattern, html)

登入後複製

這個運算會傳回一個列表，其中每一個元素都是一個元組，分別表示電影名稱和上映時間。現在我們已經成功地爬取了貓眼電影排行榜頁面中的所有電影資訊。

模擬使用者行為

在進行反爬蟲之前，我們需要先理解一些網站常用的反爬蟲手段，例如設定存取頻率限制、IP封鎖等。為了避免這些反爬蟲機制，我們需要模擬使用者正常的行為。例如，在爬取貓眼電影排行榜頁面的時候，我們可以設定一個隨機的時間間隔來模擬人類瀏覽網頁的行為：

import time

interval = random.uniform(0, 3)
time.sleep(interval)

登入後複製

這個程式碼片段中，random.uniform(0, 3)表示產生一個0到3之間的隨機數，time.sleep(interval)表示讓程式等待對應的時間。

破解動態載入頁面

有些網站會在頁面中使用動態載入技術，也就是需要透過JavaScript等腳本語言來動態產生頁面內容。如果直接使用requests函式庫取得這種頁面的話，我們只能取得到靜態的HTML程式碼，無法得到動態產生的內容。這時候，我們可以使用Selenium庫來模擬人類的操作，使得瀏覽器可以正常地載入頁面內容。例如，我們想要取得微博的評論頁面，可以使用如下的程式碼：

from selenium import webdriver

url = 'https://weibo.com/xxxxxx'

browser = webdriver.Firefox()
browser.get(url)

time.sleep(10)

html = browser.page_source

登入後複製

透過以上程式碼，我們就可以取得到完整的頁面內容，包括動態載入產生的評論區。

總結

本文介紹如何使用Python正規表示式進行爬蟲反爬蟲，主要內容包括：