Selenium を Scrapy と統合して動的ページスクレイピングを行うにはどうすればよいですか?-Python チュートリアル-php.cn

Selenium を Scrapy と統合して動的ページスクレイピングを行うにはどうすればよいですか?

Susan Sarandon

リリース： 2024-11-17 20:01:02

オリジナル

922 人が閲覧しました

How Can Selenium Be Integrated with Scrapy for Dynamic Page Scraping?

Scrapy を使用した動的ページスクレイピングのための Selenium の統合

URL を変更せずにボタンをクリックすると新しいコンテンツがトリガーされる動的 Web ページをスクレイピングする場合、 Scrapyを使ったSeleniumが必要になります。 Selenium は Web 自動化に単独で使用できますが、Scrapy とのシームレスな統合により、複雑な Web ページから効率的にデータを抽出できます。

Scrapy スパイダー内に Selenium パーツを配置することは、さまざまな方法で実現できます。そのうちの 1 つを以下に示します。 :

Selenium ドライバーの初期化

内スパイダーの __init__ メソッドで、Selenium WebDriver を初期化します。次の例では、Firefox が使用されています。

def __init__(self):
    self.driver = webdriver.Firefox()

ログイン後にコピー

parse メソッドの Selenium アクション

parse メソッドで、必要な Selenium アクションを実装します。たとえば、「次へ」ボタンをクリックしてさらにコンテンツを読み込みます:

while True:
    next = self.driver.find_element_by_xpath('//td[@class="pagn-next"]/a')

    try:
        next.click()

        # Collect and process data here
    except:
        break

ログイン後にコピー

クリーンアップ

スクレイピングが完了したら、Selenium ドライバーを閉じます: