Selenium을 Scrapy와 어떻게 통합하여 동적 페이지를 스크랩할 수 있습니까?-파이썬 튜토리얼-php.cn

Selenium을 Scrapy와 어떻게 통합하여 동적 페이지를 스크랩할 수 있습니까?

Susan Sarandon

풀어 주다： 2024-11-19 11:10:02

원래의

1014명이 탐색했습니다.

How can Selenium be Integrated with Scrapy to Scrape Dynamic Pages?

동적 페이지용 Scrapy와 Selenium 통합

동적 콘텐츠가 포함된 복잡한 웹사이트를 스크랩할 때 웹 자동화 프레임워크인 Selenium을 다음과 통합할 수 있습니다. 문제를 극복하기 위한 웹 스크래핑 프레임워크인 Scrapy.

통합 Selenium을 Scrapy Spider로

Selenium을 Scrapy 스파이더에 통합하려면 스파이더의 __init__ 메서드 내에서 Selenium WebDriver를 초기화합니다.

import scrapy
from selenium import webdriver

class ProductSpider(scrapy.Spider):
    name = "product_spider"
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/shanghai']
    
    def __init__(self):
        self.driver = webdriver.Firefox()

로그인 후 복사

다음으로 구문 분석 내의 URL로 이동합니다. 방법을 사용하고 Selenium 방법을 활용하여 페이지.

def parse(self, response):
    self.driver.get(response.url)
    next = self.driver.find_element_by_xpath('//td[@class="pagn-next"]/a')
    next.click()

로그인 후 복사

이 접근 방식을 활용하면 사용자 상호 작용을 시뮬레이션하고, 동적 페이지를 탐색하고, 원하는 데이터를 추출할 수 있습니다.

Scrapy와 함께 Selenium을 사용하는 대안

특정 시나리오에서는 ScrapyJS 미들웨어를 사용하면 페이지의 동적 부분을 처리하는 데 충분할 수 있습니다. 셀레늄에 의존합니다. 예를 들어 다음 예를 참조하세요.

# scrapy.cfg
DOWNLOADER_MIDDLEWARES = {
    'scrapyjs.SplashMiddleware': 580,
}

로그인 후 복사

# my_spider.py
class MySpider(scrapy.Spider):
    name = 'my_spider'
    start_urls = ['http://example.com/dynamic']
    
    def parse(self, response):
        script = 'function() { return document.querySelectorAll("div.product-info").length; }'
        return Request(url=response.url, callback=self.parse_product, meta={'render_javascript': True, 'javascript': script})

    def parse_product(self, response):
        product_count = int(response.xpath('//*[@data-scrapy-meta]/text()').extract_first())

로그인 후 복사

이 접근 방식은 ScrapyJS를 사용하는 JavaScript 렌더링을 사용하여 Selenium을 사용하지 않고 원하는 데이터를 얻습니다.

위 내용은 Selenium을 Scrapy와 어떻게 통합하여 동적 페이지를 스크랩할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!