동적 페이지용 Scrapy와 Selenium 통합
동적 콘텐츠가 포함된 복잡한 웹사이트를 스크랩할 때 웹 자동화 프레임워크인 Selenium을 다음과 통합할 수 있습니다. 문제를 극복하기 위한 웹 스크래핑 프레임워크인 Scrapy.
통합 Selenium을 Scrapy Spider로
Selenium을 Scrapy 스파이더에 통합하려면 스파이더의 __init__ 메서드 내에서 Selenium WebDriver를 초기화합니다.
import scrapy from selenium import webdriver class ProductSpider(scrapy.Spider): name = "product_spider" allowed_domains = ['example.com'] start_urls = ['http://example.com/shanghai'] def __init__(self): self.driver = webdriver.Firefox()
다음으로 구문 분석 내의 URL로 이동합니다. 방법을 사용하고 Selenium 방법을 활용하여 페이지.
def parse(self, response): self.driver.get(response.url) next = self.driver.find_element_by_xpath('//td[@class="pagn-next"]/a') next.click()
이 접근 방식을 활용하면 사용자 상호 작용을 시뮬레이션하고, 동적 페이지를 탐색하고, 원하는 데이터를 추출할 수 있습니다.
Scrapy와 함께 Selenium을 사용하는 대안
특정 시나리오에서는 ScrapyJS 미들웨어를 사용하면 페이지의 동적 부분을 처리하는 데 충분할 수 있습니다. 셀레늄에 의존합니다. 예를 들어 다음 예를 참조하세요.
# scrapy.cfg DOWNLOADER_MIDDLEWARES = { 'scrapyjs.SplashMiddleware': 580, }
# my_spider.py class MySpider(scrapy.Spider): name = 'my_spider' start_urls = ['http://example.com/dynamic'] def parse(self, response): script = 'function() { return document.querySelectorAll("div.product-info").length; }' return Request(url=response.url, callback=self.parse_product, meta={'render_javascript': True, 'javascript': script}) def parse_product(self, response): product_count = int(response.xpath('//*[@data-scrapy-meta]/text()').extract_first())
이 접근 방식은 ScrapyJS를 사용하는 JavaScript 렌더링을 사용하여 Selenium을 사용하지 않고 원하는 데이터를 얻습니다.
위 내용은 Selenium을 Scrapy와 어떻게 통합하여 동적 페이지를 스크랩할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!