Intégration de Selenium avec Scrapy pour les pages dynamiques
Lors du scraping de sites Web complexes avec du contenu dynamique, Selenium, un framework d'automatisation Web, peut être intégré à Scrapy, un framework de scraping Web, pour surmonter les défis.
Intégrer Selenium dans un Scrapy Spider
Pour intégrer Selenium dans votre Spider Scrapy, initialisez le Selenium WebDriver dans le fichier de l'araignée. Méthode __init__.
import scrapy from selenium import webdriver class ProductSpider(scrapy.Spider): name = "product_spider" allowed_domains = ['example.com'] start_urls = ['http://example.com/shanghai'] def __init__(self): self.driver = webdriver.Firefox()
Ensuite, accédez à l'URL dans la méthode d'analyse et utilisez les méthodes Selenium pour interagir avec la page.
def parse(self, response): self.driver.get(response.url) next = self.driver.find_element_by_xpath('//td[@class="pagn-next"]/a') next.click()
En utilisant cette approche, vous pouvez simuler l'utilisateur interactions, naviguer dans des pages dynamiques et extraire les données souhaitées.
Alternative à l'utilisation de Selenium avec Scrapy
Dans certains scénarios, l'utilisation du middleware ScrapyJS peut suffire à gérer les portions dynamiques d'une page sans compter sur Selenium. Par exemple, voir l'exemple suivant :
# scrapy.cfg DOWNLOADER_MIDDLEWARES = { 'scrapyjs.SplashMiddleware': 580, }
# my_spider.py class MySpider(scrapy.Spider): name = 'my_spider' start_urls = ['http://example.com/dynamic'] def parse(self, response): script = 'function() { return document.querySelectorAll("div.product-info").length; }' return Request(url=response.url, callback=self.parse_product, meta={'render_javascript': True, 'javascript': script}) def parse_product(self, response): product_count = int(response.xpath('//*[@data-scrapy-meta]/text()').extract_first())
Cette approche utilise le rendu JavaScript à l'aide de ScrapyJS pour obtenir les données souhaitées sans utiliser Selenium.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!