Le framework Scrapy est un framework open source basé sur Python, principalement utilisé pour explorer les données de sites Web. Il présente les caractéristiques suivantes :
Ce qui suit présentera comment utiliser le framework Scrapy pour améliorer l'efficacité du développement de robots à travers des exemples de code spécifiques.
Tout d'abord, nous devons installer le framework Scrapy :
pip install scrapy
Ensuite, nous pouvons créer un nouveau projet Scrapy :
scrapy startproject myproject
Cela créera un dossier appelé "monprojet" dans le répertoire courant, qui contient toute la structure de base du projet Scrapy. .
Écrivons un robot d'exploration simple. Supposons que nous souhaitions obtenir le titre du film, la classification et les informations sur le réalisateur du dernier film sur le site Web du film Douban. Tout d'abord, nous devons créer un nouveau Spider :
import scrapy class DoubanSpider(scrapy.Spider): name = "douban" start_urls = [ 'https://movie.douban.com/latest', ] def parse(self, response): for movie in response.xpath('//div[@class="latest"]//li'): yield { 'title': movie.xpath('a/@title').extract_first(), 'rating': movie.xpath('span[@class="subject-rate"]/text()').extract_first(), 'director': movie.xpath('span[@class="subject-cast"]/text()').extract_first(), }
Dans ce Spider, nous définissons un Spider nommé "douban" et spécifions l'URL initiale comme URL de la dernière page officielle du film de Douban Movies. Dans la méthode d'analyse, nous utilisons le sélecteur XPath pour extraire le nom, la note et les informations sur le réalisateur de chaque film, et utilisons le rendement pour renvoyer les résultats.
Ensuite, nous pouvons effectuer les réglages pertinents dans le fichier settings.py du projet, tels que la configuration de l'agent utilisateur et du délai de demande :
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' DOWNLOAD_DELAY = 5
Ici, nous définissons un agent utilisateur et définissons le délai de téléchargement sur 5 secondes.
Enfin, nous pouvons démarrer le robot à partir de la ligne de commande et afficher les résultats :
scrapy crawl douban -o movies.json
Cela démarrera le Spider que nous venons de créer et affichera les résultats dans un fichier appelé "movies.json".
En utilisant le framework Scrapy, nous pouvons développer des robots d'exploration rapidement et efficacement sans avoir à gérer trop de détails sur les connexions réseau et les requêtes asynchrones. Les fonctions puissantes et la conception facile à utiliser du framework Scrapy nous permettent de nous concentrer sur l'extraction et le traitement des données, améliorant ainsi considérablement l'efficacité du développement des robots.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!