Qu'est-ce que le puissant framework de robots d'exploration Scrapy ?-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Qu'est-ce que le puissant framework de robots d'exploration Scrapy ?

爱喝马黛茶的安东尼

Jun 05, 2019 pm 06:02 PM

pythonscrapyreptile

Le robot d'exploration Web est un programme ou un script qui explore automatiquement les informations sur le World Wide Web selon certaines règles. Ils sont largement utilisés dans les moteurs de recherche Internet ou d'autres sites Web similaires et peuvent collecter automatiquement toutes les informations auxquelles ils peuvent accéder. le contenu de ces sites. Scrapy est un framework de robots d'exploration très puissant, et il est écrit en python. Jetons un coup d'oeil à ce qu'est Scrapy ?

Quest-ce que le puissant framework de robots dexploration Scrapy ?

1 Connaissance requise

La connaissance requise est : Système Linux. + Langage Python + Framework Scrapy + XPath (langage de chemin XML) + quelques outils auxiliaires (outils de développement de navigateur et plug-ins d'assistance XPath).

Notre robot d'exploration est développé à l'aide du framework Scrapy crawler en langage Python et fonctionne sous Linux, vous devez donc maîtriser le langage Python, le framework Scrapy et une connaissance de base du système d'exploitation Linux.

Nous devons utiliser XPath pour extraire ce que nous voulons de la page HTML cible, y compris les paragraphes de texte chinois et les liens « page suivante », etc.

Les outils de développement de navigateurs sont les principaux outils auxiliaires pour l'écriture de robots d'exploration. Utilisez cet outil pour analyser le modèle des liens de page, localiser les éléments que vous souhaitez extraire dans la page HTML, puis extraire son expression XPath pour l'utiliser dans le code du robot. Vous pouvez également afficher le référent, le cookie et d'autres informations dans la page. en-tête de requête. Si la cible explorée est un site Web dynamique, l'outil peut également analyser les requêtes JavaScript qui se cachent derrière celui-ci.

Le plug-in d'assistance XPath est un plug-in pour Chrome, et il peut également être installé sur les navigateurs basés sur le noyau Chrome. L'assistant XPath peut être utilisé pour déboguer les expressions XPath.

2. Configuration de l'environnement

Pour installer Scrapy, vous pouvez utiliser la commande pip : pip install Scrapy

Scrapy a de nombreuses dépendances associées, il peut être difficile pendant le processus d'installation. J'ai rencontré le problème suivant :

ImportError : aucun module nommé w3lib.http

Solution : pip install w3lib

ImportError : aucun module nommé twisted

Solution : pip install twisted

ImportError : Aucun module nommé lxml.HTML

Solution : pip install lxml

erreur : libxml/xmlversion.h : Non tel fichier ou répertoire

Solution : apt-get install libxml2-dev libxslt-dev

apt-get install Python-lxml

ImportError : aucun module nommé cssselect

Solution : p ip install cssselect

ImportError : Aucun module nommé OpenSSL

Solution : pip install pyOpenSSL

Suggestion :

Utilisez la méthode simple : installez avec anaconda.

3. Framework Scrapy

1. Introduction à Scrapy

Scrapy est un célèbre framework de robots, écrit en Python . Scrapy peut facilement effectuer du web scraping et peut également être facilement personnalisé en fonction de vos propres besoins.

La structure globale de Scrapy est à peu près la suivante :

Qu'est-ce que le puissant framework de robots d'exploration Scrapy ?

Scrapy comprend principalement les composants suivants :

Le moteur (Scrapy)

est utilisé pour traiter le flux de données de l'ensemble du système et déclencher des transactions (noyau du framework).

Scheduler (Scheduler)

est utilisé pour accepter les demandes du moteur, les placer dans la file d'attente et revenir lorsque le moteur le demande à nouveau. a La file d'attente prioritaire de l'URL (l'URL ou le lien de la page Web analysée), qui détermine la prochaine URL à explorer et supprime les URL en double.

Téléchargeur (Téléchargeur)

est utilisé pour télécharger du contenu Web et renvoyer le contenu Web à l'araignée (le téléchargeur Scrapy est construit sur Twisted, un modèle asynchrone efficace de) .

Spiders

Les robots d'exploration sont principalement utilisés pour extraire les informations dont ils ont besoin à partir de pages Web spécifiques, qui sont ce qu'on appelle des entités (Items). Les utilisateurs peuvent également en extraire des liens et laisser Scrapy continuer à explorer la page suivante.

Project Pipeline (Pipeline)

est responsable du traitement des entités extraites des pages Web par les robots d'exploration. Ses principales fonctions sont de conserver les entités, de vérifier la validité des entités et. supprimer les informations inutiles. Lorsque la page est analysée par le robot, elle sera envoyée au pipeline du projet et les données seront traitées via plusieurs séquences spécifiques.

Middlewares de téléchargement

Un framework situé entre le moteur Scrapy et le téléchargeur. Il gère principalement les requêtes et les requêtes entre le moteur Scrapy et la réponse du téléchargeur.

Spider Middlewares

Un framework entre le moteur Scrapy et le robot d'exploration. Sa tâche principale est de traiter l'entrée de réponse et la sortie de requête de l'araignée.

Intermédiaires de planification

Middleware entre le moteur Scrapy et le planificateur, envoyant des requêtes et des réponses du moteur Scrapy au planificateur.

Processus en cours d'exécution Scrapy :

1. Le moteur extrait un lien (URL) du planificateur pour une exploration ultérieure

2. l'URL dans une requête (Request) et la transmet au téléchargeur

3 Le téléchargeur télécharge la ressource et l'encapsule dans un package de réponse (Response)

5. Si l'entité (Item) est analysée, remettez-la au pipeline d'entités pour un traitement ultérieur

6 Si le lien (URL) est analysé, remettez l'URL au planificateur. attendre l'exploration

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article connexe

Construire des solutions informatiques hautes performances avec PythonJul 21, 2025 am 03:17 AM

PythonCanbeusedEffectivement pour la performance-performanceComputing (HPC) par leveragingspecifictoolsandtechniques.1)

Modèle de méthode d'usine en pythonJul 21, 2025 am 03:15 AM

Le modèle de méthode d'usine est un modèle de conception qui instancie des classes spécifiques via des décisions de sous-classe. Il définit une interface pour créer des objets, retardant la création d'objets au traitement des sous-classes, réalisant ainsi le découplage. Ce mode convient à des scénarios tels que les détails de création d'objets cachés, les futurs types de sous-classe incertains et la nécessité d'appeler différents objets dans une interface unifiée. Les étapes d'implémentation comprennent: la définition de la classe de base ou de l'interface; créer plusieurs sous-classes; Rédaction de fonctions ou de méthodes d'usine qui renvoient différentes instances en fonction des paramètres. Les méthodes d'usine peuvent être encore encapsulées dans des classes pour faciliter la gestion de la logique complexe. Lorsque vous l'utilisez, vous devez prêter attention à éviter trop de jugements conditionnels, empêchant la logique commerciale d'être mélangée dans l'usine, en évitant la sur-conception. Il est également recommandé de gérer des entrées anormales, de garder la logique simple et de l'utiliser uniquement lorsque l'évolutivité est requise.

Construire un chatbot avec Python NLTKJul 21, 2025 am 03:12 AM

Il est possible d'utiliser Python et NLTK comme chatbots, mais les objectifs et les méthodes doivent être clarifiés. 1. Installez Python et NLTK et téléchargez le corpus nécessaire tel que Punkt, Stopwords et WordNet. 2. Le processus d'implémentation comprend le prétraitement du texte (segmentation des mots, la désactivation des mots d'arrêt, la restauration de la forme des mots), la reconnaissance de l'intention ou la correspondance des mots clés et la génération de réponse. 3. Une réponse simple peut être obtenue grâce à la correspondance des mots clés, ou les modèles de classification peuvent être formés pour améliorer l'effet. 4. Les directions d'extension incluent l'introduction d'outils NLP plus puissants tels que Spacy ou Transformers, maintenir des bases de données Q&R et éviter trop de logique codé en dur. En bref, il convient aux projets d'introduction et de petits projets, avec des coûts de déploiement faibles mais une forte contrôlabilité.

Traitement d'image avec oreiller PythonJul 21, 2025 am 03:11 AM

Le traitement d'image de la bibliothèque d'oreillers est très simple et adapté aux opérations quotidiennes. 1. Installez PipInstallPillow et importez le module d'image pour démarrer; 2. Vous pouvez ouvrir l'image et afficher la largeur, la hauteur, le format et d'autres informations; 3. Utiliser la culture pour extraire des zones spécifiques; 4. Utiliser le redimensionnement pour zoomer, faire attention à la maintenance de la proportion et à l'évitement de la déformation; 5. Utilisez la méthode Draw.Text pour ajouter des filigranes de texte et spécifiez le chemin de la police, la position et la couleur; 6. Utilisez la méthode de la pâte pour superposer les couches transparentes dans le filigrane de l'image; 7. Le traitement du filtre prend en charge les images en niveaux de gris, l'ajustement du contraste de luminosité, etc.; 8. Bien que la fonction d'oreiller soit basique, elle est pratique et la maîtrise des méthodes courantes et des requêtes de document peut rapidement remplir les exigences.

Python pour l'informatique distribuéeJul 21, 2025 am 03:03 AM

Python est largement utilisé dans le calcul distribué en raison de son riche écosystème et de son développement efficace. 1. L'informatique distribuée consiste à diviser les tâches en plusieurs machines pour effectuer pour améliorer l'efficacité. Python est choisi car il a de nombreuses bibliothèques, facile à déboguer et une forte compatibilité. 2. Les cadres communs comprennent le céleri (tâches asynchrones), la daste (science des données), le pyspark (traitement des mégadonnées) et les rayons (planification haute performance). 3. Le céleri peut être utilisé pour créer un système simple: installer des dépendances, écrire des tâches, démarrer des tâches de travail et déclencher. 4. Les points de note incluent la granularité de la tâche, la légèreté des données, la réessayer de l'échec, la surveillance des journaux et la gestion de la dépendance des tâches.

Tutoriel d'expressions régulières PythonJul 21, 2025 am 03:02 AM

Des expressions régulières sont utilisées dans Python pour trouver, faire correspondre et remplacer les modèles de texte. 1. Utilisez Re.Search et Re.match pour déterminer si le texte contient un modèle spécifique. Le premier recherche toute la chaîne, tandis que le second ne commence que depuis le début. 2. Extraire le contenu via des supports, tels que l'utilisation de Match.group (1) pour obtenir la pièce requise lors de l'extraction de l'adresse e-mail; 3. Utilisez Re.Sub pour remplacer les mots sensibles ou le texte du format, tels que le remplacement de l'e-mail par [e-mail]; 4. Les notes incluent l'échappement des caractères spéciaux, le contrôle de l'appariement gourmand, l'ignorance du boîtier en majuscules et en majuscules et une correspondance multi-lignes. La maîtrise peut traiter rapidement le texte sur les téléphones mobiles.

Construire des applications mobiles multiplateformes avec Python BeewareJul 21, 2025 am 03:01 AM

Beeware est un outil pour développer des applications mobiles multiplateformes à l'aide de Python, ce qui permet une expérience vraiment native par le biais de commandes natives. 1. Il est basé sur la boîte à outils Togaui et l'outil d'emballage de mallette, et prend en charge les plates-formes MacOS, Windows, Linux, iOS et Android; 2. Contrairement à Kivy, Flutter ou Reactnative, il appelle directement l'API de la plate-forme sans pontage; 3. Il convient aux développeurs familiers avec Python pour effectuer un développement rapide des prototypes et un développement d'applications basé sur les gadgets basée sur les données; 4. La version actuelle est plus adaptée aux projets petits et moyens ou expérimentaux, et il y a encore des restrictions sur les scénarios avec des exigences élevées pour l'interface utilisateur et les performances complexes; 5. Les étapes pour commencer incluent l'installation

Implémentation de solutions informatiques Edge avec PythonJul 21, 2025 am 02:56 AM

Le cœur de la mise en œuvre par Python de l'informatique Edge est d'amener le traitement des données et la prise de décision près des sources de données, et d'améliorer l'efficacité en déploiement des services légers, en exécutant l'inférence locale et en établissant un mécanisme de téléchargement de cache. 1. Utilisez FLASK ou FASTAPI pour déployer des services API locaux sur les nœuds Edge pour obtenir une réponse rapide; 2. Utilisez Python pour effectuer le prétraitement des données et l'inférence AI légère pour réduire la quantité de données téléchargées; 3. Utilisez SQLite pour implémenter le cache local et combiner le téléchargement asynchrone pour faire face à l'instabilité du réseau. Dans le même temps, vous devez prêter attention à des détails tels que le contrôle de la dépendance, la taille du modèle, la stratégie de réessayer et l'occupation des ressources.

See all articles

Outils d'IA chauds

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Guide de construction d'Agnes Tachyon | Un joli Musume Derby

2 Il y a quelques semainesByJack chen

Oguri Cap Build Guide | Un joli Musume Derby

3 Il y a quelques semainesByJack chen

Péx: comment raviver les joueurs

4 Il y a quelques semainesByDDD

Guide de construction de Grass Wonder | Uma musume joli derby

1 Il y a quelques semainesByJack chen

Pic comment émoter

3 Il y a quelques semainesByJack chen

Afficher plus

Outils chauds

Adaptateur de serveur SAP NetWeaver pour Eclipse

Intégrez Eclipse au serveur d'applications SAP NetWeaver.

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

Afficher plus

Sujets chauds

Où se trouve l’entrée de connexion pour la messagerie Gmail ?

8646

1787

1730

1582

1451