Heim > Backend-Entwicklung > Python-Tutorial > Python-Crawler zum Erstellen eines Scrapy-Crawler-Frameworks in der Anaconda-Umgebung

Python-Crawler zum Erstellen eines Scrapy-Crawler-Frameworks in der Anaconda-Umgebung

不言
Freigeben: 2018-09-07 15:38:42
Original
6737 Leute haben es durchsucht

Wie erstelle ich ein Scrapy-Crawler-Framework in einer Anaconda-Umgebung? Dieser Artikel führt Sie in die Schritte zum Erstellen eines Scrapy-Crawler-Framework-Projekts in der Anaconda-Umgebung ein. Es lohnt sich, ihn zu lesen.

Python-Crawler-Tutorial-31 – Scrapy-Crawler-Framework-Projekt erstellen

Zuallererst befindet sich dieser Artikel in der Anaconda-Umgebung. Wenn Anaconda also nicht installiert ist, gehen Sie bitte zum Herunterladen auf die offizielle Website und installieren Sie es zuerst

Anaconda-Download-Adresse: https://www.anaconda.com/download/

Erstellung des Scrapy-Crawler-Framework-Projekts

0.

1. Geben Sie die Anaconda-Umgebung ein, die Sie verwenden möchten

Hier haben wir das Projekt erstellt und analysieren die Rolle der automatisch generierten Dateien

1. Der Umgebungsname kann sein gefunden unter [Einstellungen] in [Pycharm] Suchen Sie

Python-Crawler zum Erstellen eines Scrapy-Crawler-Frameworks in der Anaconda-Umgebung

unter [Projekt:] 2. Verwenden Sie den Befehl: Umgebungsnamen aktivieren, zum Beispiel:

aktivieren learn

3. Geben Sie das gewünschte Verzeichnis ein, in dem das Scrapy-Projekt gespeichert werden soll [Hinweis]

4. Neues Projekt: scrapy startproject xxx Projektname, zum Beispiel:

scrapy startproject new_project

5. Vorgangs-Screenshot:

Python-Crawler zum Erstellen eines Scrapy-Crawler-Frameworks in der Anaconda-Umgebung

6. Öffnen Sie das Verzeichnis im Datei-Explorer und Sie werden feststellen, dass mehrere Dateien generiert wurden

Python-Crawler zum Erstellen eines Scrapy-Crawler-Frameworks in der Anaconda-Umgebung

7. Öffnen Sie einfach das Verzeichnis, in dem sich das Projekt befindet

Entwicklung des Scrapy-Crawler-Framework-Projekts

0 um das Projekt zu öffnen, Screenshot:
Python-Crawler zum Erstellen eines Scrapy-Crawler-Frameworks in der Anaconda-Umgebung

Der allgemeine Prozess der Projektentwicklung:

Die Adresse Spider/xxspider.py ist für die Zerlegung und verantwortlich Extrahieren der heruntergeladenen Daten

1. Klären Sie das Ziel/Produkt, das gecrawlt werden muss: Schreiben Sie item py

2. Laden Sie eine Python-Datei herunter und erstellen Sie sie im Spider-Verzeichnis:

3. Inhalt speichern: Pipelines.py

Pipeline.py-Datei

Wenn das Spider-Objekt geschlossen ist, wird das

Wenn das Spider-Objekt geöffnet wird, wird

aufgerufen, um einige notwendige Parameter zu initialisieren.

Die von der Spider extrahierten Elemente werden als Parameter übergeben

wird ebenfalls übergeben. Diese Methode muss

implementieren und ein Item-Objekt zurückgeben. Das verworfene Element entspricht nicht der nachfolgenden Pipeline

Pipeline-Datei

Nachdem der Crawler die Daten extrahiert und im Element gespeichert hat, müssen die im Element gespeicherten Daten weiter verarbeitet werden, z. B. Reinigung, Entwurmung, Speicherung usw.

Pipeline muss die Funktion „process_item“ verarbeiten

process_item

_ init _: Konstruktor

open_spider(spider):

close_spider(spider):

Spider-Verzeichnis

entspricht der Datei unter dem Ordner Spider

_ init _: Initialisieren Sie den Crawler-Namen, starten Sie die _urls-Liste

start_requests: generieren Anforderungen Objektschnittpunkt Laden Sie die Antwort herunter und geben Sie sie an Scrapy zurück

Analyse: Analysieren Sie das entsprechende Element gemäß der zurückgegebenen Antwort, und das Element gelangt automatisch in die Pipeline: Analysieren Sie bei Bedarf die URL, und die URL wird automatisch übergeben zum Anforderungsmodul, und der Zyklus geht weiter

start_requests: Diese Methode kann einmal aufgerufen werden, den Inhalt von start_urls lesen und den Schleifenprozess starten

Name: Legen Sie den Crawler-Namen fest

start_urls: Legen Sie die URL fest, um den ersten Crawling-Batch zu starten

allow_domains: Liste der Domänennamen, die Spider crawlen darf

start_request(self): wird nur einmal aufgerufen

Parse: Erkennungskodierung

Protokoll: Protokolldatensatz

Verwandte Empfehlungen:

Detaillierte Erläuterung von Scrapy-Beispielen des Python-Crawler-Frameworks

Einführungs-Tutorial zum Scrapy-Crawler 4 Spider (Crawler)

Ein einfaches Beispiel für das Schreiben eines Webcrawlers mit Pythons Scrapy-Framework

Das obige ist der detaillierte Inhalt vonPython-Crawler zum Erstellen eines Scrapy-Crawler-Frameworks in der Anaconda-Umgebung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage