Was bedeutet Python-Crawler?-Python-Tutorial-php.cn

Was bedeutet Python-Crawler?

silencement

Freigeben： 2020-09-14 15:29:21

Original

51401 Leute haben es durchsucht

Python-Crawler ist ein Python-Webcrawler, der auch als Web-Spider oder Web-Roboter bezeichnet wird. Es handelt sich um ein Programm oder Skript, das nach bestimmten Regeln automatisch World Wide Web-Informationen erfasst bekannt als Ameisen, Autoindexer, Emulatoren oder Würmer.

Was bedeutet Python-Crawler?

Einfach ausgedrückt ist das Internet ein großes Netzwerk, das aus Websites und Netzwerkgeräten besteht. Wir greifen über einen Browser auf die Website zu und die Website enthält HTML, JS, und CSS-Codes Diese Codes werden an den Browser zurückgegeben und vom Browser analysiert und gerendert, um reichhaltige und farbenfrohe Webseiten vor unseren Augen zu präsentieren

Was bedeutet Python-Crawler?

Wenn wir das Internet vergleichen Bei einem großen Spinnennetz werden Daten in jedem Knoten des Spinnennetzes gespeichert, und der Python-Crawler ist eine kleine Spinne.

Ergreift seine eigene Beute (Daten) im Netzwerk. Der Crawler bezieht sich auf: Erstellen eines Anfrage an die Website, Abrufen eines Programms, das nützliche Daten nach Ressourcen analysiert und extrahiert.

Aus technischer Sicht simuliert es das Verhalten eines Browsers, der eine Website über ein Programm anfordert, und crawlt den HTML-Code/JSON-Daten /Binärdaten (Bilder, Videos), die von der Site an den lokalen Bereich zurückgegeben werden, und dann die benötigten Daten extrahieren, speichern und verwenden

Grundprinzipien des Python-Crawlers

Was bedeutet Python-Crawler?

1. Initiieren Sie eine Anfrage

Verwenden Sie die http-Bibliothek, um eine Anfrage an die Zielseite zu initiieren, d. h. eine Anfrage zu senden

Anfrage umfasst: Anforderungsheader, Anforderungstext usw.

Anforderungsmodulfehler: JS- und CSS-Code kann nicht ausgeführt werden

2. Holen Sie sich den Antwortinhalt

Wenn der Server antworten kann Normalerweise erhalten Sie eine Antwort

Antwort umfasst: HTML, JSON, Bilder, Videos usw.

3. Inhalt analysieren

HTML-Daten analysieren: regulärer Ausdruck (RE Modul), Analysebibliotheken von Drittanbietern wie Beautifulsoup, Pyquery usw.

JSON-Daten analysieren: JSON-Modul

Binärdaten analysieren: Dateien im WB-Format schreiben

4 . Daten speichern

Datenbank (MySQL, Mongdb, Redis)

Das obige ist der detaillierte Inhalt vonWas bedeutet Python-Crawler?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!