Ein Crawler, auch Web-Roboter genannt, wird in der FOAF-Community allgemein als Webseiten-Chaser bezeichnet. Dabei handelt es sich um ein Programm oder Skript, das nach bestimmten Regeln automatisch Informationen erfasst in Suchmaschinen liest es alle Inhalte und Links einer Website, baut relevante Volltextindizes in die Datenbank ein und springt dann zu einer anderen Website. Herkömmliche Crawler beginnen mit der URL einer oder mehrerer anfänglicher Webseiten, rufen die URL auf der ursprünglichen Webseite ab, extrahieren dann kontinuierlich neue URLs aus der aktuellen Seite und stellen sie in die Warteschlange, bis bestimmte Stoppbedingungen des Systems erfüllt sind.
Vorbereitung vor dem Lernen
Eine Liebe zum Lernen
2 eine Tastatur (jedes System reicht aus. Ich verwende OS X, daher basieren die Beispiele darauf)
3. Einige Vorkenntnisse in Bezug auf HTML. Man muss nicht kompetent sein, nur ein wenig Verständnis reicht aus! Grundlegende Syntaxkenntnisse von Python.
Spezifischer Lernweg
Es ist im Allgemeinen in drei Hauptaspekte unterteilt:
1. Einfacher gerichteter Skript-Crawler (Anfrage -- - bs4 --- re)
2. Großer Frame-Crawler (hauptsächlich Scrapy-Framework)
3. Browser-Simulations-Crawler (Mechanisierungssimulation und Selenium-Simulation)
Spezifische Schritte:
1. Installation und Verwendung von Beautiful Soup
Anforderungsbibliothek, Installation der Beautiful-Soup-Crawler-Umgebung, Beautiful-Soup-Parser, erneute Verwendung der regulären Regeln der Bibliothek Ausdrücke, BS4-Crawler-Übungen. Holen Sie sich den Inhalt der BS4-Crawler-Übung von Baidu Tieba, holen Sie sich Shuangseqiu-Gewinnerinformationen, BS4-Crawler-Übung, holen Sie sich die Ausgangspunkt-Roman-Informationen, BS4-Crawler-Übung, holen Sie sich die Filminformationen, BS4-Crawler-Übung. Holen Sie sich die Liste des Yueyin-Kanals
2. Scrapy-Crawler-Framework
Installieren Sie Scrapy, wählen Sie Xpath und CSS in der Scrapy-Crawler-Übung, dem heutigen Film und Fernsehen, Scrapy-Crawler-Übung, Wettervorhersage, Scrapy-Crawler-Übung, erhalten Sie Agent Scrapy-Crawler-Praxis, Enzyklopädie der Enzyklopädien Scrapy-Crawler-Praxis, Crawler-bezogener Angriff und Verteidigung (Agentenpool-bezogen)
3. Browser-Simulations-Crawler
Installation und Verwendung des Mechanize-Moduls, verwenden Sie Mechanize, um Erhalten Sie Ankündigungen von Musiksendern, Installation und Verwendung des Selenium-Moduls, Browserauswahl PhantomJS, Selenium & PhantomJS-Übungen, Erhalten von Proxys für Selenium & PhantomJS-Übungen, Comic-Crawler.
Das obige ist der detaillierte Inhalt vonWas Sie über Python-Crawler lernen sollten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!