Heim > Backend-Entwicklung > Python-Tutorial > Was muss für den Python-Crawler installiert werden?

Was muss für den Python-Crawler installiert werden?

藏色散人
Freigeben: 2019-12-28 11:47:03
Original
10897 Leute haben es durchsucht

Was muss für den Python-Crawler installiert werden?

80 % der Crawler weltweit werden auf Basis von Python entwickelt. Durch das Erlernen von Crawlerfähigkeiten können wichtige Datenquellen für die anschließende Big-Data-Analyse, das Mining, maschinelles Lernen usw. bereitgestellt werden.

Der Python-Crawler muss verwandte Bibliotheken installieren:

Am Python-Crawler beteiligte Bibliotheken:

Anforderungsbibliothek, Parsing-Bibliothek, Repository, Tool-Bibliothek

1. Bibliothek anfordern: urllib/re/requests

(1) urllib/re ist die Bibliothek, die standardmäßig mit Python geliefert wird und mit dem folgenden Befehl überprüft werden kann:

Es wird keine Fehlermeldung ausgegeben, was darauf hinweist, dass die Umgebung normal ist

(2) fordert Installation an

2.1 Öffnen Sie CMD und geben Sie

pip3 install requests
Nach dem Login kopieren

ein 2.2 Warten Sie auf die Installation und überprüfen Sie

(3) Selenium-Installation (steuert den Browser für das Website-Zugriffsverhalten)

3.1 Öffnen Sie CMD und geben Sie

pip3 install selenium
Nach dem Login kopieren
ein

3.2 Chromedriver installieren

Website: https://npm.taobao.org/

Entpacken Sie das heruntergeladene komprimierte Paket und legen Sie die Exe-Datei im Pfad D:Python3.6.0Scripts ab

Solange es sich in der PATH-Variablen befindet

3.3 Nachdem die Installation abgeschlossen ist, überprüfen Sie

und drücken Sie die Eingabetaste, um das Chrome aufzurufen Browseroberfläche

3.4 Andere Browser installieren

Schnittstellenloser Browser Phantomjs

Download-URL: http://phantomjs.org/

Nachdem der Download abgeschlossen ist, Entpacken Sie es und legen Sie das gesamte Verzeichnis in D: Python3.6.0 ab. Skripte, fügen Sie den Pfad zum bin-Verzeichnis zur PATH-Variablen hinzu

Überprüfung:

CMD öffnen

phantomjs
console.log('phantomjs')

CTRL+C

python
from selenium import webdriver
driver = webdriver.PhantomJS()
dirver.get('http://www.baidu.com')
driver.page_source
Nach dem Login kopieren

2 . Parsing-Bibliothek:

2.1 lxml (XPATH)

Öffnen Sie CMD

pip3 install lxml
Nach dem Login kopieren

oder laden Sie es von https://pypi.python.org herunter, zum Beispiel lxml -4.1.1-cp36-cp36m-win_amd64.whl (md5), laden Sie zuerst die WHL-Datei herunter

pip3 install 文件名.whl
Nach dem Login kopieren

2.2 beautifulsoup

Öffnen Sie CMD, Sie müssen lxml installieren

pip3 install beautifulsoup4
Nach dem Login kopieren

Überprüfung

python
from bs4 import BeautifulSoup
soup = BeautifulSoup(&#39;<html></html>&#39;,&#39;lxml&#39;)
Nach dem Login kopieren

2.3 pyquery (ähnlich der jquery-Syntax)

CMD öffnen

pip3 install pyquery
Nach dem Login kopieren

Installationsergebnisse überprüfen

python
from pyquery import PyQuery as pq
doc = pq(&#39;<html>hi</html>&#39;)
result = doc(&#39;html&#39;).text()
result
Nach dem Login kopieren

3. Repository

3.1 pymysql (Operation MySQL, relationale Datenbank)

Installation:

pip3 install pymysql
Nach dem Login kopieren

Post-Installationstest:

3.2 Pymongo (Betrieb von MongoDB, Schlüsselwert)

Installation

pip3 install pymongo
Nach dem Login kopieren

Verifizierung

python
import pymongo
client = pymongo.MongoClient(&#39;localhost&#39;)
db = client[&#39;testdb&#39;]
db[&#39;table&#39;].insert({&#39;name&#39;:&#39;bob&#39;})
db[&#39;table&#39;].find_one({&#39;name&#39;:&#39;bob&#39;})
Nach dem Login kopieren

3.3 Redis (verteilter Crawler, Crawling-Warteschlange beibehalten)

Installation:

pip3 install redis
Nach dem Login kopieren

Überprüfung:

4. Tool-Bibliothek

4.1 Flask (WEB-Bibliothek)

pip3 install flask
Nach dem Login kopieren

4.2 Django (verteiltes Crawler-Wartungssystem)

pip3 install django
Nach dem Login kopieren

4.3 jupyter (läuft auf der Webseite Notepad auf dem Client unterstützt Markdown und kann Code auf der Webseite ausführen)

pip3 install jupyter
Nach dem Login kopieren

Überprüfung:

Öffne CMD

jupyter notebook
Nach dem Login kopieren

und Sie können Notizblock- und Codeblöcke direkt auf der Webseite und Markdown-Blöcke erstellen und das Drucken unterstützen

[Verwandte Empfehlungen]

1. Python-Crawler-Bibliothek und zugehörige Tools

2. Erste Schritte mit Python-Crawlern-Tutorial

Das obige ist der detaillierte Inhalt vonWas muss für den Python-Crawler installiert werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage