80 % des robots d'exploration dans le monde sont développés sur la base de Python. L'apprentissage des compétences des robots d'exploration peut fournir des sources de données importantes pour l'analyse ultérieure du Big Data, l'exploration, l'apprentissage automatique, etc.
Le robot d'exploration Python doit installer les bibliothèques associées :
Bibliothèques impliquées dans le robot d'exploration Python :
Bibliothèque de requête, bibliothèque d'analyse, référentiel, bibliothèque d'outils
1. Bibliothèque de requêtes : urllib/re/requests
(1) urllib/re est la bibliothèque fournie avec python par défaut et peut être vérifiée par la commande suivante :
Aucun message d'erreur n'est affiché, indiquant que l'environnement est normal
(2) demande l'installation
2.1 Ouvrez CMD, entrez
pip3 install requests
2.2 Attendez l'installation et vérifiez
(3) Installation de Selenium (pilote le navigateur pour le comportement d'accès au site Web)
3.1 Ouvrez CMD et entrez
pip3 install selenium
3.2 Installer Chromedriver
Site Web : https://npm.taobao.org/
Décompressez le package compressé téléchargé et placez l'exe dans le chemin D:Python3.6.0Scripts
Tant qu'il est dans la variable PATH
3.3 Une fois l'installation terminée, vérifiez
et appuyez sur Entrée pour faire apparaître le chrome interface du navigateur
3.4 Installer d'autres navigateurs
Navigateur sans interface phantomjs
URL de téléchargement : http://phantomjs.org/
Une fois le téléchargement terminé, décompressez-le et mettez le répertoire entier dans D:Python3.6.0Scripts, ajoutez le chemin du répertoire bin à la variable PATH
Vérification :
Ouvrir CMD
phantomjs console.log('phantomjs') CTRL+C python from selenium import webdriver driver = webdriver.PhantomJS() dirver.get('http://www.baidu.com') driver.page_source
2 . Bibliothèque d'analyse :
2.1 lxml (XPATH)
Ouvrez CMD
pip3 install lxml
ou téléchargez-la depuis https://pypi.python.org, par exemple, lxml. -4.1.1-cp36-cp36m-win_amd64.whl ( md5), téléchargez d'abord le fichier whl
pip3 install 文件名.whl
2.2 beautifulsoup
Ouvrez CMD, vous devez installer lxml
pip3 install beautifulsoup4
Vérification
python from bs4 import BeautifulSoup soup = BeautifulSoup('<html></html>','lxml')
2.3 pyquery (similaire à jquery) Syntaxe)
Ouvrir CMD
pip3 install pyquery
Vérifier les résultats de l'installation
python from pyquery import PyQuery as pq doc = pq('<html>hi</html>') result = doc('html').text() result
3. Dépôt
3.1 pymysql (opération MySQL, base de données relationnelle)
Installation :
pip3 install pymysql
Test post-installation :
3.2 pymongo (fonctionnement de MongoDB, clé-valeur)
Installation
pip3 install pymongo
Vérification
python import pymongo client = pymongo.MongoClient('localhost') db = client['testdb'] db['table'].insert({'name':'bob'}) db['table'].find_one({'name':'bob'})
3.3 redis (crawler distribué, maintenir la file d'attente d'exploration)
Installation :
pip3 install redis
Vérification :
4. Bibliothèque d'outils
4.1 flask (bibliothèque WEB)
pip3 install flask
4.2 Django (système de maintenance distribué sur chenilles)
pip3 install django
4.3 jupyter (exécuté sur la page Web Le Bloc-notes sur le client prend en charge le markdown et peut exécuter du code sur la page Web)
pip3 install jupyter
Vérification :
Ouvrir CMD
jupyter notebook
et vous pouvez créer un bloc-notes et des blocs de code directement sur la page Web et des blocs Markdown, prendre en charge l'impression
[Recommandations associées]
1 bibliothèque de robots d'exploration Python et outils associés<.>
2.Tutoriel de démarrage avec les robots d'exploration Python
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!