Cet article présente principalement comment Python résiste aux anti-crawlers en déguisant les données d'en-tête. Il a une certaine valeur de référence. Maintenant, je le partage avec vous. Les amis dans le besoin peuvent s'y référer
. 0x00 Environnement
Environnement système : win10
Outil d'écriture : JetBrains PyCharm Community Edition 2017.1.2 x64
version python : python-3.6.2
Outil de capture de paquets : Fiddler 4
0x01 Idée de déguisement des données d'en-tête
Soumettre les données au serveur via http, ce qui suit is Capturez les informations d'en-tête non dissimulées de Python via Fiddler
GET /u012870721 HTTP/1.1 Accept-Encoding: identity Host: blog.csdn.net User-Agent: <span style="color:#ff0000;">Python-urllib/3.6</span> Connection: close
Python-urllib/3.6
De toute évidence, nous sommes exposés . Maintenant, je dois demander : que dois-je faire ? Simulez un navigateur et faites semblant d'être un navigateur. Voici les données d'en-tête envoyées par l'accès du navigateur
Connection: keep-alive Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36 Referer: http://write.blog.csdn.net/postlist Accept-Encoding: gzip, deflate Accept-Language: zh-CN,zh;q=0.8
Code 0x02 Implémenter
from urllib import request html_url = "http://blog.csdn.net/u012870721"; #伪装构造头 header ={ "Connection": "keep-alive", "Upgrade-Insecure-Requests": "1", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36", "Accept":" text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", "Accept-Encoding": "gzip,deflate", "Accept-Language": "zh-CN,zh;q=0.8" }; #int main() #{ req = request.Request(url=html_url, headers=header); resp = request.urlopen(req); # return 0; # }
L'en-tête d'information envoyé après avoir été déguisé
GET /u012870721 HTTP/1.1 Host: blog.csdn.net Connection: close Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 Accept-Encoding: gzip,deflate Accept-Language: zh-CN,zh;q=0.8
Recommandations associées :
Quelques commandes de déploiement pour l'environnement de production Centos Python
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!