So legen Sie Anforderungsheader für den Python-Crawler fest-Python-Tutorial-php.cn

So legen Sie Anforderungsheader für den Python-Crawler fest

爱喝马黛茶的安东尼

Freigeben： 2019-06-20 14:30:38

Original

2878 Leute haben es durchsucht

Wenn Sie das Web-Crawling anfordern, werden in den Ausgabetextinformationen Wörter wie „Leider kein Zugriff möglich“ angezeigt. Dies bedeutet, dass das Crawlen verboten ist und der Anti-Crawling-Mechanismus verwendet werden muss, um dieses Problem zu lösen.

Header sind eine Möglichkeit, das Problem des Anti-Crawlings von Anfragen zu lösen. Dies entspricht dem Aufrufen des Servers selbst dieser Webseite und dem Vorgeben, dass er Daten crawlt.

Für Anti-Crawler-Webseiten können Sie einige Header-Informationen festlegen, um einen Browser zu simulieren, der auf die Website zugreift.

So legen Sie Anforderungsheader für den Python-Crawler fest

Header

Google- oder Firefox-Browser, klicken Sie auf die Webseite: Rechtsklick – Inspizieren; klicken Sie auf „Weitere Tools – Entwicklung“ oder Werkzeug; Sie können auch direkt F12. Drücken Sie dann Fn+F5, um die Webseite zu aktualisieren und die Elemente anzuzeigen

Einige Browser klicken: Rechtsklick -> Elemente anzeigen, aktualisieren

Verwandte Empfehlungen: „Python-Video-Tutorial》

So legen Sie Anforderungsheader für den Python-Crawler fest

Hinweis: Es gibt viele Inhalte in Headern, die am häufigsten verwendeten sind User-Agent und Host. Sie werden in Form von Schlüsselpaaren angezeigt Benutzeragent Wenn Sie Wörterbuchschlüsselpaare als Inhalt von Headern verwenden, können Sie das Crawling erfolgreich umkehren und es sind keine anderen Schlüsselpaare erforderlich. Andernfalls müssen Sie weitere Schlüsselpaare unter den Headern hinzufügen.

Einstellungen

import urllib2
import urllib
values={"username":"xxxx","password":"xxxxx"}
data=urllib.urlencode(values)
url= "https://ssl.gstatic.com/gb/images/v2_730ffe61.png"
user_agent="Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"
referer=&#39;http://www.google.com/&#39;
headers={"User-Agent":user_agent,&#39;Referer&#39;:referer}
request=urllib2.Request(url,data,headers)
response=urllib2.urlopen(request)
print response.read()

Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonSo legen Sie Anforderungsheader für den Python-Crawler fest. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!