Problem
Beim Crawlen von Daten lauten die Debugging-Informationen normalerweise wie folgt:
DEBUG: Crawled (200) <GET //m.sbmmt.com/> (referer: None)
Wenn
DEBUG: Crawled (403) <GET //m.sbmmt.com/> (referer: None)
erscheint, bedeutet dies, dass die Website Anti-Web verwendet Technologie – Crawling-Technik (von Amazon verwendet), die relativ einfach ist und die Informationen des Benutzeragenten (User Agent) überprüft.
Lösung
Erstellen Sie einen Benutzeragenten im Anforderungsheader, wie unten gezeigt:
def start_requests(self): yield Request("//m.sbmmt.com/", headers={'User-Agent': "your agent string"})
Das obige ist der detaillierte Inhalt vonDer Python-Crawler gibt eine 403-Fehlerlösung zurück. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!