Python 爬虫返回403错误解决方法

伊谢尔伦

Lepaskan： 2017-04-29 10:05:50

asal

6597 orang telah melayarinya

问题

抓取数据时，通常调试信息是：

DEBUG: Crawled (200) <GET //m.sbmmt.com/> (referer: None)

Salin selepas log masuk

如果出现

DEBUG: Crawled (403) <GET //m.sbmmt.com/> (referer: None)

Salin selepas log masuk

表示网站采用了防爬技术anti-web-crawling technique（Amazon所用），比较简单即会检查用户代理（User Agent）信息。

解决方法

在请求头部构造一个User Agent，如下所示：

def start_requests(self):  
    yield Request("//m.sbmmt.com/",  
                  headers={&#39;User-Agent&#39;: "your agent string"})

Salin selepas log masuk

Atas ialah kandungan terperinci Python 爬虫返回403错误解决方法. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan：

Python，403错误

Artikel sebelumnya：学习Python到底能干什么 Artikel seterusnya：python过滤掉字符串数组中某个敏感词

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang