网页爬虫 - Python爬虫如何正确判断页面是否可以爬取？

Question

用Python27些爬虫，想要爬取一些网站，我需要判断网页是否可以爬取，第一反应是通过状态码来判断，但是写完运行后发现有许多目标网站访问它不存在的页面时会返回一个404错误页面，可他的状态码却是200，结果爬回...

阿神 · Answer

首先， 200 状态码，是网络连接状态，所以你只判断200并不能满足所有网站。

其次，写爬虫嘛，你应该实际去看看这些网站的规则是什么，可以先人工判断下，找找规律，比如看看网页返回内容是不是有什么特点之类的。

黄舟 · Answer

做个网页内容的判断，如果他网页里面没有内容就直接返回。

怪我咯 · Answer

就算是页面状态码200，返回的404页面，应该和正常能爬取的页面html有不同的html元素吧，根据有没有特定的html元素来判断是不是404页面也行的