www.cnvd.org.cn是个很奇怪的网站,如过你用浏览器访问时正常的,但是如果用http请求就会出现各种错。比如:
wget http://www.cnvd.org.cn 返回:
--2016-08-26 20:37:00-- http://www.cnvd.org.cn/
Resolving www.cnvd.org.cn (www.cnvd.org.cn)... 113.200.91.208, 42.48.109.207
Connecting to www.cnvd.org.cn (www.cnvd.org.cn)|113.200.91.208|:80... connected.
HTTP request sent, awaiting response... 521
2016-08-26 20:37:00 ERROR 521: (no description).
如果用curl执行则会返回一段JS代码
js也研究了下。是动态设置cookie的。
一个月前整站已经被扒下来了,最近发现没有增加数据量才知道爬虫被ban了,前段时间调试的时候将浏览器的请求头全部复制到爬虫中科院正常运行,但是这两天此方法已经失效。。。
请大家给我个思路,感觉瞬间没爱了!
웹사이트에서 크롤러를 감지한 것입니다. 헤더가 작동하지 않으면 IP 또는 계정에 의해 제한되어 있는지만 확인할 수 있습니다. 로그인이 필요하지 않은 경우 먼저 IP를 변경해 보세요. 정상인지 확인하거나 크롤러 서버에 직접 수동으로 접속하여 성공 여부를 확인하세요
------업데이트-------
질문자의 요청에 따라 테스트 코드를 게시했습니다. 여기에 있는 쿠키는 방금 수동 액세스를 통해 얻은 것입니다. 쿠키의 만료 시간은 별도로 가져오지 않아도 됩니다. 잘 보세요. 질문자가 이해하지 못한다면 저는 더 이상 보기 좋지 않을 것입니다.
으아악도움이 되었기를 바랍니다
친구 여러분, 저도 최근에 이 웹사이트를 검색하고 있는데 여러분에게 몇 가지 의견을 드리고자 합니다. 소통하고 싶으신 분은 친구추가 부탁드립니다.
cnvd는 일반적인 상황에서 올라갈 수 있습니다.
www.cnvd.org.cn은 상당히 역겨워서 많은 사람들이 521로 향하고 있습니다.
으아악