python - Was soll ich tun, wenn ich einen Crawler mit Scrapy schreibe?
黄舟
黄舟 2017-06-28 09:25:09
0
2
1555

Ich habe das Chinese Judgement Documents Network gecrawlt und es war in Ordnung, bevor ich eine Anfrage gesendet habe und der Server 200 zurückgegeben hat, und dann habe ich die Daten im Text verarbeitet

Aber vor einer Woche gaben plötzlich alle Anfragen 202 zurück, und dann war auch der Antworttext leer und ich konnte überhaupt keine Daten abrufen, während (response.status == 202) in der Rückruffunktion wartete und sogar schlief Ohne Erfolg. Der Status ändert sich nicht

Was soll ich tun?

Ich habe den IP-Proxy-Dienst von crwalera genutzt. Es war auch eine Zeit lang 202, aber nach einem Tag wurde es besser, aber dieses Mal hielt es eine Woche an, was sehr seltsam ist

Ich denke, die Zielwebsite ist zu stark ausgelastet, daher verwende ich eine asynchrone Methode zum Senden von Daten, aber wie empfange ich seine Daten korrekt in Scrapy

黄舟
黄舟

人生最曼妙的风景,竟是内心的淡定与从容!

Antworte allen (2)
学霸

这种情况通常是违规抓取,服务端进行了防抓取限制。如果是合法抓取的话,可以和内容方面沟通,看看是不是有误伤,如果是非法抓取,还建议不要这样做了,严重的话可能有被起诉的风险

    过去多啦不再A梦

    被防采集了,可以试试换ip或寻找防采的限制漏洞

      Neueste Downloads
      Mehr>
      Web-Effekte
      Quellcode der Website
      Website-Materialien
      Frontend-Vorlage
      Über uns Haftungsausschluss Sitemap
      Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!