Ich habe das Chinese Judgement Documents Network gecrawlt und es war in Ordnung, bevor ich eine Anfrage gesendet habe und der Server 200 zurückgegeben hat, und dann habe ich die Daten im Text verarbeitet
Aber vor einer Woche gaben plötzlich alle Anfragen 202 zurück, und dann war auch der Antworttext leer und ich konnte überhaupt keine Daten abrufen, während (response.status == 202) in der Rückruffunktion wartete und sogar schlief Ohne Erfolg. Der Status ändert sich nicht
Was soll ich tun? Ich habe den IP-Proxy-Dienst von crwalera genutzt. Es war auch eine Zeit lang 202, aber nach einem Tag wurde es besser, aber dieses Mal hielt es eine Woche an, was sehr seltsam istIch denke, die Zielwebsite ist zu stark ausgelastet, daher verwende ich eine asynchrone Methode zum Senden von Daten, aber wie empfange ich seine Daten korrekt in Scrapy
这种情况通常是违规抓取,服务端进行了防抓取限制。如果是合法抓取的话,可以和内容方面沟通,看看是不是有误伤,如果是非法抓取,还建议不要这样做了,严重的话可能有被起诉的风险
被防采集了,可以试试换ip或寻找防采的限制漏洞