Code
$httpClass = new Snoopy();
$httpClass->fetch('https://v.qq.com/');
$url = $httpClass->results;
print_r($url);die();
L'exploration de https://www.baidu.com/ continue de signaler 405 erreurs
Le crawl https://v.qq.com/ fonctionne normalement
Je cherche une réponse, j'ai travaillé dessus tout l'après-midi et je n'arrive toujours pas à la résoudre
Baidu a probablement un paramètre de type robot. Vous devez le dissimuler et définir un UA ou quelque chose comme ça
.Référence : http://www.4wei.cn/archives/396
Ce n'est pas un problème de type Snoopy. C'est parce que vous ne savez pas grand-chose sur les robots d'exploration. Puisqu’il existe des robots, il y aura bien sûr une technologie anti-crawler. Le plus simple est basé sur l'identifiant du navigateur ou le référent dans l'en-tête de la requête, etc. Les grands sites Web comme Baidu et Tencent ne voudront pas que nous explorions les données, ils ont donc dû prendre de nombreuses mesures préventives. Par conséquent, il est recommandé de comprendre les connaissances des robots d’exploration avant d’explorer les données.