84669 personnes étudient
152542 personnes étudient
20005 personnes étudient
5487 personnes étudient
7821 personnes étudient
359900 personnes étudient
3350 personnes étudient
180660 personnes étudient
48569 personnes étudient
18603 personnes étudient
40936 personnes étudient
1549 personnes étudient
1183 personnes étudient
32909 personnes étudient
禁止自己的网站被爬虫爬去?有什么方法啊
光阴似箭催人老,日月如移越少年。
加一个robots.txt文件,内容:
User-agent: * Disallow: /
加入robots.txt,告诉爬虫希望不要爬取我的网站,但是并不会强制禁止,这只是一个约定,需要双方都去遵守。
不知道你说的爬虫是指百度爬虫还是我们自己编写的爬虫。
百度爬虫按楼上的方法就好了,而防止别人的爬虫有很多方法,比如所有class,或者id都动态生成。因为爬虫解析html一般是通过class或者id来获取想要的东西的。
还得看是什么样的爬虫了君子型?小人型?如果这个爬虫能遵守robots.txt约定,那么还好但是这种只是君子协定如果碰上小人,那么也就呵呵了
1) JS什么的可以试试gzip压缩,很多爬虫不会爬取gzip压缩的js2)使用log分析web服务器的日志,如果是恶意的访问你的关键资源的,并且对方是一个固定IP,可以试着ban掉对方IP
讲道理,不可能绝对做到
没有用的,首先你的网站本身对人公开,那自然也就对爬虫公开,除非换成内部网络,如果你把精力做到防止爬虫上去,还不如提高质量,现在分类信息网站都是爬来爬去,而用户体验基本没有提升。
噗,你可以把class和id乱七八糟,毫无规律,让正则都匹配不了
网页内容全部js动态生成不知道可不可以
首先是你很难做到说100%不让爬虫爬取到,除非像楼上说的那样是内部网络。
但是你可以做一些的措施用来防止一些技术含量低的小爬虫爬取你的网站。
具体的措施可以移步到知乎,看看这篇文章点这里
希望能帮到你
加一个robots.txt文件,内容:
加入robots.txt,告诉爬虫希望不要爬取我的网站,但是并不会强制禁止,这只是一个约定,需要双方都去遵守。
不知道你说的爬虫是指百度爬虫还是我们自己编写的爬虫。
百度爬虫按楼上的方法就好了,而防止别人的爬虫有很多方法,比如所有class,或者id都动态生成。因为爬虫解析html一般是通过class或者id来获取想要的东西的。
还得看是什么样的爬虫了
君子型?小人型?
如果这个爬虫能遵守robots.txt约定,那么还好
但是这种只是君子协定
如果碰上小人,那么也就呵呵了
1) JS什么的可以试试gzip压缩,很多爬虫不会爬取gzip压缩的js
2)使用log分析web服务器的日志,如果是恶意的访问你的关键资源的,并且对方是一个固定IP,可以试着ban掉对方IP
讲道理,不可能绝对做到
没有用的,首先你的网站本身对人公开,那自然也就对爬虫公开,除非换成内部网络,如果你把精力做到防止爬虫上去,还不如提高质量,现在分类信息网站都是爬来爬去,而用户体验基本没有提升。
噗,你可以把class和id乱七八糟,毫无规律,让正则都匹配不了
网页内容全部js动态生成不知道可不可以
首先是你很难做到说100%不让爬虫爬取到,除非像楼上说的那样是内部网络。
但是你可以做一些的措施用来防止一些技术含量低的小爬虫爬取你的网站。
具体的措施可以移步到知乎,看看这篇文章点这里
希望能帮到你