我有一个网站,域名http://www.XXX.com/,根目录有个index.php文件.那么访问地址就是http://www.XXX.com/index.php
你所能做的是:开放和不开放
不开放一般是做需要登录,就是对整个子目录做权限限制
只要是开放的,有心人总能找到
爬虫一般有两种方式得到链接??跟随和推算
前者不用说了
后者是依据url合法字符原则,在一定范围内做探测尝试,一般不需要获取网页,只做header探测是否存在就够了,然后再使用跟随就能获得了子目录下的站点
robots.txt
User-agent: *
Disallow: /tner/
禁止搜索引擎访问。
tner下建立一个空的index.html,防止用户在键入http://www.XXX.com/tner 时,打印出tner下所有的文件列表。
robots.txt
User-agent: *
Disallow: /tner/
禁止搜索引擎访问。
tner下建立一个空的index.html,防止用户在键入http://www.XXX.com/tner 时,打印出tner下所有的文件列表。
太好了!对于如何禁止搜索引擎访问我问了很多人,发了很多贴,不得其法.请问你能详细一点吗?这个robots.txt文件放在哪里?是/tner目录下?还是什么别的地方?
另外,你说/tner/目录下建立一个index.html文件,可是我已经有了index.php文件了,还用建立index.html文件吗?
你所能做的是:开放和不开放
不开放一般是做需要登录,就是对整个子目录做权限限制
只要是开放的,有心人总能找到
爬虫一般有两种方式得到链接??跟随和推算
前者不用说了
后者是依据url合法字符原则,在一定范围内做探测尝试,一般不需要获取网页,只做header探测是否存在就够了,然后再使用跟随就能获得了子目录下的站点
怎样不开放呢?我有空间的控制面板,在哪个里面设置?
robots.txt
User-agent: *
Disallow: /tner/
禁止搜索引擎访问。
tner下建立一个空的index.html,防止用户在键入http://www.XXX.com/tner 时,打印出tner下所有的文件列表。
我刚才搜了一下,是需要在根目录,也就是http://www.XXX.com/下面建立一个robots.txt文件是吗?可是我又怕建立这个文件,别人如果下载了这个文件,不是反而泄密了这个子目录了吗?
我既不希望无关的人查到我的这个子目录(尽管他可能会猜到有这个一样子目录存在),同时也不希望搜索引擎把我的子目录的内容收录.应该怎么办呢?
robots.txt 放根目录下。 /var/www/html/robots.txt
别人可以打开你的 http://www.yourdomain.com/robots.txt 查看到你的设置Disallow: /tner/
所以你要在/tner/目录下放一个空白的index.html文件(0字节),这样即使有人键入http://www.yourdomain.com/tner,显示为空白页,不会打印出/tner/下的文件列表。
我也正为这个烦,看了楼上的方法不错