84669 orang belajar
152542 orang belajar
20005 orang belajar
5487 orang belajar
7821 orang belajar
359900 orang belajar
3350 orang belajar
180660 orang belajar
48569 orang belajar
18603 orang belajar
40936 orang belajar
1549 orang belajar
1183 orang belajar
32909 orang belajar
通过python已经把ip地址提取出来去重了,有没有办法把这些提取出来的ip进行分类,如分为【百度】、【谷歌】、【搜狗】、【360】、【其他】这几类呢?大致知道这几个搜索引擎的ip地址群
如何实现分类呢
光阴似箭催人老,日月如移越少年。
Berikut dipetik daripada penerangan pautan
百度蜘蛛IP地址 123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。 220.181.68.*每天这个IP段只增不减很有可能进沙盒或K站。 220.181.7.*、123.125.66.*代表百度蜘蛛IP造访,准备抓取你东西。 121.14.89.*这个ip段作为度过新站考察期。 203.208.60.*这个ip段出现在新站及站点有不正常现象后。 210.72.225.*这个ip段不间断巡逻各站。 125.90.88.*广东茂名市电信也属于百度蜘蛛IP主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。 220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照。(悲剧的我竟然屏蔽了这个IP) 220.181.108.92同上98%抓取首页,可能还会抓取其他(不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。(嗯,还有这个也屏蔽了,晕死了!) 123.125.71.106抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。(这个也有,汗!) 220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP段,爬过的文章或首页基本24小时放出来。 220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP段,爬过的文章或首页基本24小时放出来。(这个,……!) 220.181.108.86专用抓取首页IP权重段,一般返回代码是30400代表未更新。(还有这个……) 123.125.71.95抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。 123.125.71.97抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。 220.181.108.89专用抓取首页IP权重段,一般返回代码是30400代表未更新。(好吧,220开头的好像都被我屏蔽了,下手真心有点儿太狠了!) 220.181.108.94专用抓取首页IP权重段,一般返回代码是30400代表未更新。 220.181.108.97专用抓取首页IP权重段,一般返回代码是30400代表未更新。 220.181.108.80专用抓取首页IP权重段,一般返回代码是30400代表未更新。 220.181.108.77专用抓首页IP权重段,一般返回代码是30400代表未更新。 123.125.71.117抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或是采集文章。 注:以上IP尾数还有很多,但段位一样的123.125.71.*段IP代表抓取内页收录的权重比较低,可能由于你采集文章或拼文章暂时被收录但不放出来.。 220.181.108.83专用抓取首页IP权重段,一般返回代码是30400代表未更新。 220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的! 一般成功抓取返回代码都200,返回304代表网站没更新。 Google蜘蛛IP地址 216.239.33.* 216.239.35.* 216.239.37.* 216.239.39.* 216.239.51.* 216.239.53.* 216.239.55.* 216.239.57.* 216.239.59.* 64.233.161.* 64.233.189.* 66.102.11.* 66.102.7.* 66.102.9.* 66.249.64.* 66.249.65.* 66.249.66.* 66.249.71.* 66.249.72.* 72.14.207.* 谷歌蜘蛛IP段解析 202.101.43.*、222.73.247.*、66.249.65.*这三个ip段是最为常规出现的 66.249.16.*出现的站点均为新站或站点出现无法访问情况后再次出现的ip段 210.72.225.*这个ip段不间断巡逻各站 203.208.60.*这个ip段出现在新站及站点有不正常现象后 360蜘蛛IP段 101.226.166.*(101.226.166.195~101.226.166.254,共60个) 101.226.167.*(101.226.167.195~101.226.167.254,共60个) 101.226.168.*(101.226.168.195~101.226.168.254,共60个) 101.226.169.*(101.226.169.195~101.226.169.230,共36个) 180.153.236.*(180.153.236.11~26;180.153.236.35~180.153.236.74;180.153.236.101~180.153.236.196,共152个) 182.118.20.*(182.118.20.201~182.118.20.254,共39个) 182.118.21.*(182.118.21.201~182.118.21.*254,共54个) 182.118.22.*(182.118.22.141~182.118.22.149;182.118.22.211~182.118.22.250,共64个) 182.118.25.*(182.118.25.131~182.118.25.245;) 182.118.28.* 61.55.185.* 101.199.*.* 220.181.126.* 182.118.26.110~182.118.26.239(时效性UAIP段,主要针对网站内容更新的爬取) 360蜘蛛IP段解析 220.181.126.*、101.199.*.*据说为360举报IP。也就是说,假如你的网站日志出现这个IP段,你的网站被举报了。如果是违法站,那就自求多福吧。 搜狗蜘蛛IP段 123.126.113.79-123.126.113.191 220.181.89.190 220.181.89.189 218.30.103.155 61.135.189.75 220.181.94.228 61.135.189.74 220.181.89.157 220.181.89.165 220.181.89.183 220.181.89.194 218.30.103.80 神马蜘蛛IP段 42.156.136.*-42.156.139.* 42.120.160.*42.120.161.* 其他蜘蛛IP段 163搜索引擎蜘蛛IP地址大全 202.106.186.* 202.108.36.* 202.108.44.* 202.108.45.* 202.108.5.* 202.108.9.* 220.181.12.* 220.181.13.* 220.181.14.* 220.181.15.* 220.181.28.* 220.181.31.* 222.185.245.* iask搜索引擎蜘蛛IP地址大全 61.135.152.* msn搜索引擎蜘蛛IP地址大全 65.54.188.* 65.54.225.* 65.54.226.* 65.54.228.* 65.54.229.* 207.46.98.* 207.68.157.* 搜搜蜘蛛IP地址 219.133.40.* 202.96.170.* 202.104.129.* 61.135.157.* 新浪搜索引擎蜘蛛IP地址 219.142.118.* 219.142.78.* 搜狐搜索引擎蜘蛛IP地址 61.135.132.* 220.181.26.* 220.181.19.* Yahoo搜索引擎蜘蛛IP地址 66.196.90.* 66.196.91.* 68.142.249.* 68.142.250.* 68.142.251.* 72.30.101.* 72.30.102.* 72.30.103.* 72.30.104.* 72.30.107.* 72.30.110.* 72.30.111.* 72.30.128.* 72.30.129.* 72.30.131.* 72.30.133.* 72.30.134.* 72.30.135.* 72.30.216.* 72.30.226.* 72.30.252.* 72.30.97.* 72.30.98.* 72.30.99.* 74.6.74.* Yahoo中国搜索引擎蜘蛛IP地址 202.165.102.* 202.160.178.* 202.160.179.* 202.160.180.* 202.160.181.* 202.160.183.* 中搜蜘搜索引擎蜘蛛IP地址 202.108.4.* 202.108.4.* 202.108.33.* 202.96.51.* 219.142.53.*
Bina semula tatasusunan menggunakan IP sebagai kunci. Tidak mengapa
Berikut dipetik daripada penerangan pautan
Bina semula tatasusunan menggunakan IP sebagai kunci. Tidak mengapa