84669 person learning
152542 person learning
20005 person learning
5487 person learning
7821 person learning
359900 person learning
3350 person learning
180660 person learning
48569 person learning
18603 person learning
40936 person learning
1549 person learning
1183 person learning
32909 person learning
我想用python对全网的网站进行扫描记录,想用mysql建个表记录每个网站的信息,数据量大后怎么能快速的判断这个网站已经记录过呢?基本表结构有:id,url,name,datetime等相关字段,url想有唯一性,是拿到url查询一下判断没有数据再插入还是怎么办?如果做了唯一性索引直接插入时会报错,谢谢,或是有没有别的有效的解决办法?
业精于勤,荒于嬉;行成于思,毁于随。
分布式kv数据库 对url分组
推荐使用Bloom Filter存储已经抓取到的url. Bloom Filter实际上是由一组哈希函数和一个字节列表组成. 详细介绍可以参考百度百科和这篇博文.
如果使用Python可直接安装Pybloom包, 这里已经实现了Bloom Filter.
对url进行hash,就是微博短域名一样,然后用kv,mysql都行
分布式kv数据库
对url分组
推荐使用Bloom Filter存储已经抓取到的url.
Bloom Filter实际上是由一组哈希函数和一个字节列表组成. 详细介绍可以参考百度百科和这篇博文.
如果使用Python可直接安装Pybloom包, 这里已经实现了Bloom Filter.
对url进行hash,就是微博短域名一样,然后用kv,mysql都行