python - 大数据怎么样判断数据唯一性效率高？-PHP中文网问答

文章专题学习下载问答编程词典手游最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

python - 大数据怎么样判断数据唯一性效率高？

迷茫 2017-04-17 13:14:35

0

3

411

我想用python对全网的网站进行扫描记录，想用mysql建个表记录每个网站的信息，数据量大后怎么能快速的判断这个网站已经记录过呢？基本表结构有：id,url,name,datetime等相关字段，url想有唯一性，是拿到url查询一下判断没有数据再插入还是怎么办？如果做了唯一性索引直接插入时会报错，谢谢，或是有没有别的有效的解决办法？

迷茫

业精于勤，荒于嬉;行成于思，毁于随。

全部回复 (3)

大家讲道理2017-04-17 13:16:35 3 楼

分布式kv数据库
对url分组

点赞+0

添加回复

左手右手慢动作2017-04-17 13:16:35 2 楼

推荐使用Bloom Filter存储已经抓取到的url.
Bloom Filter实际上是由一组哈希函数和一个字节列表组成. 详细介绍可以参考百度百科和这篇博文.

如果使用Python可直接安装Pybloom包, 这里已经实现了Bloom Filter.

点赞+0

添加回复

小葫芦2017-04-17 13:16:35 1 楼

对url进行hash，就是微博短域名一样，然后用kv，mysql都行

点赞+0

添加回复

热门专题

更多>

热门文章

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1394890
php入门教程之一周学会PHP

4206580
JAVA 初级入门视频教程

2350722

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责声明 Sitemap: PHP中文网：公益在线PHP培训，帮助PHP学习者快速成长！