mysql统计500w+的日表数据的解决方案?

原创: 2016-08-18 09:15:56 1027浏览

请教：
现在有每天的日表数据（一天生成一张）， 每张表数据大概在500w左右。
需要从每天的日表数据中统计：根据appid统计ip数，同时ip需要去重。 
大概的sql是：

select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;

然后将统计的appid 和 ip数，放入到另一张统计表中。 

1、直接执行sql的话，肯定超时了（系统仅配置了400ms读取时间）。
2、如果将数据都取出到内存中再做操作，内存又不足了，给的内存只有50M。。。（不为难程序员的需求不是好公司）
 
请问，还有优化的解决方案吗？
谢谢

回复内容：

请教：
现在有每天的日表数据（一天生成一张）， 每张表数据大概在500w左右。
需要从每天的日表数据中统计：根据appid统计ip数，同时ip需要去重。 
大概的sql是：

select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;

然后将统计的appid 和 ip数，放入到另一张统计表中。 

1、直接执行sql的话，肯定超时了（系统仅配置了400ms读取时间）。
2、如果将数据都取出到内存中再做操作，内存又不足了，给的内存只有50M。。。（不为难程序员的需求不是好公司）
 
请问，还有优化的解决方案吗？
谢谢

先说下表上可能的优化：

做一个组合索引(appid, ip)
ip存整数，不要存字符串

如果依然超时，那么尝试把数据读到内存，但你的内存只有50M，那么可以尝试用HyperLogLog，消耗的内存是极小的，但统计出来的数据会略有偏差，2%左右

最后，这种日志数据最好不要放sql，可以选择一些nosql比如hbase, mongodb都能很好的完成你这个需求

@manong
谢谢，你说的这两种优化方案都不错。

我建了 typeid、appid、ip的联合索引，这样这条语句时走索引查询，没回表，时间控制在了1.5s以下，有效果。

至于HyperLogLog算法这种，我只是大概查了下，没有去实践用，不过也谢谢推荐哈。

我用的另外的方法处理：计划任务去分批处理这500w+的数据，两次取的数据去重后，做array_diff比较出第二次不同的数据，再sum下得出总的count数。这样时间也可以控制在1s以下。这里有个技巧是将第一次比较的array转换为string后存入array中，第二次比较时再string转array，会省很多内存，因为试了下，嵌套数组的话，要比长字符串value的数组耗内存。

php mysql PHP课程 HTML视频教程 CSS视频 JS视频教程 Vue视频教程

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn核实处理。

上一条：php yaf框架中路由器问题下一条：怎么获取smarty模板中 foreach的最后一次循环的值

查看更多

热门课程

Laravel 9 学习正当时—保姆级教程，想学不会都难！

￥229
￥279

已抢66285个
抢
前端基础到实战（HTML5+CSS3+ES6+NPM）

￥800
￥1200

已抢36074个
抢
PHP基础到实战（PHP+MySQL）

￥800
￥1200

已抢19990个
抢

打开APP，随时随地在线学习！

mysql统计500w+的日表数据的解决方案?

回复内容：

相关文章

￥229

￥800

￥800