84669 Lernen von Personen
152542 Lernen von Personen
20005 Lernen von Personen
5487 Lernen von Personen
7821 Lernen von Personen
359900 Lernen von Personen
3350 Lernen von Personen
180660 Lernen von Personen
48569 Lernen von Personen
18603 Lernen von Personen
40936 Lernen von Personen
1549 Lernen von Personen
1183 Lernen von Personen
32909 Lernen von Personen
微博和贴吧都是国内数一数二的PHP构建的高并发网站,请问他们的这个热门话题排行榜是如何得出的?我目前只想得到用中文分词库对全站内容分词和统计,但是这类高并发网站每天都是成千上亿的数据产出,用分词的话如何是如果解决效率问题的?或者他们还用了其他什么技术?
光阴似箭催人老,日月如移越少年。
这些热数据肯定不是靠php统计出来的,应该是php调了排行的接口只负责展示
我最近也在做类似的功能。思路是这样:
对最近的文本聚类,得到topic
考虑topic包含的文档数量和文档来源的权重
考虑topic的时间
最后得到话题排行榜
列表前的文本是手工加的,非机器自动生成。后面的数字猜测是在有带关键字微博发出时,向指定缓存字段+1。这些数据其实非常不准确,然而也并没有要准确的必要。
这些热数据肯定不是靠php统计出来的,应该是php调了排行的接口只负责展示
我最近也在做类似的功能。思路是这样:
对最近的文本聚类,得到topic
考虑topic包含的文档数量和文档来源的权重
考虑topic的时间
最后得到话题排行榜
列表前的文本是手工加的,非机器自动生成。后面的数字猜测是在有带关键字微博发出时,向指定缓存字段+1。这些数据其实非常不准确,然而也并没有要准确的必要。