84669 person learning
152542 person learning
20005 person learning
5487 person learning
7821 person learning
359900 person learning
3350 person learning
180660 person learning
48569 person learning
18603 person learning
40936 person learning
1549 person learning
1183 person learning
32909 person learning
我现在需要对一个网站的文章列表和列表里面的实际内容进行自动化数据采集,列表里面能够取得每个文章的id,而每个文章又是通过一个统一的接口(参数带上那个文章id即可获取到对应的json)里面又有一部分数据需要采集然后进行数据分析。
目前有什么比较成熟的框架或者轮子能够实现我的需求吗?(要多线程,而且可以7x24小时稳定运行,因为采集数量巨大)
另外问一下,采集到的内容如何存储(百万到千万),数据里面有一些数字数据,需要进行统计分析,用mysql可以吗?或者说还有其他更加成熟简便的轮子可以用吗?
光阴似箭催人老,日月如移越少年。
python语言的这个scrapy这个还是
你没说什么语言什么环境。多线程的话,目前一般用nodejs、python。这两个都可以使用mysql之类的存储数据。几百万上千万不成问题。
如果是数据分析。map-reduce 做日志分析Dpark 可以解决PV和UV的分析Spark也是不错的哦。生产数据报表后可以用Pandas进行分析和展示。。
如果是数据采集。工具就很多了。
我怎么觉得你是要搞搜索引擎呀。。。量比较大。建议分布式的东西。用MYSQL不太现实。。。
少年, 你这不就是个爬虫的需求么?
爬虫框架: scrapy
数据库选取: 你这个量级用MySQL做好索引完全可以再战五百年
也可以尝试用MongoDB
python语言的这个scrapy这个还是
你没说什么语言什么环境。多线程的话,目前一般用nodejs、python。这两个都可以使用mysql之类的存储数据。几百万上千万不成问题。
如果是数据分析。
map-reduce 做日志分析
Dpark 可以解决PV和UV的分析
Spark也是不错的哦。
生产数据报表后可以用Pandas进行分析和展示。。
如果是数据采集。工具就很多了。
我怎么觉得你是要搞搜索引擎呀。。。量比较大。建议分布式的东西。用MYSQL不太现实。。。
少年, 你这不就是个爬虫的需求么?
爬虫框架: scrapy
数据库选取: 你这个量级用MySQL做好索引完全可以再战五百年
也可以尝试用MongoDB