python 爬虫解析效率如何提升?

Question

现在采用的是在windows 环境下 采用多线程的方式进行爬取,使用beautifulsoup+lxml进行解析. N个爬取线程-&gt;解析队列-&gt;1个解析线程-&gt;存储队列-&gt;1个存储线程 整个执行程序的效率卡在计算密集的解析线程...

为情所困 · Answer

其实我觉得, 你在前面N个爬取线程 可以换成协程/线程池实现, 因为你在频繁创建线程本省一种性能耗费, 用线程池虽然可以减少这部分的损耗, 但是上下文切换还是无法避免, 所以协程这方面, 应该是比较合适的.
1个解析线程 换成 进程池,多开几个进程去计算密集处理, 其余应该可以不用改, 如果还想再搞, 将核心部分用c/c++ 重写咯, 希望可以帮到你

怪我咯 · Answer

我的做法是多进程。多进程的好处是当单机性能不够的时候，可以随时切换为分布式爬虫。

淡淡烟草味 · Answer

可以网上找下tornade异步爬虫吧,我正在用这个