网页爬虫 - python爬虫速率的疑问,小白求解
高洛峰
高洛峰 2017-04-18 09:50:25
0
1
655

优化网络:

1.我理解 爬虫主要的问题在于网络阻塞,所以使用多线程弥补HTTP异步等待。
那么使用了gevent解决网络问阻塞题,就不需要使用多线程吗?

优化CPU:

2.python多线程运行时,使用的是单核心,还是多核心?在多核心机器上运行如果是单核心,能否同时使用多线程多进程

3.在4核心8线程的电脑上,开启单个进程32线程python运行,这些线程是怎么分配的?

4.当网络阻塞不是瓶颈,如何才能最大化使用单台电脑CPU?应该使用多线程还是多进程增大爬取速率?

5.使用消息队列分布式爬虫,等待的消息过多会不会存在内存或CPU问题?

6.使用消息队列是如何增大爬取速率的?

高洛峰
高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...

membalas semua(1)
小葫芦

Jika anda ingin menggunakan sepenuhnya CPU, gunakan pelbagai proses
Bagi benang, saya jarang menggunakannya
untuk bekerjasama dengan coroutine, iaitu kaedah multi-proses + coroutine yang saya ingat bahawa ia sangat pantas. Kemudian gunakan pypy atau python berprestasi tinggi lain
berbilang proses, berbilang benang dan coroutine Semua ini boleh digunakan bersama.

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan