celery+redis+requests写爬虫该怎么设计
巴扎黑
巴扎黑 2017-04-26 09:01:30
0
0
698

我想用celery+redis+requests写爬虫,自己测试了一下速度。采集url的状态码放入文件中。

from celery import Celery import requests app = Celery('tasks', broker = 'redis://localhost:6379/0', backend= 'redis://localhost:6379/1') app.conf.CELERY_TASK_SERIALIZER = 'json' @app.task def page(url): p = requests.get(url).status_code file = open('result','a') file.write(str(p)+'\n') file.close() return p

结果很快很满意

/usr/bin/python2.7 /home/comboo/PycharmProjects/run.py 0.919842004776 Process finished with exit code 0

和单线程比较

34.3654260635

但是假如我输出task的结果,就会变成单线程一个个取出结果

#coding:utf-8 import time from tasks import page url = 'http://www.baidu.com' # print page.delay(url).get() cent = time.time() for line in range(100): code = page.delay(url) print code.get() print time.time() - cent

就是任务之外只要有语句速度就会变慢。

现在造成的结果就是,我必须写一个完整的任务,从请求到解析到下载,再到存入数据库,通过celery来调度。
但是有时候我可能不想这样做,比如写入文件,我想一次性全部写入在关闭连接,而不是写入一行关闭一次连接

有点长,谢谢大家了。

巴扎黑
巴扎黑

reply all (0)
Latest Downloads
More>
Web Effects
Website Source Code
Website Materials
Front End Template
About us Disclaimer Sitemap
php.cn:Public welfare online PHP training,Help PHP learners grow quickly!