python 多线程爬虫中遇到的坑

鸟救山
Libérer: 2020-05-20 11:57:18
original
101 Les gens l'ont consulté

python多线程爬虫的方式包括函数式和类对象方式。一、函数式start_new_thread(func,args[])。代码示例如下:

微信图片_20200520105853.jpg

图1:函数式多线程

二、调用Thread类的类对象方式代码示例如下:

2.jpg

图2:类对象方式多线程代码结构及流程:

引入threading模块

定义子类myThread继承threading.Thread类。

重定义父类Thread的run()方法,在其中执行功能代码

实例化线程对象

开始执行线程start()

加入线程队列,直至执行完成,join()。

遇到的问题:

在定义子类时候对类的定义及类内引用方法print_time()出现错误,具体代码和错误如图2和图3所示。

3.jpg

图2:错误代码

4.jpg

图3:错误提示

2.在具体的爬取http://www.78b2b.com/lianghuizhuanti/324826_1.html网页信息的应用过程遇到的问题。具体代码如图4所示:

5.jpg

6.png

图4:具体应用代码

代码意图是利用多线程爬取13个网页中的2020年辽宁政府工作报告,并保存在本地TXT文件中,执行过程中的现象,网页被全部打开,但是TXT存储数据不全并有内容的重复写入。

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
1
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!