84669 orang belajar
152542 orang belajar
20005 orang belajar
5487 orang belajar
7821 orang belajar
359900 orang belajar
3350 orang belajar
180660 orang belajar
48569 orang belajar
18603 orang belajar
40936 orang belajar
1549 orang belajar
1183 orang belajar
32909 orang belajar
此前一直是做PHP开发的,现在想学习下爬虫开发,很疑惑呀不知道从何做起,请大家指教下学习线路,我是属于想要深入研究型的。网上看到很多示例感觉就像做采集,Url扩散爬去和分析部分的资料很少...求推荐学习线路、数据、视频等各种,能介绍下避坑攻略就更好啦。
学习是最好的投资!
做过web开发的我觉得做爬虫很简单,明确这个是http协议就ok了
随便说几点吧
爬取速度(控制与速度权衡)
多线程
多进程
消息队列
网页解析
接口发现->善用F12.Network
xpath、re等解析库
结构化数据
持久化->数据库连接池->使数据库连接在一定数量
反爬虫
禁IP->代理池->如何更合理的使用代理
验证码->OCR
可以先用 PHP 实现爬虫,理解原理。curl 也能做啊,语言只是工具
看一本叫做《python网络爬虫》的书。
做过web开发的我觉得做爬虫很简单,明确这个是http协议就ok了
随便说几点吧
爬取速度(控制与速度权衡)
多线程
多进程
消息队列
网页解析
接口发现->善用F12.Network
xpath、re等解析库
结构化数据
持久化->数据库连接池->使数据库连接在一定数量
反爬虫
禁IP->代理池->如何更合理的使用代理
验证码->OCR
可以先用 PHP 实现爬虫,理解原理。curl 也能做啊,语言只是工具
看一本叫做《python网络爬虫》的书。