python3.x - Python网络爬虫学习建议,初学者需要哪些准备?
PHPz
PHPz 2017-04-18 10:31:48
0
3
826

此前一直是做PHP开发的,现在想学习下爬虫开发,很疑惑呀不知道从何做起,请大家指教下学习线路,我是属于想要深入研究型的。网上看到很多示例感觉就像做采集,Url扩散爬去和分析部分的资料很少...求推荐学习线路、数据、视频等各种,能介绍下避坑攻略就更好啦。

PHPz
PHPz

学习是最好的投资!

membalas semua (3)
洪涛

做过web开发的我觉得做爬虫很简单,明确这个是http协议就ok了

随便说几点吧

  • 爬取速度(控制与速度权衡)

    • 多线程

    • 多进程

      • 消息队列

  • 网页解析

    • 接口发现->善用F12.Network

    • xpath、re等解析库

    • 结构化数据

  • 持久化->数据库连接池->使数据库连接在一定数量

  • 反爬虫

    • 禁IP->代理池->如何更合理的使用代理

    • 验证码->OCR

    迷茫

    可以先用 PHP 实现爬虫,理解原理。curl 也能做啊,语言只是工具

      Peter_Zhu

      看一本叫做《python网络爬虫》的书。

        Muat turun terkini
        Lagi>
        kesan web
        Kod sumber laman web
        Bahan laman web
        Templat hujung hadapan
        Tentang kita Penafian Sitemap
        Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!