python3.x - Python网络爬虫学习建议,初学者需要哪些准备?
PHPz
PHPz 2017-04-18 10:31:48
0
3
922

此前一直是做PHP开发的,现在想学习下爬虫开发,很疑惑呀不知道从何做起,请大家指教下学习线路,我是属于想要深入研究型的。网上看到很多示例感觉就像做采集,Url扩散爬去和分析部分的资料很少...求推荐学习线路、数据、视频等各种,能介绍下避坑攻略就更好啦。

PHPz
PHPz

学习是最好的投资!

모든 응답(3)
洪涛

웹 개발을 해보니 크롤러를 만드는 것은 매우 간단하다고 생각합니다. http 프로토콜만 확인하면 괜찮을 것 같습니다

몇 가지만 알려주세요

  • 크롤링 속도(제어 및 속도 절충)

    • 멀티스레딩

    • 여러 프로세스

      • 메시지 대기열

  • 웹페이지 분석

    • 인터페이스 검색-> F12.Network를 활용하세요

    • xpath, re 및 기타 구문 분석 라이브러리

    • 구조화된 데이터

  • 지속성->데이터베이스 연결 풀->특정 번호에 대한 데이터베이스 연결 활성화

  • 크롤러 방지

    • IP 차단->프록시 풀->프록시를 더욱 합리적으로 사용하는 방법

    • 인증코드->OCR

迷茫

먼저 PHP를 사용하여 크롤러를 구현하고 원리를 이해할 수 있습니다. 컬도 할 수 있어요. 언어는 도구일 뿐이에요

Peter_Zhu

"Python Web Crawler"라는 책을 읽어보세요.

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿