python3.x - Python网络爬虫学习建议,初学者需要哪些准备?
PHPz
PHPz 2017-04-18 10:31:48
0
3
923

此前一直是做PHP开发的,现在想学习下爬虫开发,很疑惑呀不知道从何做起,请大家指教下学习线路,我是属于想要深入研究型的。网上看到很多示例感觉就像做采集,Url扩散爬去和分析部分的资料很少...求推荐学习线路、数据、视频等各种,能介绍下避坑攻略就更好啦。

PHPz
PHPz

学习是最好的投资!

全員に返信(3)
洪涛

Web 開発を行ったことがあるので、クローラーの作成は非常に簡単だと思います。これが http プロトコルであることを確認するだけで問題ありません。

いくつかポイントを教えてください

  • クロール速度 (コントロールと速度のトレードオフ)

    • マルチスレッド

    • 複数のプロセス

      • メッセージキュー

  • Webページ分析

    • インターフェースの発見 -> F12.Networkを活用しましょう

    • xpath、re、およびその他の解析ライブラリ

    • 構造化データ

  • 永続性 -> データベース接続プール -> 特定の数へのデータベース接続を有効にする

  • アンチクローラー

    • IP の禁止 -> プロキシ プール -> プロキシをより合理的に使用する方法

    • 認証コード -> OCR

いいねを押す +0
迷茫

まず PHP を使用してクローラーを実装し、原理を理解します。 Curlでもできます、言語は単なるツールです

いいねを押す +0
Peter_Zhu

「Python Web Crawler」という本を読んでください。

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート