クローラーはネットワーク ロボットとして知られていますが、FOAF コミュニティでは Web ページ チェイサーとしてよく知られています。特定のルールに従って World Wide Web 情報を自動的にクロールするプログラムまたはスクリプトです。主に検索エンジンで使用されます。 Web サイトのすべてのコンテンツとリンクを読み取り、関連する全文インデックスをデータベースに構築して、別の Web サイトにジャンプします。従来のクローラーは、1 つまたは複数の最初の Web ページの URL から開始し、最初の Web ページ上の URL を取得し、システムの特定の停止条件が満たされるまで、現在のページから新しい URL を継続的に抽出してキューに入れます。
勉強前の準備
1. 学ぶことへの愛情
2. 折れない心キーボード (どのシステムでも構いません。私は os x を使用しているため、例はこれに基づいています)
3. HTML に関連する予備知識。熟練する必要はありません。少し理解するだけで十分です。 Python の基本的な構文の知識。
具体的な学習ルートは、通常、次の 3 つの主要な側面に分かれています:
1. 単純な指示されたスクリプト クローラー (リクエスト -- - bs4 --- re)
2. 大規模フレームワーク クローラー (主に Scrapy フレームワーク)
3. ブラウザ シミュレーション クローラー (Mechanize シミュレーションと Selenium シミュレーション)
具体的な手順:
1. Beautiful Soup のインストールと使用
リクエスト ライブラリ、美しいスープ クローラー環境のインストール、美しいスープ パーサー、ライブラリの通常のルールの使用表現、BS4 クローラーの練習。 Baidu Tieba bs4 クローラー練習の内容を取得、Shuangseqiu 勝利情報を取得 bs4 クローラー練習、原点小説情報を取得 bs4 クローラー練習、映画情報を取得 bs4 クローラー練習。 Yueyin チャンネル リストを取得する
2、Scrapy クローラー フレームワーク
Scrapy、セレクター Xpath と CSSS をインストールするScrapy でのクローラーの練習、今日の映画とテレビ Scrapy クローラーの練習、天気予報 Scrapy クローラーの練習、エージェントの取得ひどいクローラーの練習、恥ずかしい大百科 ひどいクローラーの練習、クローラー関連の攻防 (エージェント プール関連)
3. ブラウザ シミュレーション クローラー
Mechanize モジュールのインストールと使用法、Mechanize を使用して音楽を取得する駅アナウンス、Selenium モジュールのインストールと使用、ブラウザの選択 PhantomJS、Selenium と PhantomJS の練習、エージェントの取得、Selenium と PhantomJS の練習、コミック クローラー。
以上がPython クローラーについて学ぶべきことの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。