Python クローラーについて学ぶべきこと-Python チュートリアル-php.cn

Python クローラーについて学ぶべきこと

silencement

リリース： 2020-09-15 15:56:05

オリジナル

6520 人が閲覧しました

クローラーはネットワークロボットとして知られていますが、FOAF コミュニティでは Web ページチェイサーとしてよく知られています。特定のルールに従って World Wide Web 情報を自動的にクロールするプログラムまたはスクリプトです。主に検索エンジンで使用されます。 Web サイトのすべてのコンテンツとリンクを読み取り、関連する全文インデックスをデータベースに構築して、別の Web サイトにジャンプします。従来のクローラーは、1 つまたは複数の最初の Web ページの URL から開始し、最初の Web ページ上の URL を取得し、システムの特定の停止条件が満たされるまで、現在のページから新しい URL を継続的に抽出してキューに入れます。

Python クローラーについて学ぶべきこと

勉強前の準備

1. 学ぶことへの愛情

2. 折れない心キーボード (どのシステムでも構いません。私は os x を使用しているため、例はこれに基づいています)

3. HTML に関連する予備知識。熟練する必要はありません。少し理解するだけで十分です。 Python の基本的な構文の知識。

具体的な学習ルートは、通常、次の 3 つの主要な側面に分かれています:
1. 単純な指示されたスクリプトクローラー (リクエスト -- - bs4 --- re)

2. 大規模フレームワーククローラー (主に Scrapy フレームワーク)

3. ブラウザシミュレーションクローラー (Mechanize シミュレーションと Selenium シミュレーション)

具体的な手順:

1. Beautiful Soup のインストールと使用
リクエストライブラリ、美しいスープクローラー環境のインストール、美しいスープパーサー、ライブラリの通常のルールの使用表現、BS4 クローラーの練習。 Baidu Tieba bs4 クローラー練習の内容を取得、Shuangseqiu 勝利情報を取得 bs4 クローラー練習、原点小説情報を取得 bs4 クローラー練習、映画情報を取得 bs4 クローラー練習。 Yueyin チャンネルリストを取得する

2、Scrapy クローラーフレームワーク

Scrapy、セレクター Xpath と CSSS をインストールするScrapy でのクローラーの練習、今日の映画とテレビ Scrapy クローラーの練習、天気予報 Scrapy クローラーの練習、エージェントの取得ひどいクローラーの練習、恥ずかしい大百科ひどいクローラーの練習、クローラー関連の攻防 (エージェントプール関連)

3. ブラウザシミュレーションクローラー

Mechanize モジュールのインストールと使用法、Mechanize を使用して音楽を取得する駅アナウンス、Selenium モジュールのインストールと使用、ブラウザの選択 PhantomJS、Selenium と PhantomJS の練習、エージェントの取得、Selenium と PhantomJS の練習、コミッククローラー。

以上がPython クローラーについて学ぶべきことの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。