ホームページ >バックエンド開発 >Python チュートリアル >Python のクローラー フレームワークとは何ですか?

Python のクローラー フレームワークとは何ですか?

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼オリジナル
2019-06-12 15:38:358391ブラウズ

Python のクローラー フレームワークとは何ですか?

Python のクローラー フレームワークとは何ですか?一般的に使用される Python クローラーのトップ 10 フレームワークを紹介します:

1. Scrapy

Scrapy フレームワークは比較的成熟したセットです。クローラー フレームワークは、Python を使用して開発された高速で高レベルの情報クロール フレームワークであり、Web ページを効率的にクロールし、構造化データを抽出できます。

Scrapy には、クローラ開発、データマイニング、データ監視、自動テストなどを含む幅広いアプリケーションがあります。

2. PySpider

は、中国人によって Python で書かれた強力な Web クローラー フレームワークです。主な機能は次のとおりです:

1. 強力な WebUI (スクリプト エディター、タスク モニター、プロジェクト マネージャー、結果ビューアーを含む);
2. マルチデータベース サポート (MySQL、MongoDB など) 、Redis、SQLite、Elasticsearch; PostgreSQL with SQLAlchemy など;
3. RabbitMQ、Beanstalk、Redis、Kombu をメッセージ キューとして使用する;
4. タスクの優先順位設定、スケジュールされたタスク、失敗後の再試行などをサポートします。 ;
5. 分散クローラーのサポート

3. Crawley

対応する Web サイトのコンテンツの高速クロール、リレーショナルおよび非リレーショナル データベースのサポート、データは JSON、XML などとしてエクスポートできます。

関連する推奨事項:「Python ビデオ チュートリアル

4. Portia

ビジュアル クロール Web コンテンツの取得

5.newspaper

ニュース、記事、コンテンツ分析の抽出
6.python- goose

java
で書かれた記事抽出ツール 7. Beautiful Soup

は有名で、いくつかの一般的なクローラー要件を統合しています。欠点: JS を読み込むことができません。

Beautiful Soup は、HTML または XML ファイルからデータを抽出できる Python ライブラリです。お気に入りのコンバータを通じて、ドキュメントのナビゲーション、検索、および変更の通常の方法を実装できます。Beautiful Soup はお金の節約に役立ちます数時間、場合によっては数日間の作業。私はこれを非常に頻繁に使用します。 html 要素の取得はすべて bs4 によって行われます。

8. mechanize

利点: JS を読み込むことができます。短所: ドキュメントが大幅に不足しています。しかし、公式の例や人体で試した方法では、まだかろうじて使用可能です。
9. Selenium

これはブラウザを呼び出すドライバであり、このライブラリを通じてブラウザを直接呼び出して、確認コードの入力などの特定の操作を完了できます。
10. cola

分散型クローラー フレームワーク。プロジェクトの全体的な設計は少し悪く、モジュール間の結合が高くなっています。

以上がPython のクローラー フレームワークとは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。