PHP にはどのようなクローラーフレームワークがありますか?-PHPチュートリアル-php.cn

PHP にはどのようなクローラーフレームワークがありますか?

PHPz

リリース： 2020-09-04 16:42:06

オリジナル

5997 人が閲覧しました

php クローラーフレームワークには、1. phpspider、クローラー開発フレームワーク、2. Beanbun、PHP で書かれたマルチプロセス Web クローラーフレームワーク、3. PHPCrawl、PHP オープンソース Web 検索スパイダーライブラリがあります。

PHP にはどのようなクローラーフレームワークがありますか?

PHP メインストリームクローラーフレームワーク

phpspider

アドレス: https://github.com/owner888/phpspider

phpspider はクローラー開発フレームワークです。このフレームワークを使用すると、クローラーの基盤となるテクノロジーの実装を理解する必要がなく、クローラーは Web サイトによってブロックされ、一部の Web サイトではクロールするためにログインまたは検証コードの認識が必要になります。フレームワークによってカプセル化されたマルチプロセス Worker クラスライブラリを使用すると、わずか数行の PHP コードで独自のクローラーを作成でき、コードはよりシンプルになり、実行効率がより高く、より高速になります。

Beanbun

アドレス: http://www.beanbun.org/#/

Beanbun は、以下で書かれたマルチプロセス Web クローラーフレームワークです。 PHP 、優れたオープン性と高いスケーラビリティを備えています。

デーモンモードと通常モードの両方をサポートします (デーモンモードは Linux サーバーのみをサポートします)

デフォルトでクロールに Guzzle を使用します

分散をサポートします

複数のキューメソッドをサポートしますメモリや Redis など

カスタム URI フィルタリングをサポート

幅優先および深さ優先のクロール方法をサポート

PSR-4 標準に準拠

クロールWeb ページは複数のステップに分割されており、各ステップはカスタムアクション (エージェントの追加、ユーザーエージェントの変更など) をサポートしています。

柔軟な拡張メカニズムにより、フレームワーク用のプラグインを簡単に作成できます: キューの定義、クロール方法をカスタマイズします...