php クローラー フレームワークには、1. phpspider、クローラー開発フレームワーク、2. Beanbun、PHP で書かれたマルチプロセス Web クローラー フレームワーク、3. PHPCrawl、PHP オープン ソース Web 検索スパイダー ライブラリがあります。
PHP メインストリーム クローラー フレームワーク
phpspider
アドレス: https://github.com/owner888/phpspider
phpspider はクローラー開発フレームワークです。このフレームワークを使用すると、クローラーの基盤となるテクノロジーの実装を理解する必要がなく、クローラーは Web サイトによってブロックされ、一部の Web サイトではクロールするためにログインまたは検証コードの認識が必要になります。フレームワークによってカプセル化されたマルチプロセス Worker クラス ライブラリを使用すると、わずか数行の PHP コードで独自のクローラーを作成でき、コードはよりシンプルになり、実行効率がより高く、より高速になります。
Beanbun
アドレス: http://www.beanbun.org/#/
Beanbun は、以下で書かれたマルチプロセス Web クローラー フレームワークです。 PHP 、優れたオープン性と高いスケーラビリティを備えています。
デーモン モードと通常モードの両方をサポートします (デーモン モードは Linux サーバーのみをサポートします)
デフォルトでクロールに Guzzle を使用します
分散をサポートします
複数のキュー メソッドをサポートしますメモリや Redis など
カスタム URI フィルタリングをサポート
幅優先および深さ優先のクロール方法をサポート
PSR-4 標準に準拠
クロールWeb ページは複数のステップに分割されており、各ステップはカスタム アクション (エージェントの追加、ユーザー エージェントの変更など) をサポートしています。
柔軟な拡張メカニズムにより、フレームワーク用のプラグインを簡単に作成できます: キューの定義、クロール方法をカスタマイズします...
PHPCrawl
アドレス: http://phpcrawl.cuab.de/
PHPCrawl は PHP オープン ソースですWeb 検索スパイダー (クローラー) ライブラリ。 PHPCrawl は、「Spider」Web サイトをクロールし、Web ページ、リンク、ファイルなどに関するすべての情報を提供します。
PHPCrawl は、URL、コンテンツ タイプ、フィルター、Cookie 処理などのクローラーの動作を選択的に指定できます。
関連知識の詳細については、PHP 中国語 Web サイト をご覧ください。 !