PHP と phpSpider を使用して Web コンテンツを定期的に自動的にクロールするにはどうすればよいですか?-PHPチュートリアル-php.cn

PHP と phpSpider を使用して Web コンテンツを定期的に自動的にクロールするにはどうすればよいですか?

PHPz

リリース： 2023-07-22 06:14:01

オリジナル

1390 人が閲覧しました

PHP と phpSpider を使用して Web コンテンツを定期的に自動的にクロールするにはどうすればよいですか?

インターネットの発展に伴い、Web コンテンツのクローリングと処理がますます重要になってきました。多くの場合、その後の分析と処理のために、指定された Web ページのコンテンツを定期的に自動的にクロールする必要があります。この記事では、PHP と phpSpider を使用して Web ページのコンテンツを定期的に自動的にクロールする方法とコード例を紹介します。

phpSpider とは何ですか?
phpSpider は、PHP に基づいた軽量のクローラーフレームワークで、Web コンテンツを迅速にクロールするのに役立ちます。 phpSpider を使用すると、Web ページの HTML ソースコードをクロールできるだけでなく、データを解析してそれに応じて処理することもできます。
phpSpiderのインストール
まず、phpSpiderをPHP環境にインストールする必要があります。ターミナルで次のコマンドを実行してインストールします。

composer require phpspider/phpspider

ログイン後にコピー

単純なスケジュールされたタスクを作成する
次に、指定された時間を自動的にキャプチャする単純なスケジュールされたタスクを作成します。ウェブページ。

まず、spider.phpというファイルを作成し、その中にphpSpiderの自動読み込みファイルを導入します。

<?php
require_once 'vendor/autoload.php';

ログイン後にコピー

次に、phpSpiderSpider から継承したクラスを定義します。これは、スケジュールされたタスクを実装します。

class MySpider extends phpSpiderSpider
{
    // 定义需要抓取的网址
    public $start_url = 'https://example.com';
    
    // 在抓取网页之前执行的代码
    public function beforeDownloadPage($page)
    {
        // 在这里可以进行一些预处理的操作，例如设置请求头信息等
        return $page;
    }
    
    // 在抓取网页成功之后执行的代码
    public function handlePage($page)
    {
        // 在这里可以对抓取到的网页内容进行处理，例如提取数据等
        $html = $page['raw'];
        // 处理抓取到的网页内容
        // ...
    }
}

// 创建一个爬虫对象
$spider = new MySpider();

// 启动爬虫
$spider->start();

ログイン後にコピー

上記のコードを解析するための詳細な手順は次のとおりです。

まず、phpSpiderSpider## を継承するクラス MySpider を作成します。＃。このクラスでは、クロールする必要がある URL $start_url を定義します。
beforeDownloadPage メソッドでは、リクエストヘッダー情報の設定など、いくつかの前処理操作を実行できます。このメソッドによって返された結果は、Web ページのコンテンツとして handlePage メソッドに渡されます。
handlePage メソッドでは、データの抽出など、キャプチャされた Web ページのコンテンツを処理できます。

スケジュールされた時刻に Web ページのコンテンツを自動的にクロールする機能を実現するには、Linux システムでスケジュールされたタスクツール crontab を使用して、スケジュールされたタスクを設定します。タスク。ターミナルを開き、
crontab -e コマンドを入力して、スケジュールされたタスクエディターを開きます。

次のコードをエディターに追加します。

* * * * * php /path/to/spider.php > /dev/null 2>&1

ログイン後にコピー

このうち、

/path/to/spider.php はフルパスに置き換える必要があります。 Spider.php があります。

上記のコードは、spider.php スクリプトが 1 分ごとに実行され、出力が /dev/null にリダイレクトされることを意味します。これは、出力が保存されないことを意味します。

保存してエディターを終了すると、スケジュールされたタスクが設定されます。

これで、スケジュールされたタスクを実行して、Web コンテンツを自動的にクロールできるようになります。ターミナルで次のコマンドを実行して、スケジュールされたタスクを開始します。

crontab spider.cron

ログイン後にコピー

以上がPHP と phpSpider を使用して Web コンテンツを定期的に自動的にクロールするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。