PHP および phpSpider クイック スタート ガイド: 独自のクローラー ツールを構築します。
インターネットの発展に伴い、データ取得の重要性がますます高まっています。 Web クローラーは、Web ページのデータを自動的に抽出するツールとして、検索エンジンやデータ分析などの分野で広く使用されています。この記事では、PHP プログラミング言語と phpSpider ライブラリを使用して、すぐに始めて独自のクローラー ツールを作成する方法を紹介します。
1. PHP と phpSpider をインストールする
まず、PHP 言語と phpSpider ライブラリをインストールする必要があります。公式 Web サイトから PHP の最新バージョンをダウンロードし、オペレーティング システムに応じてインストールできます。インストールが完了したら、「php -v」コマンドを実行して、インストールが成功したかどうかを確認できます。
次に、phpSpider ライブラリをインストールする必要があります。ターミナルまたはコマンド ライン ウィンドウを開き、次のコマンドを入力して phpSpider をインストールします:
composer require xxtime/phpspider
インストールが完了したら、クローラー コードの作成を開始できます。
2. クローラー コードを記述する
まず、「spider.php」という名前の PHP ファイルを作成する必要があります。このファイルには、特定のクローラー コードを記述します。
<?php require 'vendor/autoload.php'; // 引入phpSpider库 use phpspidercoreequests; use phpspidercoreselector; // 设置抓取的URL地址 $url = "http://www.example.com/"; // 发起请求 $html = requests::get($url); // 使用CSS选择器提取页面数据 $title = selector::select($html, 'title')->text(); // 输出结果 echo $title;
上記のコードは、単純なクローラーの例です。まず、phpSpider ライブラリを導入し、「requests::get()」メソッドを使用して URL リクエストを開始し、返された HTML ページを変数 $html に保存します。次に、CSS セレクターを使用してページのタイトル情報を抽出し、結果を画面に出力します。
3. クローラー コードを実行します
ターミナルまたはコマンド ライン ウィンドウで、spider.php ファイルが存在するディレクトリを入力し、次のコマンドを入力してクローラー コードを実行します。 #
php spider.php
<?php require 'vendor/autoload.php'; use phpspidercoreequests; use phpspidercoreselector; $config = [ // 设置抓取的URL地址 'url' => "http://www.example.com/", // 设置User-Agent 'user_agent' => "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3", // 设置Referer 'referer' => "http://www.example.com/", // 设置抓取深度 'depth' => 3, ]; requests::set_config($config); // 发起请求 $html = requests::get($config['url']); // 使用CSS选择器提取页面数据 $title = selector::select($html, 'title')->text(); // 输出结果 echo $title;
以上がPHP および phpSpider クイック スタート ガイド: 独自のクローラー ツールを構築してください!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。