PHP と phpSpider を使用して電子商取引 Web サイトからレビュー データを取得するにはどうすればよいですか?
電子商取引の継続的な発展に伴い、製品の評価やレビューに対するユーザーの需要も高まっています。 ECサイトにおいては、ユーザーのレビューデータを取得することは非常に重要であり、企業が商品のメリット・デメリットを理解するだけでなく、他のユーザーの購買判断の精度を高める参考にもなります。
この記事では、PHP とオープンソースのクローラー フレームワークである phpSpider を使用して、EC サイトのレビュー データを取得する方法を紹介します。 phpSpider は、PHP をベースとした高性能の非同期 Web クローラー フレームワークであり、豊富な機能と柔軟な構成オプションを提供し、データを簡単にキャプチャして処理できるようにします。
まず、phpSpider をインストールし、新しいプロジェクトを作成する必要があります。次のコマンドを使用して phpSpider をインストールできます:
composer require phpspider/phpspider
インストールが完了したら、コードの記述を開始できます。
まず、commentSpider.php などの新しい php ファイルを作成する必要があります。このファイルでは、phpSpider のオートローダーと基本クラス ライブラリを導入する必要があります。
<?php require __DIR__ . '/vendor/autoload.php'; use phpspidercorephpspider; use phpspidercoreequests;
次に、クロールする Web ページのアドレスやデータ形式など、クローラーの基本情報を構成する必要があります。クロールされること。この例では、製品レビュー データを取得する例として、淘宝網の電子商取引 Web サイトを取り上げます。ここでは例として 10 ページのデータのみをクロールします。
$config = array( 'name' => 'commentSpider', 'tasknum' => 1, 'log_file' => 'log.txt', 'domains' => array( 'item.taobao.com' ), 'scan_urls' => array( 'http://item.taobao.com/item.htm?id=1234567890' // 这里替换成你要抓取的商品详情页链接 ), 'list_url_regexes' => array( "http://item.taobao.com/item.htm?id=d+" ), 'content_url_regexes' => array( "http://item.taobao.com/item.htm?id=d+" ), 'max_try' => 5, 'export' => array( 'type' => 'csv', 'file' => 'data.csv', ), );
上記のコードでは、クローラーの名前を commentSpider として指定し、同時に実行する 1 つのクロール タスクを設定し、パスを指定しました。ログ ファイルの名前は log.txt で、クロールされる Web サイトのメイン ドメイン名は item.taabao.com に設定されます。 scan_urls はクロールされる開始リンク、つまり製品詳細ページのリンクを指定し、list_url_regexes と content_url_regexes はリスト ページとコンテンツ ページの一致ルールを指定します。
次に、ページを処理するコールバック関数を記述する必要があります。この例では、ページからコメント データを取得して CSV ファイルに保存するだけで済みます。
function handlePage($html) { $data = array(); $commentList = $html->find('.comment-item'); foreach ($commentList as $item) { $comment = $item->find('.content', 0)->innertext; $data[] = array( 'comment' => $comment, ); } return $data; }
上記のコードでは、phpSpider が提供する find メソッドを使用して、指定されたコメントを検索します。 page.要素、ここではクラス名 .comment-item の要素を取得し、そこからコメントのコンテンツを抽出します。
最後に、phpSpider をインスタンス化し、クローラーを開始する必要があります。
$spider = new phpspider($config); $spider->on_extract_page = 'handlePage'; $spider->start();
上記のコードでは、ページを処理するためのコールバック関数を handlePage として指定し、start メソッドを呼び出して開始します。クローラー。
上記のコードを commentSpider.php ファイルに保存し、コマンド ラインで次のコマンドを実行してデータのクロールを開始します:
php commentSpider.php
クローラーは自動的にデータのクロールを開始します。 data.csv ファイルに保存されます。
上記の手順により、PHP と phpSpider を使用して、電子商取引 Web サイトのレビュー データを取得できます。もちろん、実際のクローリング プロセス中には、クローラの IP のブロックやページ リクエストのタイムアウトなど、いくつかの問題が発生する可能性があります。しかし、phpSpider の構成を変更し、開発をカスタマイズすることで、これらの問題を解決し、データ クローリングの安定性と効率を向上させることができます。
つまり、PHP と phpSpider を使用すると、EC サイトのレビュー データを簡単に取得し、商品分析やユーザー エクスペリエンスの向上に使用できます。この記事がお役に立てば幸いです。
以上がPHP と phpSpider を使用して電子商取引 Web サイトからレビュー データを取得するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。