用PHP和Selenium搭建高效率的網路爬蟲-php教程-PHP中文網

用PHP和Selenium搭建高效率的網路爬蟲

王林

發布： 2023-06-15 12:32:02

原創

951 人瀏覽過

隨著資訊時代的到來，網站被認為是獲取資訊的主要途徑之一。但是，手動獲取網站上的資訊是非常繁瑣的，因此出現了自動抓取網頁的方式——網路爬蟲。這篇文章將介紹如何使用PHP和Selenium來建立一個高效率的網路爬蟲來自動收集資訊。

首先，你需要安裝PHP和Selenium。 Selenium是一個Web自動化測試工具，它模擬使用者在Web頁面上的操作。 Selenium可以與多種語言進行交互，其中包括PHP。安裝方法可以參考官方文件。

下一步是在PHP中整合Selenium。首先，安裝PHP的Selenium庫。可以透過Composer來安裝它：

composer require facebook/webdriver

登入後複製

安裝完畢後，你需要定義你的Web驅動程式。這裡使用的是Chrome瀏覽器，當然Selenium支援多種瀏覽器。可以將下面的程式碼儲存為一個單獨的檔案：

use FacebookWebDriverRemoteDesiredCapabilities;
use FacebookWebDriverRemoteRemoteWebDriver;

require_once('vendor/autoload.php');

$host = 'http://localhost:4444/wd/hub';

$capabilities = DesiredCapabilities::chrome();
$capabilities->setCapability('goog:chromeOptions', ['args' => ['--headless']]);

$driver = RemoteWebDriver::create($host, $capabilities);

登入後複製

程式碼解析：

#引入必要的類別和檔案
定義了驅動程式的位址和chrome瀏覽器的選項
透過RemoteWebDriver類別創建到驅動程式的連接

一旦連接到了驅動程序，你可以開始模擬用戶的操作。例如，造訪一個網站：

$driver->get('http://news.baidu.com');

登入後複製

這將開啟百度新聞並取得所有的新聞連結：

$news_links = $driver->findElements(WebDriverBy::cssSelector('.c-title a'));
$links = [];
foreach ($news_links as $news_link) {
    $links[] = $news_link->getAttribute('href');
}

登入後複製

程式碼解析：

使用WebDriverBy: :cssSelector透過CSS選擇器方式獲取所有的新聞鏈接
遍歷每個鏈接，獲取每個鏈接的URL

現在你獲得了所有的新聞鏈接，你可以遍歷它們依序爬取每個連結的內容：

foreach ($links as $link) {
    $driver->get($link);
    $news_title = $driver->findElement(WebDriverBy::cssSelector('.article-title'))->getText();
    $news_content = $driver->findElement(WebDriverBy::cssSelector('.article-content'))->getText();
    // 保存新闻标题和内容至数据库
}

登入後複製

程式碼解析：