PHP和Selenium：如何在不同的网页抓取数据？

PHPz原创: 2023-06-16 10:02:02399浏览

随着互联网的发展，web爬虫无疑成为了获取信息的一种重要手段。当我们面对多个不同的网站，需要采集其中某些信息的时候，我们不得不将精力集中在研究各个网站的页面结构上。那么有没有一种通用的方法，可以在不同的网站上抓取数据呢？答案是肯定的，本篇文章将介绍如何使用PHP和Selenium在不同的网页上进行数据抓取。

Selenium是什么？

Selenium可以说是Web自动化测试界的标准之一，它可以模拟用户在浏览器中的操作，包括输入、点击、下拉框选择、上传文件等。我们可以利用Selenium实现网页的自动化测试，但是在这里，我们会使用Selenium来进行数据的抓取。

为什么使用Selenium？

在进行数据抓取的时候，我们经常会遇到一些可以通过简单的curl或file_get_contents请求就可以访问的页面。但是随着Web技术的发展，很多网站已经采用了Ajax、Vue、React等前端框架，页面的数据是通过JavaScript异步获取的。对于这种情况，我们就需要模拟浏览器的操作，才能获得页面完整的渲染结果。此外，某些网站为了防止爬虫，会使用验证码等手段进行验证，这时候我们也需要使用Selenium来模拟人工操作，才能继续进行数据的抓取。

使用PHP和Selenium抓取数据的基本流程

第一步，安装Selenium

Selenium的安装十分简单，只需要在终端中使用Composer执行以下命令即可：

composer require php-webdriver/webdriver

安装完成后，我们需要下载对应浏览器的驱动，以Chrome为例，你需要下载 chromedriver, 将下载好的驱动放到 PATH 变量指向的位置。

第二步，启动Selenium

启动Selenium很简单，只需要在终端中输入以下命令即可：

java -jar path/to/selenium-server-standalone-3.141.59.jar

其中，path/to/为Selenium的安装路径。

第三步，使用Selenium实现数据抓取

有了Selenium和浏览器驱动，我们就可以直接使用PHP来调用Selenium的API实现网站自动化测试和数据抓取了。下面我们以爬取豆瓣电影中的TOP250电影信息为例进行介绍：

打开浏览器并输入URL

use FacebookWebDriverRemoteDesiredCapabilities;
use FacebookWebDriverRemoteRemoteWebDriver;

$host = 'http://localhost:4444/wd/hub'; // Selenium本地服务地址
$capabilities = DesiredCapabilities::chrome();
$webDriver = RemoteWebDriver::create($host, $capabilities);

$url = 'https://movie.douban.com/top250';
$webDriver->get($url);

do {
    // 获取电影列表并输出
    $list = $webDriver->findElements(WebDriverBy::cssSelector('.grid_view .item'));
    foreach ($list as $item) {
        $name = $item->findElement(WebDriverBy::cssSelector('.title'))->getText();
        $directors = $item->findElement(WebDriverBy::cssSelector('.bd p:first-child'))->getText();
        $rate = $item->findElement(WebDriverBy::cssSelector('.rating_num'))->getText();
        echo "$name $directors $rate
";
    }

    // 点击下一页
    $nextPageBtn = $webDriver->findElement(WebDriverBy::cssSelector('.paginator .next a'));
    $nextPageBtnClassName = $nextPageBtn->getAttribute('class');
    if (strpos($nextPageBtnClassName, 'disabled') === false) {
        $nextPageBtn->click();
    } else {
        break;
    }

    // 等待新页面加载完成
    $webDriver->wait()->until(WebDriverExpectedCondition::urlContains(intval($page + 1)));
} while (true);