PHP Linux腳本操作實例：實作網路爬蟲-php教程-PHP中文網

PHP Linux腳本操作實例：實作網路爬蟲

PHPz

發布： 2023-10-05 08:50:02

原創

1362 人瀏覽過

PHP Linux脚本操作实例：实现网络爬虫

PHP Linux腳本操作實例：實作網路爬蟲

網路爬蟲是一種程序，它會自動瀏覽網路上的網頁，收集並提取所需的資訊。對於網站數據分析、搜尋引擎優化或市場競爭分析等應用程式來說，網路爬蟲是非常有用的工具。在本文中，我們將使用PHP和Linux腳本來編寫一個簡單的網路爬蟲，並提供具體的程式碼範例。

準備工作

首先，我們要確保我們的伺服器已經安裝了PHP和相關的網路請求庫：cURL。
可以使用以下指令安裝cURL：

sudo apt-get install php-curl

登入後複製

#編寫爬蟲功能

我們將使用PHP編寫一個簡單的函數，用於取得指定URL的網頁內容。具體程式碼如下：

function getHtmlContent($url)
{
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    $html = curl_exec($ch);
    curl_close($ch);
    
    return $html;
}

登入後複製

這個函數使用cURL函式庫傳送HTTP請求，並傳回取得到的網頁內容。

抓取資料

現在，我們可以使用上述函數來抓取指定網頁的資料。以下是一個範例：

$url = 'https://example.com';  // 指定要抓取的网页URL

$html = getHtmlContent($url);  // 获取网页内容

// 在获取到的网页内容中查找所需的信息
preg_match('/<h1>(.*?)</h1>/s', $html, $matches);

if (isset($matches[1])) {
    $title = $matches[1];  // 提取标题
    echo "标题：".$title;
} else {
    echo "未找到标题";
}

登入後複製

在上述範例中，我們首先透過getHtmlContent函數取得指定網頁的內容，然後使用正規表示式從網頁內容中擷取標題。

多頁抓取

除了抓取單一網頁的數據，我們還可以編寫爬蟲以抓取多個網頁的數據。以下是一個範例：

$urls = ['https://example.com/page1', 'https://example.com/page2', 'https://example.com/page3'];

foreach ($urls as $url) {
    $html = getHtmlContent($url);  // 获取网页内容

    // 在获取到的网页内容中查找所需的信息
    preg_match('/<h1>(.*?)</h1>/s', $html, $matches);

    if (isset($matches[1])) {
        $title = $matches[1];  // 提取标题
        echo "标题：".$title;
    } else {
        echo "未找到标题";
    }
}

登入後複製

在這個範例中，我們使用循環遍歷多個URL，對每個URL使用相同的抓取邏輯。