PHP Linux 스크립트 작업 예: 웹 크롤러 구현-PHP 튜토리얼-php.cn

PHP Linux 스크립트 작업 예: 웹 크롤러 구현

PHPz

풀어 주다： 2023-10-05 08:50:02

원래의

1362명이 탐색했습니다.

PHP Linux脚本操作实例：实现网络爬虫

PHP Linux 스크립트 연산 예: 웹 크롤러 구현

웹 크롤러는 인터넷상의 웹 페이지를 자동으로 탐색하여 필요한 정보를 수집하고 추출하는 프로그램입니다. 웹 크롤러는 웹사이트 데이터 분석, 검색 엔진 최적화 또는 시장 경쟁 분석과 같은 응용 프로그램에 매우 유용한 도구입니다. 이 기사에서는 PHP 및 Linux 스크립트를 사용하여 간단한 웹 크롤러를 작성하고 특정 코드 예제를 제공합니다.

준비

먼저 서버에 PHP와 관련 네트워크 요청 라이브러리인 cURL이 설치되어 있는지 확인해야 합니다.
다음 명령을 사용하여 cURL을 설치할 수 있습니다.

sudo apt-get install php-curl

로그인 후 복사

크롤러 함수 작성

PHP를 사용하여 지정된 URL의 웹페이지 콘텐츠를 가져오는 간단한 함수를 작성하겠습니다. 구체적인 코드는 다음과 같습니다.

function getHtmlContent($url)
{
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    $html = curl_exec($ch);
    curl_close($ch);
    
    return $html;
}

로그인 후 복사

이 함수는 cURL 라이브러리를 사용하여 HTTP 요청을 보내고 얻은 웹페이지 콘텐츠를 반환합니다.

데이터 크롤링

이제 위 함수를 사용하여 지정된 웹페이지의 데이터를 크롤링할 수 있습니다. 다음은 예시입니다.

$url = 'https://example.com';  // 指定要抓取的网页URL

$html = getHtmlContent($url);  // 获取网页内容

// 在获取到的网页内容中查找所需的信息
preg_match('/<h1>(.*?)</h1>/s', $html, $matches);

if (isset($matches[1])) {
    $title = $matches[1];  // 提取标题
    echo "标题：".$title;
} else {
    echo "未找到标题";
}

로그인 후 복사

위 예시에서는 먼저 getHtmlContent 함수를 통해 지정된 웹페이지의 콘텐츠를 가져온 다음 정규식을 사용하여 웹페이지 콘텐츠에서 제목을 추출합니다.

다중 페이지 크롤링

단일 웹페이지에서 데이터를 크롤링하는 것 외에도 여러 웹페이지에서 데이터를 크롤링하는 크롤러를 작성할 수도 있습니다. 예는 다음과 같습니다.

$urls = ['https://example.com/page1', 'https://example.com/page2', 'https://example.com/page3'];

foreach ($urls as $url) {
    $html = getHtmlContent($url);  // 获取网页内容

    // 在获取到的网页内容中查找所需的信息
    preg_match('/<h1>(.*?)</h1>/s', $html, $matches);

    if (isset($matches[1])) {
        $title = $matches[1];  // 提取标题
        echo "标题：".$title;
    } else {
        echo "未找到标题";
    }
}

로그인 후 복사

이 예에서는 루프를 사용하여 각 URL에 대해 동일한 스크래핑 논리를 사용하여 여러 URL을 순회합니다.

결론

PHP와 Linux 스크립트를 사용하면 간단하면서도 효과적인 웹 크롤러를 쉽게 작성할 수 있습니다. 이 크롤러는 인터넷에서 데이터를 얻고 다양한 애플리케이션에서 역할을 수행하는 데 사용될 수 있습니다. 데이터 분석, 검색 엔진 최적화, 시장 경쟁 분석 등 웹 크롤러는 강력한 도구를 제공합니다.

실제 적용에서 웹 크롤러는 다음 사항에 주의해야 합니다.