Amalan Pengaturcaraan Skrip PHP Linux: Melaksanakan Web Crawler-tutorial php-php.cn

Amalan Pengaturcaraan Skrip PHP Linux: Melaksanakan Web Crawler

WBOY

Lepaskan： 2023-10-05 13:50:01

asal

1235 orang telah melayarinya

PHP Linux脚本编程实战：实现Web爬虫

Amalan pengaturcaraan skrip Linux PHP: Untuk melaksanakan perangkak web, contoh kod khusus diperlukan

Pengenalan:
Dengan perkembangan Internet, terdapat banyak maklumat di Internet. Untuk mendapatkan dan menggunakan maklumat ini dengan mudah, perangkak web telah wujud. Artikel ini akan memperkenalkan cara menggunakan PHP untuk menulis skrip dalam persekitaran Linux untuk melaksanakan perangkak web mudah dan melampirkan contoh kod tertentu.

1. Apakah itu perangkak web?
Perangkak web ialah program yang melawati halaman web secara automatik dan mengekstrak maklumat. Perangkak mendapatkan kod sumber halaman web melalui protokol HTTP dan menghuraikannya mengikut peraturan yang telah ditetapkan untuk mendapatkan maklumat yang diperlukan. Ia membantu kami mengumpul dan memproses sejumlah besar data dengan cepat dan cekap.

2. Persediaan
Sebelum mula menulis perangkak web, kita perlu memasang PHP dan sambungan yang berkaitan. Di bawah Linux, anda boleh menggunakan arahan berikut untuk memasang:

sudo apt update
sudo apt install php php-curl

Salin selepas log masuk

Selepas pemasangan selesai, kami juga memerlukan tapak web sasaran sebagai contoh. Mari kita ambil halaman "Sains Komputer" di Wikipedia sebagai contoh.

3. Proses pembangunan

Buat fail PHP bernama crawler.php, kodnya adalah seperti berikut:

<?php
// 定义目标URL
$url = "https://en.wikipedia.org/wiki/Computer_science";

// 创建cURL资源
$ch = curl_init();

// 设置cURL参数
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

// 获取网页源代码
$html = curl_exec($ch);

// 关闭cURL资源
curl_close($ch);

// 解析网页源代码
$dom = new DOMDocument();
@$dom->loadHTML($html);

// 获取所有标题
$headings = $dom->getElementsByTagName("h2");
foreach ($headings as $heading) {
    echo $heading->nodeValue . "
";
}
?>

Salin selepas log masuk

Selepas menyimpan fail, gunakan arahan berikut untuk menjalankan:

php crawler.php

Salin selepas log masuk

sebagai berikut

Contents
History[edit]
Terminology[edit]
Areas of computer science[edit]
Subfields[edit]
Relation to other fields[edit]
See also[edit]
Notes[edit]
References[edit]
External links[edit]

Salin selepas log masuk

Artikel ini memperkenalkan cara menggunakan PHP untuk menulis skrip dalam persekitaran Linux untuk melaksanakan perangkak web yang mudah. Kami menggunakan perpustakaan cURL untuk mendapatkan kod sumber halaman web dan menggunakan kelas DOMDocument untuk menghuraikan kandungan halaman web. Melalui contoh kod khusus, saya harap pembaca dapat memahami dan menguasai cara menulis program perangkak web.

Atas ialah kandungan terperinci Amalan Pengaturcaraan Skrip PHP Linux: Melaksanakan Web Crawler. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!