contoh operasi skrip PHP Linux: Melaksanakan perangkak web
Perangkak web ialah program yang menyemak imbas halaman web secara automatik di Internet, mengumpul dan mengekstrak maklumat yang diperlukan. Perangkak web ialah alat yang sangat berguna untuk aplikasi seperti analisis data tapak web, pengoptimuman enjin carian atau analisis persaingan pasaran. Dalam artikel ini, kami akan menggunakan skrip PHP dan Linux untuk menulis perangkak web mudah dan memberikan contoh kod khusus.
Pertama, kami perlu memastikan pelayan kami telah memasang PHP dan perpustakaan permintaan rangkaian yang berkaitan: cURL.
Anda boleh memasang cURL menggunakan arahan berikut:
sudo apt-get install php-curl
Kami akan menggunakan PHP untuk menulis fungsi mudah untuk mendapatkan kandungan halaman web URL yang ditentukan. Kod khusus adalah seperti berikut:
function getHtmlContent($url) { $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); $html = curl_exec($ch); curl_close($ch); return $html; }
Fungsi ini menggunakan perpustakaan cURL untuk menghantar permintaan HTTP dan mengembalikan kandungan halaman web yang diperolehi.
Kini, kita boleh menggunakan fungsi di atas untuk merangkak data halaman web yang ditentukan. Berikut ialah contoh:
$url = 'https://example.com'; // 指定要抓取的网页URL $html = getHtmlContent($url); // 获取网页内容 // 在获取到的网页内容中查找所需的信息 preg_match('/<h1>(.*?)</h1>/s', $html, $matches); if (isset($matches[1])) { $title = $matches[1]; // 提取标题 echo "标题:".$title; } else { echo "未找到标题"; }
Dalam contoh di atas, kami mula-mula mendapatkan kandungan halaman web yang ditentukan melalui fungsi getHtmlContent
, dan kemudian menggunakan ungkapan biasa untuk mengekstrak tajuk daripada kandungan halaman web.
Selain merangkak data dari satu halaman web, kami juga boleh menulis perangkak untuk merangkak data daripada berbilang halaman web. Berikut ialah contoh:
$urls = ['https://example.com/page1', 'https://example.com/page2', 'https://example.com/page3']; foreach ($urls as $url) { $html = getHtmlContent($url); // 获取网页内容 // 在获取到的网页内容中查找所需的信息 preg_match('/<h1>(.*?)</h1>/s', $html, $matches); if (isset($matches[1])) { $title = $matches[1]; // 提取标题 echo "标题:".$title; } else { echo "未找到标题"; } }
Dalam contoh ini, kami menggunakan gelung untuk merentasi berbilang URL, menggunakan logik pengikisan yang sama untuk setiap URL.
Dengan menggunakan skrip PHP dan Linux, kami boleh menulis perangkak web yang ringkas namun berkesan. Perangkak ini boleh digunakan untuk mendapatkan data di Internet dan memainkan peranan dalam pelbagai aplikasi. Sama ada analisis data, pengoptimuman enjin carian atau analisis persaingan pasaran, perangkak web memberikan kami alat yang berkuasa.
Dalam aplikasi praktikal, perangkak web perlu memberi perhatian kepada perkara berikut:
Saya harap melalui pengenalan dan contoh artikel ini, anda boleh memahami dan belajar menggunakan skrip PHP dan Linux untuk menulis perangkak web yang mudah. Saya doakan anda selamat menggunakannya!
Atas ialah kandungan terperinci Contoh operasi skrip PHP Linux: melaksanakan perangkak web. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!