Dengan perkembangan pesat Internet, era ledakan maklumat telah tiba. Dalam era seperti ini, enjin carian telah menjadi alat utama kami untuk mendapatkan maklumat, dan sejumlah besar data yang disediakan oleh enjin carian ini adalah di luar imaginasi kami. Walau bagaimanapun, bagi penyelidik atau penganalisis data dalam beberapa bidang tertentu, maklumat yang mereka perlukan mungkin hanya sebahagian kecil daripada data dalam hasil carian ini. Dalam kes ini, kita perlu menggunakan perangkak untuk mendapatkan data yang kita inginkan dengan tepat.
Dalam artikel ini, kami akan menggunakan PHP untuk menulis program perangkak mudah untuk mengekstrak data yang kami perlukan daripada hasil carian Baidu. Teras program ini adalah menggunakan perpustakaan cURL PHP untuk mensimulasikan permintaan HTTP, dan kemudian menggunakan ungkapan biasa dan kaedah lain untuk menghuraikan halaman HTML.
Sebelum kami mula menulis program perangkak, kami perlu menjelaskan beberapa soalan:
Apabila mempertimbangkan data yang perlu kita perolehi, mari kita ambil kata kunci "perakak PHP" sebagai contoh. Jika kita mencari kata kunci ini di Baidu, kita boleh melihat maklumat berikut:
Kemudian, kami boleh menentukan matlamat kami sebagai mengekstrak tajuk setiap hasil carian daripada hasil carian Baidu, Penerangan dan URL.
Langkah pertama untuk mendapatkan data adalah untuk menjelaskan URL yang ingin kami perolehi. Dalam kes kami, URL yang perlu kami dapatkan ialah ini:https://www.baidu.com/s?wd=php%20爬虫
. Dengan menaip "crawler php" ke dalam bar carian Baidu, kami boleh melompat ke URL ini secara automatik.
Seterusnya, kita perlu memahami format data yang akan kita huraikan. Dalam kes kami, hasil carian wujud dalam bentuk kod HTML seperti berikut:
www.example.com PHP 爬虫是什么? - PHP 入门教程 - 极客学院
Dalam coretan kod HTML di atas, anda boleh melihat bahawa setiap hasil carian bersarang dalam teg Sekarang kami telah menjelaskan format data yang ingin kami peroleh dan format data HTML yang perlu kami huraikan, kami boleh mula menulis program perangkak kami. Kami membahagikan kod perangkak PHP kami kepada tiga langkah: Kami boleh menggunakan perpustakaan cURL PHP untuk menghantar permintaan HTTP, Untuk mendapatkan halaman HTML hasil carian Baidu. Dalam contoh ini, kami menyimpan URL halaman carian dalam pembolehubah Dalam contoh ini kami menggunakan banyak pilihan yang disediakan oleh perpustakaan cURL. Contohnya, tetapkan pengepala permintaan untuk mensimulasikan permintaan HTTP yang dihantar oleh penyemak imbas, tetapkan kaedah permintaan kepada GET, tetapkan tamat masa, dsb. Selepas mendapat halaman HTML hasil carian Baidu, kami perlu menghuraikannya untuk mendapatkan maklumat yang kami perlukan. Dalam contoh ini, kami akan menggunakan ungkapan biasa PHP untuk menghuraikan halaman HTML. Berikut ialah ungkapan biasa yang kami gunakan untuk mengekstrak tajuk, penerangan dan pautan daripada halaman HTML: Dalam kod di atas, kami menggunakan ungkapan biasa PHP untuk memadankan semua hasil carian. Kami kemudian menggunakan gelung untuk menyemak semua hasil carian dan mengekstrak tajuk, penerangan dan pautan yang kami perlukan. Memandangkan tajuk dan penerangan yang kami dapat daripada HTML akan mengandungi teg HTML, kami menggunakan fungsi Dalam kod di atas, kami telah memperoleh data yang kami perlukan, dan kini kami hanya perlu mengembalikan hasilnya dalam bentuk tatasusunan. Kami merangkum keseluruhan program perangkak kami ke dalam fungsi dan mengembalikan data yang diperoleh dalam bentuk tatasusunan:, dengan alamat pautan bersarang dalam teg
. Setiap hasil carian mempunyai penerangan, sepadan dengan format HTML
di dalam teg
class="c-showurl"
.
Menulis kod
Dapatkan halaman HTML hasil carian Baidu
$url
. Kemudian buat pemegang untuk cURL dan tetapkan banyak pilihan, seperti: tetapkan URL, tetapkan pengepala permintaan, tetapkan proksi, tetapkan tamat masa, tetapkan kaedah permintaan kepada GET, dan akhirnya laksanakan pemegang ini untuk mendapatkan halaman HTML.
Menghuraikan halaman HTML
.*?
strip_tags
untuk mengalih keluarnya.Kembalikan hasilnya
.*?
Kami boleh menerima kata kunci sebagai parameter, dan kemudian memanggil fungsi ini untuk mendapatkan kata kunci dalam Tajuk, penerangan dan pautan dalam hasil carian Baidu.
Dalam artikel ini, kami menulis program perangkak mudah menggunakan PHP untuk mengekstrak data yang diperlukan daripada hasil carian Baidu. Program ini menggunakan perpustakaan cURL PHP untuk mensimulasikan permintaan HTTP dan menggunakan kaedah seperti ungkapan biasa untuk menghuraikan halaman HTML. Melalui contoh ini, kita boleh memperoleh pemahaman yang mendalam tentang cara perangkak berfungsi dan cara menulis perangkak menggunakan PHP. Dalam projek sebenar, kami boleh mengubah suai program ini mengikut keperluan kami untuk mendapatkan data yang kami perlukan.
Atas ialah kandungan terperinci Amalan perangkak PHP: ekstrak data yang diperlukan daripada hasil carian Baidu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!