Amalan perangkak PHP: ekstrak data yang diperlukan daripada hasil carian Baidu-tutorial php-php.cn

Dengan perkembangan pesat Internet, era ledakan maklumat telah tiba. Dalam era seperti ini, enjin carian telah menjadi alat utama kami untuk mendapatkan maklumat, dan sejumlah besar data yang disediakan oleh enjin carian ini adalah di luar imaginasi kami. Walau bagaimanapun, bagi penyelidik atau penganalisis data dalam beberapa bidang tertentu, maklumat yang mereka perlukan mungkin hanya sebahagian kecil daripada data dalam hasil carian ini. Dalam kes ini, kita perlu menggunakan perangkak untuk mendapatkan data yang kita inginkan dengan tepat.

Dalam artikel ini, kami akan menggunakan PHP untuk menulis program perangkak mudah untuk mengekstrak data yang kami perlukan daripada hasil carian Baidu. Teras program ini adalah menggunakan perpustakaan cURL PHP untuk mensimulasikan permintaan HTTP, dan kemudian menggunakan ungkapan biasa dan kaedah lain untuk menghuraikan halaman HTML.

Idea

Sebelum kami mula menulis program perangkak, kami perlu menjelaskan beberapa soalan:

Matlamat: Kami mahu merangkak dari halaman hasil carian Baidu Data apa?
URL: URL manakah yang kami perlukan untuk mendapatkan data?
Format data: Apakah format data pada halaman hasil carian Baidu?

Apabila mempertimbangkan data yang perlu kita perolehi, mari kita ambil kata kunci "perakak PHP" sebagai contoh. Jika kita mencari kata kunci ini di Baidu, kita boleh melihat maklumat berikut:

Jumlah bilangan hasil carian
Tajuk setiap hasil carian
Setiap Penerangan bagi setiap hasil carian
URL bagi setiap hasil carian

Kemudian, kami boleh menentukan matlamat kami sebagai mengekstrak tajuk setiap hasil carian daripada hasil carian Baidu, Penerangan dan URL.

Langkah pertama untuk mendapatkan data adalah untuk menjelaskan URL yang ingin kami perolehi. Dalam kes kami, URL yang perlu kami dapatkan ialah ini:https://www.baidu.com/s?wd=php%20爬虫. Dengan menaip "crawler php" ke dalam bar carian Baidu, kami boleh melompat ke URL ini secara automatik.

Seterusnya, kita perlu memahami format data yang akan kita huraikan. Dalam kes kami, hasil carian wujud dalam bentuk kod HTML seperti berikut:

   www.example.com  PHP 爬虫是什么? - PHP 入门教程 - 极客学院 
  2天前 -  PHP 爬虫是一种方便快捷的数据采集方式 ... 目前的爬虫主要是通过python 爬虫实现。相比于 PHP，PHP 一般用作...

Salin selepas log masuk

Dalam coretan kod HTML di atas, anda boleh melihat bahawa setiap hasil carian bersarang dalam teg

. Setiap hasil carian mempunyai tajuk, yang sepadan dengan format HTML

, dengan alamat pautan bersarang dalam teg. Setiap hasil carian mempunyai penerangan, sepadan dengan format HTML

. Setiap hasil carian juga mempunyai URL yang mengandungidi dalam tegclass="c-showurl".

Sekarang kami telah menjelaskan format data yang ingin kami peroleh dan format data HTML yang perlu kami huraikan, kami boleh mula menulis program perangkak kami.

Menulis kod

Kami membahagikan kod perangkak PHP kami kepada tiga langkah:

Dapatkan halaman HTML hasil carian Baidu
Menghuraikan halaman HTML
Kembalikan data yang dihuraikan dalam bentuk tatasusunan

Dapatkan halaman HTML hasil carian Baidu

Kami boleh menggunakan perpustakaan cURL PHP untuk menghantar permintaan HTTP, Untuk mendapatkan halaman HTML hasil carian Baidu. Dalam contoh ini, kami menyimpan URL halaman carian dalam pembolehubah$url. Kemudian buat pemegang untuk cURL dan tetapkan banyak pilihan, seperti: tetapkan URL, tetapkan pengepala permintaan, tetapkan proksi, tetapkan tamat masa, tetapkan kaedah permintaan kepada GET, dan akhirnya laksanakan pemegang ini untuk mendapatkan halaman HTML.


        
         Salin selepas log masuk

Dalam contoh ini kami menggunakan banyak pilihan yang disediakan oleh perpustakaan cURL. Contohnya, tetapkan pengepala permintaan untuk mensimulasikan permintaan HTTP yang dihantar oleh penyemak imbas, tetapkan kaedah permintaan kepada GET, tetapkan tamat masa, dsb.

Menghuraikan halaman HTML

Selepas mendapat halaman HTML hasil carian Baidu, kami perlu menghuraikannya untuk mendapatkan maklumat yang kami perlukan. Dalam contoh ini, kami akan menggunakan ungkapan biasa PHP untuk menghuraikan halaman HTML.

Berikut ialah ungkapan biasa yang kami gunakan untuk mengekstrak tajuk, penerangan dan pautan daripada halaman HTML:

.*?.*?s*(.*?)s*.*?

.*?(.*?)

.*?

Kesimpulan

Dalam artikel ini, kami menulis program perangkak mudah menggunakan PHP untuk mengekstrak data yang diperlukan daripada hasil carian Baidu. Program ini menggunakan perpustakaan cURL PHP untuk mensimulasikan permintaan HTTP dan menggunakan kaedah seperti ungkapan biasa untuk menghuraikan halaman HTML. Melalui contoh ini, kita boleh memperoleh pemahaman yang mendalam tentang cara perangkak berfungsi dan cara menulis perangkak menggunakan PHP. Dalam projek sebenar, kami boleh mengubah suai program ini mengikut keperluan kami untuk mendapatkan data yang kami perlukan.

Atas ialah kandungan terperinci Amalan perangkak PHP: ekstrak data yang diperlukan daripada hasil carian Baidu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!