Amalan perangkak PHP: ekstrak data yang diperlukan daripada hasil carian Baidu

PHPz
Lepaskan: 2023-06-13 10:24:01
asal
1968 orang telah melayarinya

Dengan perkembangan pesat Internet, era ledakan maklumat telah tiba. Dalam era seperti ini, enjin carian telah menjadi alat utama kami untuk mendapatkan maklumat, dan sejumlah besar data yang disediakan oleh enjin carian ini adalah di luar imaginasi kami. Walau bagaimanapun, bagi penyelidik atau penganalisis data dalam beberapa bidang tertentu, maklumat yang mereka perlukan mungkin hanya sebahagian kecil daripada data dalam hasil carian ini. Dalam kes ini, kita perlu menggunakan perangkak untuk mendapatkan data yang kita inginkan dengan tepat.

Dalam artikel ini, kami akan menggunakan PHP untuk menulis program perangkak mudah untuk mengekstrak data yang kami perlukan daripada hasil carian Baidu. Teras program ini adalah menggunakan perpustakaan cURL PHP untuk mensimulasikan permintaan HTTP, dan kemudian menggunakan ungkapan biasa dan kaedah lain untuk menghuraikan halaman HTML.

Idea

Sebelum kami mula menulis program perangkak, kami perlu menjelaskan beberapa soalan:

  1. Matlamat: Kami mahu merangkak dari halaman hasil carian Baidu Data apa?
  2. URL: URL manakah yang kami perlukan untuk mendapatkan data?
  3. Format data: Apakah format data pada halaman hasil carian Baidu?

Apabila mempertimbangkan data yang perlu kita perolehi, mari kita ambil kata kunci "perakak PHP" sebagai contoh. Jika kita mencari kata kunci ini di Baidu, kita boleh melihat maklumat berikut:

  • Jumlah bilangan hasil carian
  • Tajuk setiap hasil carian
  • Setiap Penerangan bagi setiap hasil carian
  • URL bagi setiap hasil carian

Kemudian, kami boleh menentukan matlamat kami sebagai mengekstrak tajuk setiap hasil carian daripada hasil carian Baidu, Penerangan dan URL.

Langkah pertama untuk mendapatkan data adalah untuk menjelaskan URL yang ingin kami perolehi. Dalam kes kami, URL yang perlu kami dapatkan ialah ini:https://www.baidu.com/s?wd=php%20爬虫. Dengan menaip "crawler php" ke dalam bar carian Baidu, kami boleh melompat ke URL ini secara automatik.

Seterusnya, kita perlu memahami format data yang akan kita huraikan. Dalam kes kami, hasil carian wujud dalam bentuk kod HTML seperti berikut:

www.example.com PHP 爬虫是什么? - PHP 入门教程 - 极客学院

2天前 - PHP 爬虫是一种方便快捷的数据采集方式 ... 目前的爬虫主要是通过python 爬虫实现。相比于 PHPPHP 一般用作...
Salin selepas log masuk

Dalam coretan kod HTML di atas, anda boleh melihat bahawa setiap hasil carian bersarang dalam teg

. Setiap hasil carian mempunyai tajuk, yang sepadan dengan format HTML

, dengan alamat pautan bersarang dalam teg. Setiap hasil carian mempunyai penerangan, sepadan dengan format HTML
. Setiap hasil carian juga mempunyai URL yang mengandungidi dalam tegclass="c-showurl".

Sekarang kami telah menjelaskan format data yang ingin kami peroleh dan format data HTML yang perlu kami huraikan, kami boleh mula menulis program perangkak kami.

Menulis kod

Kami membahagikan kod perangkak PHP kami kepada tiga langkah:

  1. Dapatkan halaman HTML hasil carian Baidu
  2. Menghuraikan halaman HTML
  3. Kembalikan data yang dihuraikan dalam bentuk tatasusunan

Dapatkan halaman HTML hasil carian Baidu

Kami boleh menggunakan perpustakaan cURL PHP untuk menghantar permintaan HTTP, Untuk mendapatkan halaman HTML hasil carian Baidu. Dalam contoh ini, kami menyimpan URL halaman carian dalam pembolehubah$url. Kemudian buat pemegang untuk cURL dan tetapkan banyak pilihan, seperti: tetapkan URL, tetapkan pengepala permintaan, tetapkan proksi, tetapkan tamat masa, tetapkan kaedah permintaan kepada GET, dan akhirnya laksanakan pemegang ini untuk mendapatkan halaman HTML.


        
Salin selepas log masuk

Dalam contoh ini kami menggunakan banyak pilihan yang disediakan oleh perpustakaan cURL. Contohnya, tetapkan pengepala permintaan untuk mensimulasikan permintaan HTTP yang dihantar oleh penyemak imbas, tetapkan kaedah permintaan kepada GET, tetapkan tamat masa, dsb.

Menghuraikan halaman HTML

Selepas mendapat halaman HTML hasil carian Baidu, kami perlu menghuraikannya untuk mendapatkan maklumat yang kami perlukan. Dalam contoh ini, kami akan menggunakan ungkapan biasa PHP untuk menghuraikan halaman HTML.

Berikut ialah ungkapan biasa yang kami gunakan untuk mengekstrak tajuk, penerangan dan pautan daripada halaman HTML:

.*?(.*?)
.*?
/', $result, $matches ); // 提取搜索结果中的标题、描述和链接 $data = []; for ($i=0; $i strip_tags($matches[2][$i]), // 去除标题中的 HTML 标签 'description' => strip_tags($matches[3][$i]), // 去除描述中的 HTML 标签 'link' => $matches[1][$i] ]; }; // 关闭curl句柄 curl_close($ch);
Salin selepas log masuk

Dalam kod di atas, kami menggunakan ungkapan biasa PHP untuk memadankan semua hasil carian. Kami kemudian menggunakan gelung untuk menyemak semua hasil carian dan mengekstrak tajuk, penerangan dan pautan yang kami perlukan. Memandangkan tajuk dan penerangan yang kami dapat daripada HTML akan mengandungi teg HTML, kami menggunakan fungsistrip_tagsuntuk mengalih keluarnya.

Kembalikan hasilnya

Dalam kod di atas, kami telah memperoleh data yang kami perlukan, dan kini kami hanya perlu mengembalikan hasilnya dalam bentuk tatasusunan. Kami merangkum keseluruhan program perangkak kami ke dalam fungsi dan mengembalikan data yang diperoleh dalam bentuk tatasusunan:

.*?.*?s*(.*?)s*.*?.*?(.*?)
.*?
/', $result, $matches ); $data = []; for ($i=0; $i strip_tags($matches[2][$i]), 'description' => strip_tags($matches[3][$i]), 'link' => $matches[1][$i] ]; }; curl_close($ch); return $data; }
Salin selepas log masuk

Kami boleh menerima kata kunci sebagai parameter, dan kemudian memanggil fungsi ini untuk mendapatkan kata kunci dalam Tajuk, penerangan dan pautan dalam hasil carian Baidu.

Kesimpulan

Dalam artikel ini, kami menulis program perangkak mudah menggunakan PHP untuk mengekstrak data yang diperlukan daripada hasil carian Baidu. Program ini menggunakan perpustakaan cURL PHP untuk mensimulasikan permintaan HTTP dan menggunakan kaedah seperti ungkapan biasa untuk menghuraikan halaman HTML. Melalui contoh ini, kita boleh memperoleh pemahaman yang mendalam tentang cara perangkak berfungsi dan cara menulis perangkak menggunakan PHP. Dalam projek sebenar, kami boleh mengubah suai program ini mengikut keperluan kami untuk mendapatkan data yang kami perlukan.

Atas ialah kandungan terperinci Amalan perangkak PHP: ekstrak data yang diperlukan daripada hasil carian Baidu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:php.cn
Artikel sebelumnya:Laksanakan perangkak menggunakan PHP dan Selenium WebDriver Artikel seterusnya:Amalan perangkak praktikal: Gunakan PHP untuk merangkak maklumat perjalanan Ctrip
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Isu terkini
Topik-topik yang berkaitan
Lagi>
Cadangan popular
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!