Rumah pembangunan bahagian belakang tutorial php Teknologi pembangunan crawler: Gunakan PHP dan Selenium untuk membina perangkak web kelas pertama

Teknologi pembangunan crawler: Gunakan PHP dan Selenium untuk membina perangkak web kelas pertama

Jun 15, 2023 am 08:25 AM
pengaturcaraan php Perkembangan reptilia ujian selenium

Dengan perkembangan Internet, teknologi crawler telah menjadi alat yang sangat diperlukan dalam pemerolehan data, analisis pasaran, penyelidikan produk yang kompetitif dan bidang lain. Antara teknologi perangkak tradisional, Python ialah bahasa pilihan untuk membangunkan alat perangkak Berbanding dengan bahasa lain, Python mempunyai kelebihan kerana mudah dipelajari, ringkas dan kaya dengan perpustakaan perangkak. Tetapi hari ini, kami akan memperkenalkan satu lagi bahasa perangkak yang sangat baik-PHP, dan tekniknya yang cekap dalam kombinasi dengan Selenium.

1. Apakah itu Selenium
Selenium ialah alat yang digunakan secara meluas dalam ujian automasi web. Melalui Selenium, anda boleh mensimulasikan tingkah laku manusia untuk mengendalikan tapak web, dan melaksanakan ujian laman web automatik dan juga pembangunan perangkak. Teras Selenium ialah WebDriver, yang boleh mensimulasikan gelagat penyemak imbas, termasuk mengklik, memasukkan, menukar tetingkap dan semua gelagat lain yang memerlukan operasi manusia. Selenium sangat berguna untuk perangkak dalam senario kompleks yang memerlukan log masuk, pengesahan, dsb.

2. Kelebihan menggunakan Selenium untuk membangunkan perangkak
1 Sesuai untuk merangkak data dalam senario yang kompleks
2 Boleh secara langsung meniru tingkah laku manusia dan mengelakkan masalah dengan IP atau Kuki
3 Java , Python, Ruby dan bahasa lain yang disokong

3. Pemasangan selenium
Selenium boleh dipasang terus dalam PHP Kaedah pemasangan adalah seperti berikut:

1.
curl -sS https://getcomposer.org/installer |. php

2 Cipta fail konfigurasi composer.json dan tambah pakej Selenium WebDriver:

{
"memerlukan" : {

"php-webdriver/webdriver": "dev-master"
Salin selepas log masuk

}
}

3 Pasang WebDriver melalui komposer:

php composer.phar install

4 ia:

wget https://selenium-release.storage.googleapis.com/2.53/selenium-server-standalone-2.53.1.jar

Empat amalan kod perangkak PHP+Selenium
di bawah Kami akan memanggil Selenium untuk mensimulasikan carian Baidu, mencari kata kunci yang berkaitan dan mengembalikan hasil merangkak.

Pertama sekali, anda perlu mengimport WebDriver dan mulakan penyemak imbas:

require_once('vendor/autoload.php');
use FacebookWebDriverRemoteRemoteWebDriver;
use FacebookDriverByWeb;

$host = 'http://localhost:4444/wd/hub';

$driver = RemoteWebDriver::create($host, array('browserName' => 'firefox'));

Seterusnya kita masukkan URL dan cari kotak carian:

$driver->get("http://www.baidu.com");

$element = $driver- >findElement (WebDriverBy::id('kw'));

Masukkan kata kunci dalam kotak carian dan lakukan carian:

$element->sendKeys("Selenium");

$element->submit();

Menunggu pelayar dimuatkan sepenuhnya, kami mencari kedudukan hasil carian dengan mencari butang halaman seterusnya:

$driver ->tunggu() ->sehingga(

WebDriverExpectedCondition::elementToBeClickable(WebDriverBy::xpath("//a[contains(@class,'n') and contains(@class,'next')]" ))
) ;

Selepas mencari hasil carian, kami menyimpan hasilnya ke dalam $result array:

$result = array();

$elements = $driver ->findElements(WebDriverBy: :cssSelector('h3 > a'));
foreach ($elemen sebagai $elemen) {
$result[] = array($element->getText(), $element->getAttribute( 'href'));
}

Akhir sekali, kami menutup penyemak imbas dan mengembalikan hasilnya:

$driver->quit();

echo json_encode($result) ;

Di atas ialah kod amalan perangkak berdasarkan PHP+Selenium.

5. Ringkasan

Selenium ialah alat yang sangat diperlukan dalam ujian automatik web dan pembangunan perangkak. Artikel ini memperkenalkan kelebihan teknologi Selenium dan cara menulis perangkak Selenium dalam PHP. Walaupun Python masih menjadi pilihan yang lebih popular dalam pembangunan perangkak, PHP, sebagai bahasa yang sangat baik, digabungkan dengan Selenium, boleh menjadi alat perangkak yang berkuasa, memberikan lebih banyak kemungkinan untuk analisis data, penyelidikan pasaran dan bidang lain.

Atas ialah kandungan terperinci Teknologi pembangunan crawler: Gunakan PHP dan Selenium untuk membina perangkak web kelas pertama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Tag artikel panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Baris format PHP ke CSV dan tulis penuding fail Baris format PHP ke CSV dan tulis penuding fail Mar 22, 2024 am 09:00 AM

Baris format PHP ke CSV dan tulis penuding fail

PHP menukar umask semasa PHP menukar umask semasa Mar 22, 2024 am 08:41 AM

PHP menukar umask semasa

PHP mencipta fail dengan nama fail yang unik PHP mencipta fail dengan nama fail yang unik Mar 21, 2024 am 11:22 AM

PHP mencipta fail dengan nama fail yang unik

PHP mengira cincangan fail MD5 PHP mengira cincangan fail MD5 Mar 21, 2024 pm 01:42 PM

PHP mengira cincangan fail MD5

PHP mengembalikan pengekodan berangka mesej ralat dalam operasi MySQL sebelumnya PHP mengembalikan pengekodan berangka mesej ralat dalam operasi MySQL sebelumnya Mar 22, 2024 pm 12:31 PM

PHP mengembalikan pengekodan berangka mesej ralat dalam operasi MySQL sebelumnya

PHP memotong fail kepada panjang tertentu PHP memotong fail kepada panjang tertentu Mar 21, 2024 am 11:42 AM

PHP memotong fail kepada panjang tertentu

PHP mengembalikan tatasusunan dengan nilai kunci dibalikkan PHP mengembalikan tatasusunan dengan nilai kunci dibalikkan Mar 21, 2024 pm 02:10 PM

PHP mengembalikan tatasusunan dengan nilai kunci dibalikkan

PHP dapatkan pi PHP dapatkan pi Mar 21, 2024 pm 01:52 PM

PHP dapatkan pi

See all articles