Menggunakan HtmlUnit untuk mengikis Web dalam pembangunan API Java
Mengikis web ialah teknologi yang biasa digunakan dalam reka bentuk aplikasi Internet moden, dan ia juga merupakan alat penting untuk banyak analisis data tapak web dan perlombongan. Dalam pembangunan API Java, kami boleh menggunakan perpustakaan HtmlUnit untuk menyelesaikan tugas mengikis web dengan mudah.
HtmlUnit ialah penyemak imbas tanpa antara muka yang ditulis dalam Java Ia boleh mensimulasikan tingkah laku penyemak imbas, mengakses halaman Web seperti pengguna dan mendapatkan kandungan halaman. Pada masa yang sama, HtmlUnit juga menyediakan sokongan untuk JavaScript, yang boleh melaksanakan skrip pada halaman dan menyelesaikan operasi yang lebih kompleks.
Dalam artikel ini, kami akan memperkenalkan cara menggunakan HtmlUnit untuk mengikis web, bermula dengan pemasangan dan konfigurasi HtmlUnit. Kemudian, kami akan menunjukkan cara menggunakan HtmlUnit untuk mengakses tapak web dan mendapatkan kandungan halaman. Akhir sekali, kita akan melihat cara menggunakan HtmlUnit untuk menguji aplikasi web.
Memasang dan Mengkonfigurasi HtmlUnit
Untuk menggunakan HtmlUnit, kita perlu menambahkannya pada projek Java terlebih dahulu. HtmlUnit boleh diperolehi daripada perpustakaan kebergantungan bersatu Maven Kami hanya perlu menambah kebergantungan berikut dalam pom.xml:
net.sourceforge.htmlunit htmlunit 2.50
Dalam kod, kami perlu mengimport kelas HtmlUnit yang berkaitan:
import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftware.htmlunit.html.HtmlPage;
Akses laman web dan dapatkan kandungan halaman
Menggunakan HtmlUnit, kita boleh mengakses laman web dengan mudah dan mendapatkan kandungan halaman. Coretan kod berikut menunjukkan cara menggunakan HtmlUnit untuk mengakses baidu.com dan mendapatkan tajuk halaman:
try (WebClient webClient = new WebClient()) { HtmlPage page = webClient.getPage("http://www.baidu.com"); String title = page.getTitleText(); System.out.println(title); }
Dalam contoh ini, kami mencipta objek WebClient untuk mensimulasikan gelagat penyemak imbas, dan kemudian menggunakan kaedah getPage() untuk Mendapatkan objek HtmlPage halaman. Kami kemudiannya boleh menggunakan kaedah getTitleText() untuk mendapatkan tajuk halaman.
Selain mendapat tajuk halaman, kita juga boleh mendapatkan kandungan HTML halaman tersebut. Coretan kod berikut menunjukkan cara untuk mendapatkan kandungan HTML halaman utama Baidu:
try (WebClient webClient = new WebClient()) { HtmlPage page = webClient.getPage("http://www.baidu.com"); String content = page.asXml(); System.out.println(content); }
Dalam contoh ini, kami menggunakan kaedah asXml() untuk mendapatkan kandungan HTML halaman tersebut.
Laksanakan JavaScript
HtmlUnit bukan sahaja boleh mendapatkan kandungan halaman statik, tetapi juga melaksanakan kod JavaScript pada halaman. Dalam kebanyakan tapak web moden, JavaScript telah menjadi bahagian penting, dan fungsi teras kebanyakan tapak web adalah berdasarkan JavaScript. Kod berikut menunjukkan cara menggunakan HtmlUnit untuk melaksanakan skrip JavaScript mudah:
try (WebClient webClient = new WebClient()) { String script = "var x = 1 + 1; x;"; Object result = webClient.executeJavaScript(script).getJavaScriptResult(); System.out.println(result); }
Dalam contoh ini, kami mencipta skrip JavaScript mudah yang memberikan hasil 1 + 1 kepada pembolehubah x, dan kemudian mengembalikan x . Kami menggunakan kaedah executeJavaScript() untuk melaksanakan skrip ini, dan kaedah getJavaScriptResult() untuk mendapatkan hasil pelaksanaan skrip.
Menguji Aplikasi Web
Akhir sekali, mari kita lihat cara menggunakan HtmlUnit untuk menguji aplikasi web. Apabila menguji aplikasi web, kita perlu mensimulasikan tingkah laku pengguna, seperti memasukkan borang, mengklik butang, dsb. Kod berikut menunjukkan cara menggunakan HtmlUnit untuk menguji halaman log masuk mudah:
try (WebClient webClient = new WebClient()) { HtmlPage page = webClient.getPage("http://localhost:8080/login"); HtmlForm form = page.getForms().get(0); form.getInputByName("username").setValueAttribute("admin"); form.getInputByName("password").setValueAttribute("password"); HtmlButton submitButton = form.getButtonByName("submit"); HtmlPage resultPage = submitButton.click(); assertEquals("http://localhost:8080/home", resultPage.getUrl().toString()); }
Dalam contoh ini, kami mula-mula membuka halaman log masuk, kemudian dapatkan elemen borang dan masukkan nama pengguna dan kata laluan. Seterusnya, kami mendapat butang hantar dan klik padanya. Akhir sekali, kami menyemak sama ada URL halaman menghala ke halaman sasaran yang dimaksudkan.
Kesimpulan
HtmlUnit ialah alat berkuasa yang memudahkan pengikisan dan ujian web. Menggunakan HtmlUnit, kami boleh dengan cepat mengambil kandungan tapak web, melaksanakan skrip JavaScript dan menguji aplikasi web kami. Memahami penggunaan asas HtmlUnit bukan sahaja pengumpulan pengetahuan teori, tetapi juga kemahiran yang sangat berguna dan perlu dalam pengaturcaraan sebenar.
Atas ialah kandungan terperinci Menggunakan HtmlUnit untuk mengikis Web dalam pembangunan API Java. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!