Rumah > Java > javaTutorial > Bolehkah Ungkapan Biasa Menghuraikan HTML dengan berkesan dalam Java?

Bolehkah Ungkapan Biasa Menghuraikan HTML dengan berkesan dalam Java?

Susan Sarandon
Lepaskan: 2024-11-06 06:04:02
asal
736 orang telah melayarinya

Can Regular Expressions Effectively Parse HTML in Java?

Menggunakan Ungkapan Biasa untuk Menghuraikan HTML dalam Java

Mengenal pasti elemen HTML seperti tag href dan src boleh dicapai melalui ungkapan biasa, walaupun ia selalunya tidak disyorkan. Jika anda masih mempertimbangkan pendekatan ini, mari kita mendalami cara untuk mencapainya dalam Java:

Menghuraikan dengan Ungkapan Biasa

Untuk mencari tag href, anda boleh menggunakan regex seperti:

Pattern p = Pattern.compile("<a.*?href=\"(.*?)\".*?>");
Salin selepas log masuk

Untuk mencari teg src:

Pattern p = Pattern.compile("<img.*?src=\"(.*?)\".*?>");
Salin selepas log masuk

Mengekstrak URL

Setelah anda mempunyai corak, anda boleh memadankannya terhadap rentetan HTML anda dan tangkap kumpulan URL:

Matcher m = p.matcher(htmlString);
while (m.find()) {
  String url = m.group(1);
}
Salin selepas log masuk

Pengesyoran

Walau bagaimanapun, adalah dinasihatkan supaya menggunakan penghurai HTML dan bukannya ungkapan biasa. Struktur HTML adalah rumit, dan ungkapan biasa selalunya boleh mengabaikan kes tepi. Penghurai HTML khusus seperti JSoup jauh lebih mahir dalam mentafsir HTML dan mengekstrak elemen yang dikehendaki dengan pasti.

Atas ialah kandungan terperinci Bolehkah Ungkapan Biasa Menghuraikan HTML dengan berkesan dalam Java?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan