首頁 > Java > java教程 > Java中正規表示式能否有效解析HTML?

Java中正規表示式能否有效解析HTML?

Susan Sarandon
發布: 2024-11-06 06:04:02
原創
737 人瀏覽過

Can Regular Expressions Effectively Parse HTML in Java?

在Java中使用正規表示式解析HTML

識別href和src標籤等HTML元素可以透過正規表示式來實現,儘管它是通常不推薦。如果您仍在考慮這種方法,讓我們深入研究如何在Java 中實現它:

使用正規表示式解析

要尋找href 標籤,您可以使用正規表示式如:

Pattern p = Pattern.compile("<a.*?href=\"(.*?)\".*?>");
登入後複製

找出src 標籤:

Pattern p = Pattern.compile("<img.*?src=\"(.*?)\".*?>");
登入後複製

擷取URL

一旦有了模式,就可以匹配它們針對您的HTML 字串並擷取URL 群組:

Matcher m = p.matcher(htmlString);
while (m.find()) {
  String url = m.group(1);
}
登入後複製

建議

但是,強烈建議使用HTML 解析器而不是正規表示式。 HTML 結構非常複雜,正規表示式常常會忽略邊緣情況。像 JSoup 這樣的專用 HTML 解析器更擅長解釋 HTML 並可靠地提取所需的元素。

以上是Java中正規表示式能否有效解析HTML?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板