ホームページ > Java > &#&チュートリアル > 正規表現は Java で HTML を効果的に解析できますか?

正規表現は Java で HTML を効果的に解析できますか?

Susan Sarandon
リリース: 2024-11-06 06:04:02
オリジナル
735 人が閲覧しました

Can Regular Expressions Effectively Parse HTML in Java?

Java で正規表現を使用して HTML を解析する

href タグや src タグなどの HTML 要素の識別は、正規表現を使用して行うことができます。推奨されないことが多いです。まだこのアプローチを検討している場合は、Java でこれを実現する方法を詳しく見てみましょう。

正規表現による解析

href タグを見つけるには、正規表現の例:

Pattern p = Pattern.compile("<a.*?href=\"(.*?)\".*?>");
ログイン後にコピー

src タグを検索するには:

Pattern p = Pattern.compile("<img.*?src=\"(.*?)\".*?>");
ログイン後にコピー

URL の抽出

パターンを取得したら、それらを照合できます

Matcher m = p.matcher(htmlString);
while (m.find()) {
  String url = m.group(1);
}
ログイン後にコピー

推奨事項

ただし、正規表現の代わりに HTML パーサーを使用することを強くお勧めします。 HTML の構造は複雑なので、正規表現を使用すると、エッジ ケースが見落とされることがよくあります。 JSoup のような専用の HTML パーサーは、HTML を解釈し、必要な要素を確実に抽出することに非常に優れています。

以上が正規表現は Java で HTML を効果的に解析できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート