Maison > Java > javaDidacticiel > Les expressions régulières peuvent-elles analyser efficacement le HTML en Java ?

Les expressions régulières peuvent-elles analyser efficacement le HTML en Java ?

Susan Sarandon
Libérer: 2024-11-06 06:04:02
original
736 Les gens l'ont consulté

Can Regular Expressions Effectively Parse HTML in Java?

Utilisation d'expressions régulières pour analyser le HTML en Java

L'identification des éléments HTML tels que les balises href et src peut être obtenue grâce aux expressions régulières, bien que ce soit souvent déconseillé. Si vous envisagez toujours cette approche, voyons comment la réaliser en Java :

Analyse avec des expressions régulières

Pour trouver les balises href, vous pouvez utiliser un regex comme :

Pattern p = Pattern.compile("<a.*?href=\"(.*?)\".*?>");
Copier après la connexion

Pour trouver les balises src :

Pattern p = Pattern.compile("<img.*?src=\"(.*?)\".*?>");
Copier après la connexion

Extraire les URL

Une fois que vous avez les modèles, vous pouvez les faire correspondre par rapport à votre chaîne HTML et capturez les groupes d'URL :

Matcher m = p.matcher(htmlString);
while (m.find()) {
  String url = m.group(1);
}
Copier après la connexion

Recommandation

Cependant, il est fortement conseillé d'utiliser un analyseur HTML au lieu d'expressions régulières. La structure HTML est complexe et les expressions régulières peuvent souvent négliger les cas extrêmes. Un analyseur HTML dédié comme JSoup est beaucoup plus apte à interpréter le HTML et à extraire de manière fiable les éléments souhaités.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal