Maison > Java > javaDidacticiel > Comment gérer les caractères Unicode dans les expressions régulières Java à l'aide des équivalents \w et \b ?

Comment gérer les caractères Unicode dans les expressions régulières Java à l'aide des équivalents \w et \b ?

Mary-Kate Olsen
Libérer: 2024-12-11 08:42:10
original
246 Les gens l'ont consulté

How to Handle Unicode Characters in Java Regular Expressions Using w and b Equivalents?

Équivalents Unicode pour w et b dans les expressions régulières Java ?

Implémentation par Java des raccourcis de classe de caractères de style Perl (w, b, s , etc.) est limité aux caractères ASCII. Pour faire correspondre correctement les caractères Unicode, vous avez besoin d'une meilleure façon de réécrire ces raccourcis.

Solution :

Utilisez une fonction personnalisée pour réécrire les échappements de classe de caractères suivants :

\w \W \s \S \v \V \h \H \d \D \b \B \X \R
Copier après la connexion

Réécrit Définitions :

\s => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]
\S => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]

\v => [\u000A-\u000D\u0085\u2028\u2029]
\V => [^\u000A-\u000D\u0085\u2028\u2029]

\h => [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000]
\H => [^\u0009\u0020\u00A0\u1680\u180E\u2000\u2001-\u200A\u202F\u205F\u3000]

\w => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]
\W => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]

\b => (?:(?<=[a-z0-9])(?![a-z0-9])|(?<![a-z0-9])(?=[a-z0-9]))
\B => (?:(?<=[a-z0-9])(?=[a-z0-9])|(?<![a-z0-9])(?![a-z0-9]))

\d => \p{Nd}
\D => \P{Nd}

\R => (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029])

\X => (?>\PM\pM*)
Copier après la connexion

Considérations relatives aux limites :

Les b et B de Java ne sont pas uniquement liés à w. Un b réécrit en utilisant la construction A(?:AB|BC) peut rechercher des limites où :

  • IF suit le mot ==> ALORS ne précède pas le mot
  • ELSIF ne suit pas le mot ==> ALORS précède le mot

Un B réécrit en utilisant la construction A(?:BC|AB) peut rechercher des non-frontières où :

  • IF suit le mot ==> ALORS précède le mot
  • ELSIF ne suit pas le mot ==> ALORS ne précède pas le mot

Fonction de réécriture complète :

Récupérez le code source pour obtenir la fonction de réécriture complète mentionnée ci-dessus.

Fonctionnalités supplémentaires :

  • Saisie de caractères Unicode en logique points de code
  • Définitions pratiques pour les mots, les tirets, les traits d'union et les apostrophes en langage naturel
  • Augmentation des échappements d'expressions régulières et déséchappement des échappements de chaîne

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal