首頁 > Java > java教程 > 如何使用\ w和\ b等價物在Java正則表達式中處理Unicode字符?

如何使用\ w和\ b等價物在Java正則表達式中處理Unicode字符?

Mary-Kate Olsen
發布: 2024-12-11 08:42:10
原創
246 人瀏覽過

How to Handle Unicode Characters in Java Regular Expressions Using w and b Equivalents?

Java 正規表示式中 w 和 b 的 Unicode 等價物?

Java 的 Perl 風格字元類別捷徑(w、b、s)的實作等)僅限於 ASCII 字元。要正確匹配 Unicode 字符,您需要更好的方法來重寫這些快捷方式。

解:

利用自訂函數重寫以下 charclass 轉義:

\w \W \s \S \v \V \h \H \d \D \b \B \X \R
登入後複製

重寫定義:

\s => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]
\S => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]

\v => [\u000A-\u000D\u0085\u2028\u2029]
\V => [^\u000A-\u000D\u0085\u2028\u2029]

\h => [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000]
\H => [^\u0009\u0020\u00A0\u1680\u180E\u2000\u2001-\u200A\u202F\u205F\u3000]

\w => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]
\W => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]

\b => (?:(?<=[a-z0-9])(?![a-z0-9])|(?<![a-z0-9])(?=[a-z0-9]))
\B => (?:(?<=[a-z0-9])(?=[a-z0-9])|(?<![a-z0-9])(?![a-z0-9]))

\d => \p{Nd}
\D => \P{Nd}

\R => (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029])

\X => (?>\PM\pM*)
登入後複製

邊界考量:

Java 的b 和B 不僅僅與w 綁定定。使用A(?:AB|BC) 構造重寫的b 可以搜尋邊界,其中:

  • IF 跟隨單字==>; THEN 不位於單字
  • ELSIF 不位於單字==> 之後THEN 在單字

使用A(?:BC|AB) 構造重寫的 B之前可以搜尋非邊界,其中:

  • IF 跟隨單字 ==>; THEN 確實在單字
  • ELSIF 後面不跟在單字 ==> 後面THEN不位於單字之前

完整重寫功能:

取得原始程式碼以獲得上述的完整重寫功能。

額外功能:

  • 邏輯碼點中的 Unicode字元輸入
  • 自然語言單字、破折號、連字號和撇號的便利定義
  • 正規表示式的增強字串轉義的轉義和取消轉義

以上是如何使用\ w和\ b等價物在Java正則表達式中處理Unicode字符?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板