Rumah > Java > javaTutorial > Bagaimana Mengendalikan Aksara Unikod dalam Ungkapan Biasa Java Menggunakan \w dan \b Setara?

Bagaimana Mengendalikan Aksara Unikod dalam Ungkapan Biasa Java Menggunakan \w dan \b Setara?

Mary-Kate Olsen
Lepaskan: 2024-12-11 08:42:10
asal
246 orang telah melayarinya

How to Handle Unicode Characters in Java Regular Expressions Using w and b Equivalents?

Persamaan Unikod untuk w dan b dalam Ungkapan Biasa Java?

Pelaksanaan Java bagi pintasan kelas aksara gaya Perl (w, b, s , dsb.) terhad kepada aksara ASCII. Untuk memadankan aksara Unicode dengan betul, anda memerlukan cara yang lebih baik untuk menulis semula pintasan ini.

Penyelesaian:

Gunakan fungsi tersuai untuk menulis semula charclass escape berikut:

\w \W \s \S \v \V \h \H \d \D \b \B \X \R
Salin selepas log masuk

Ditulis semula Definisi:

\s => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]
\S => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]

\v => [\u000A-\u000D\u0085\u2028\u2029]
\V => [^\u000A-\u000D\u0085\u2028\u2029]

\h => [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000]
\H => [^\u0009\u0020\u00A0\u1680\u180E\u2000\u2001-\u200A\u202F\u205F\u3000]

\w => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]
\W => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]

\b => (?:(?<=[a-z0-9])(?![a-z0-9])|(?<![a-z0-9])(?=[a-z0-9]))
\B => (?:(?<=[a-z0-9])(?=[a-z0-9])|(?<![a-z0-9])(?![a-z0-9]))

\d => \p{Nd}
\D => \P{Nd}

\R => (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029])

\X => (?>\PM\pM*)
Salin selepas log masuk

Pertimbangan Sempadan:

B dan B Java tidak terikat kepada w semata-mata. A ditulis semula b menggunakan binaan A(?:AB|BC) boleh mencari sempadan di mana:

  • JIKA mengikuti perkataan ==> MAKA tidak mendahului perkataan
  • ELSIF tidak mengikut perkataan ==> MAKA mendahului perkataan

A ditulis semula B menggunakan binaan A(?:BC|AB) boleh mencari bukan sempadan di mana:

  • JIKA mengikuti perkataan ==> MAKA mendahului perkataan
  • ELSIF tidak mengikut perkataan ==> THEN tidak mendahului perkataan

Fungsi Penulisan Semula Lengkap:

Ambil kod sumber untuk mendapatkan fungsi penulisan semula penuh yang dinyatakan di atas.

Tambahan Ciri:

  • Input aksara Unikod dalam titik kod logik
  • Takrifan kemudahan untuk perkataan bahasa asli, sempang, sempang dan apostrof
  • Pembesaran regex melarikan diri dan melepaskan tali keluar

Atas ialah kandungan terperinci Bagaimana Mengendalikan Aksara Unikod dalam Ungkapan Biasa Java Menggunakan \w dan \b Setara?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan