이 기사의 예에서는 정규식 튜토리얼에서 문자 그룹을 일치시키는 방법을 설명합니다. 다음과 같이 참조용으로 모든 사람과 공유하세요.
참고: 모든 예제에서 정규식 일치 결과는 소스 텍스트의 [and] 사이에 포함됩니다. Java 자체의 정규식에 대한 설명은 해당 위치에서 설명합니다. 모든 Java 예제는 JDK1.6.0_13에서 테스트되었습니다.
1. 여러 문자 중 하나만 일치
이전 글 "정규식 튜토리얼: 단일 문자 일치에 대한 자세한 설명"에서 na 또는 sa로 시작하는 텍스트 파일을 일치시키는 예 사용된 정규식은 .a..txt입니다. cal.txt라는 다른 파일이 있는 경우에도 일치됩니다. na 또는 sa로 시작하는 파일만 일치시키려면 어떻게 해야 합니까?
n 또는 s만 찾고 싶기 때문에 어떤 문자와도 일치할 수 있는 .를 사용하는 것은 당연히 불가능합니다. 정규식에서 [and]를 사용하여 문자 세트를 정의할 수 있습니다. [and]를 사용하여 정의된 문자 세트에서 이러한 두 메타 문자 사이의 모든 문자는 문자 세트의 일부입니다. 일치하는 결과는 모든 멤버와 일치할 수 있는 텍스트입니다. 세트의.
이전 예제와 유사한 예를 살펴보겠습니다.
텍스트:
sales.txt
na1.txt
na2 .txt
sa1.txt
sanatxt.txt
cal.txt
정규식: [ns]a..txt
결과:
sales.txt
[na1.txt]
[na2.txt]
[sa1.txt]
sanatxt.txt
cal.txt
분석: 여기에 사용된 정규식은 [na]로 시작합니다. 이 세트는 문자 n 또는 s와 일치하며 다른 문자와 일치하지 않습니다. [ 및 ]는 어떤 문자와도 일치하지 않으며 문자 집합만 정의합니다. 다음으로 a는 문자 a와 일치하고 .는 .문자 자체와 일치하며 txt는 txt 문자 자체와 일치하며 일치 결과는 우리가 예상한 것과 일치합니다.
단, 파일 중 하나가 usa1.txt인 경우에도 일치합니다. 이는 위치 매칭의 문제이며 나중에 논의하겠습니다.
2. 문자 집합 간격을 사용하세요
위의 예에서 na 또는 sa로 시작하고 뒤에 숫자가 오는 파일만 일치시키려면 어떻게 해야 할까요? 정규식 [ns]a..txt에서 .는 숫자를 포함한 모든 문자와 일치합니다. 이 문제는 문자 모음을 사용하여 해결할 수 있습니다:
sales.txt
na1.txt
na2.txt
sa1.txt
san.txt
sanatxt.txt
cal.txt
정규식: [ns]a[0123456789].txt
결과:
sales.txt
[na1.txt]
[na2.txt]
[sa1.txt]
san. txt
sanatxt.txt
cal.txt
분석: 결과에서 볼 수 있듯이 na 또는 sa로 시작하고 뒤에 숫자가 오는 파일만 일치합니다. 세 번째 문자를 숫자로만 제한하기 위해 문자 집합 [0123456789]을 사용했기 때문에 san.txt가 일치하지 않았습니다.
정규 표현식에서는 0-9, a-z 등과 같은 일부 문자 간격이 자주 사용됩니다. 문자 간격 정의를 단순화하기 위해 정규 표현식에서는 문자 범위를 정의하는 특수 메타 문자를 제공합니다. 위의 예와 같이 정규식을 사용하여 [ns]a[0-9].txt를 일치시킬 수 있으며 결과는 위와 동일합니다.
문자 범위는 숫자로 제한되지 않습니다. 다음은 유효한 문자 범위입니다.
[A-F]: A부터 F까지 모든 대문자와 일치합니다.
[A-Z]: A부터 Z까지 모든 대문자와 일치합니다.
[A-z]: ASCII 문자 A부터 ASCII 문자 z까지의 모든 문자를 일치시킵니다. 그러나 이 간격은 일반적으로 사용되지 않으며 단지 예일 뿐입니다. ASCII에서 Z와 a 사이에 정렬되는 [ 및 ^와 같은 문자도 포함되어 있기 때문입니다.
문자 간격의 첫 번째 및 마지막 문자는 ASCII 문자 목록의 모든 문자일 수 있습니다. 하지만 실제 사용에서 가장 일반적으로 사용되는 범위는 숫자와 알파벳입니다.
참고: 문자 간격을 정의할 때 간격의 마지막 문자는 첫 번째 문자보다 작을 수 없습니다(예: [9-0]). - 메타 문자는 [ 및 ] 사이에만 나타날 수 있으므로 [ 및 ] 외부에 있으면 일반 문자일 뿐이며 - 자체에만 일치합니다.
동일한 문자 집합에 여러 문자 범위를 지정할 수 있습니다. 예를 들어 [0-9a-zA-Z]는 모든 대문자, 소문자 및 숫자와 일치합니다.
웹 페이지에서 색상 일치의 예를 살펴보겠습니다.
텍스트:
<span style="background-color:#3636FF;height:30px; width:60px;">测试</span>
정규 표현식 : # [0-9A-Fa-f] [0-9A-Fa-f] [0-9A-Fa-f] [0-9A-Fa-f] [0-9A-Fa-f] [0- 9A- Fa-f]
결과:Test
분석: 웹 페이지에서 색상은 일반적으로 #으로 시작하는 RGB 값으로 표현되며, R은 빨간색, G는 녹색, B는 파란색을 다양한 RGB 조합을 통해 혼합할 수 있습니다. RGB 값은 흰색을 나타내는 #000000, 검정색을 나타내는 #FFFFFF, 빨간색을 나타내는 #FF0000 등 16진수 값으로 표현됩니다. 따라서 웹 페이지에서 색상을 일치시키는 정규식은 #으로 시작하고 그 뒤에 6개의 동일한 [0-9A-Fa-f] 문자 집합이 옵니다(이것은 #[0-9A-Fa-f]{6}로 축약될 수 있습니다. 이에 대해서는 나중에 반복 매칭에서 논의하겠습니다.
3.비매칭 받기
문자 집합은 일반적으로 그 중 하나와 일치해야 하는 문자 집합을 지정하는 데 사용되지만 어떤 경우에는 반대로 얻을 필요가 없는 문자 집합을 제공해야 하는 경우도 있습니다. 의 해당 문자 세트 문자를 제외하고 다른 모든 문자가 일치할 수 있습니다.
예를 들어 na 또는 sa로 시작하고 뒤에 숫자가 오지 않는 파일을 일치시키려면
텍스트:
sales.txt
na1. txt
na2.txt
sa1.txt
sanatxt.txt
san.txt
정규식: [ns]a [^0-9].txt
결과:
sales.txt
na1.txt
na2.txt
sa1 .txt
sanatxt.txt
[san.txt]
분석: 이 예에 사용된 패턴은 이전 패턴과 정확히 반대입니다. 이전 [0- 9]는 숫자에만 일치하고, 여기서 [^0-9]는 숫자가 아닌 숫자와 일치합니다.
참고: [와 ] 사이의 ^가 정규 표현식의 시작 부분에 나타나면 위치 일치가 일치한다는 의미이며 이에 대해서는 나중에 설명합니다. 동시에 ^의 효과는 ^ 문자 바로 뒤의 문자 또는 문자 간격뿐만 아니라 지정된 문자 세트의 모든 문자 또는 문자 간격에 적용됩니다. 예를 들어, [^0-9a-z]는 숫자나 소문자와 일치하지 않는다는 의미입니다.
4. 요약
메타 문자 [and]는 문자 집합을 정의하는 데 사용되며, 그 의미는 집합에 있는 문자 중 하나와 일치해야 한다는 것입니다. 문자 집합을 정의하는 방법에는 두 가지가 있습니다. 하나는 모든 문자를 나열하는 것이고, 다른 하나는 문자 간격 형식으로 제공되는 메타 문자를 사용하는 것입니다. 문자 세트는 일치 작업에서 지정된 문자 세트를 강제로 제외하는 메타 문자 ^를 사용하여 부정될 수 있습니다. 문자 세트의 문자를 제외하고 다른 문자는 일치될 수 있습니다.
다음 글에서는 정규 표현식에서 일부 메타 문자를 사용하는 방법에 대해 설명하겠습니다.
이 글이 정규 표현식을 배우는 모든 분들에게 도움이 되기를 바랍니다.
문자 그룹 일치에 대한 정규식 튜토리얼에 대한 자세한 설명을 보려면 PHP 중국어 웹사이트를 참고하세요!