Python 정규식 학습 요약-파이썬 튜토리얼-php.cn

Python 정규식 학습 요약

高洛峰

풀어 주다： 2017-01-12 16:28:10

원래의

1165명이 탐색했습니다.

Python에서 규칙성을 구현하는 방법은 re(정규 표현식의 약어) 모듈을 통해서입니다. re 모듈의 다양한 메소드를 호출하여 다양한 기능을 구현할 수 있습니다. 어떤 메소드를 통해 Python에서 정규 표현식을 구현하는지 이야기해 보겠습니다. re 모듈에 의해 호출되며 이러한 메소드의 기능은 무엇입니까? 정규식의 예와 다양한 특수 기호의 의미도 있습니다:

1. re.sub 및 바꾸기:

sub의 전체 철자는 대체(replace)를 의미하며, 이제 교체(replace)라는 것을 알았으므로 실제로 교체(replace)도 대체(replace)를 의미하지만 사용법은 쉽습니다. 는 동일하지 않습니다. 예를 사용하여 유사점과 차이점을 자세히 설명하겠습니다.

>>> import re
>>> str1 = &#39;Hello 111 is 222&#39;
>>> str2 = str1.replace(&#39;111&#39;,&#39;222&#39;)
>>> print(str2)
Hello 222 is 222
>>>

로그인 후 복사

이것은 간단한 예입니다. 다음과 같은 경우 모든 숫자를 222로 바꾼 다음 바꾸기를 사용합니다. 구현하기가 더 번거롭지만 re 모듈의 하위 메소드를 사용하여 구현하는 것이 상대적으로 간단합니다. (더 복잡한 작업인 경우 교체를 사용하지 못할 수도 있습니다.)

>>> import re
>>> str1 = &#39;Hello 123 is 456&#39;
>>> str2 = re.sub(&#39;\d+&#39;,&#39;222&#39;,str1)
>>> print(str2)
Hello 222 is 222
>>>

로그인 후 복사

　2 re.search() 및 re.match():

일치: 문자열의 시작 부분에서만 정규식을 일치시킵니다. 일치에 성공하면 Matchobject가 반환되고, 그렇지 않으면 아무 것도 반환되지 않습니다.

검색: 문자열의 모든 문자열이 정규식과 일치하도록 시도합니다. 모든 문자열이 성공적으로 일치하지 않으면 아무것도 반환하지 않고, 그렇지 않으면 matchobject를 반환합니다.

다음 예 일치와 검색의 유사점과 차이점을 보여주며, 실제 애플리케이션에서는 검색이 여전히 더 많이 사용된다는 것을 보여줍니다.

import re
str = &#39;helloword,i am alex&#39;
if not re.match(&#39;word&#39;,str):
print(&#39;cannot match&#39;)
print(re.match(&#39;hello&#39;,str1).group())
print(re.search(&#39;word&#39;,str1).group())
#显示结果
cannot match
hello
word

로그인 후 복사

3. re.split:

Python에서는 문자열을 분할하려면 str의 분할 메서드만 호출하면 됩니다. 그러나 이 분할은 특정 문자를 기준으로만 분할할 수 있습니다. 분할을 위한 동일한 시간 그렇다면 불가능합니다.

다행스럽게도 re 모듈은 문자열을 분할하는 분할 방법도 제공하는데, 이 방법은 더 강력하고 동시에 여러 문자를 기반으로 분할할 수 있습니다. 분할과 다시 분할의 차이점은 무엇입니까?

str1 = &#39;helloword,i;am\nalex&#39;
str2 = str1.split(&#39;,&#39;)
print(str2)
import re
str3 = re.split(&#39;[,|;|\n]&#39;,str1)
print(str3)
#下面是不同的输出结果
[&#39;helloword&#39;, &#39;i;am\nalex&#39;]
[&#39;helloword&#39;, &#39;i&#39;, &#39;am&#39;, &#39;alex&#39;]

로그인 후 복사

이를 통해 위 내용의 진위 여부를 알 수 있습니다.

4. findall:

findall 메소드는 기본적으로 컴파일 메소드와 동시에 나타납니다. 사용법은 다음과 같습니다.

먼저 정규식의 문자열 형식을 컴파일하여 패턴 인스턴스로 변환한 다음 패턴 인스턴스를 사용하여 findall 메서드를 호출하여 일치 개체를 생성하고 결과를 가져옵니다. 이를 결합하기 전에 먼저 정규식의 사전 설정을 살펴보겠습니다. . 특수 문자 의미:

　d는 임의의 10진수와 일치하며 클래스 [0-9]와 동일합니다.

D는 숫자가 아닌 문자와 일치하며 클래스 [^0-9]와 동일합니다.

　s는 공백 문자와 일치하며 클래스 ["t"n"r"f"v]와 동일합니다.

　S는 공백이 아닌 문자와 일치하며 클래스 [와 같습니다. ^ "t "n"r"f"v].

w는 모든 영숫자 문자와 일치하며 클래스 [a-zA-Z0-9_]와 동일합니다.

　W는 영숫자가 아닌 모든 문자와 일치하며 클래스 [^a-zA-Z0-9_]와 동일합니다.

이러한 특수 문자의 의미를 읽은 후 위의 인수를 설명하기 위해 또 다른 예를 들어 보겠습니다.

import re
str1 = &#39;asdf12dvdve4gb4&#39;
pattern1 = re.compile(&#39;\d&#39;)
pattern2 = re.compile(&#39;[0-9]&#39;)
mch1 = pattern1.findall(str1)
mch2 = pattern2.findall(str1)
print(&#39;mch1:\t%s&#39;% mch1)
print(&#39;mch2:\t%s&#39;% mch2)
#输出结果
mch1: [&#39;1&#39;, &#39;2&#39;, &#39;4&#39;, &#39;4&#39;]13 mch2: [&#39;1&#39;, &#39;2&#39;, &#39;4&#39;, &#39;4&#39;]

로그인 후 복사

위의 두 가지 각 예는 다음과 같습니다. 위의 인수를 잘 설명하고 특수 문자 d가 실제로 [0-9]와 동일하다는 것을 출력 결과에서 볼 수 있습니다. 그러면 각 숫자를 분할하지 않으려면 요소 하나를 입력하십시오. 목록에 있지만 12개를 전체적으로 출력하고 싶다면 다음과 같이 할 수 있습니다. (d 뒤에 + 기호를 추가하면 됩니다. 여기서 + 기호는 하나 이상의 연결된 십진수를 출력한다는 의미입니다.)

import re
str1 = &#39;asdf12dvdve4gb4&#39;
pattern1 = re.compile(&#39;\d+&#39;)
pattern2 = re.compile(&#39;[0-9]&#39;)
mch1 = pattern1.findall(str1)
mch2 = pattern2.findall(str1)
print(&#39;mch1:\t%s&#39;% mch1)
print(&#39;mch2:\t%s&#39;% mch2)
#输出结果
mch1: [&#39;12&#39;, &#39;4&#39;, &#39;4&#39;]
mch2: [&#39;1&#39;, &#39;2&#39;, &#39;4&#39;, &#39;4&#39;]

로그인 후 복사

이 예에서는 특수 문자와 re의 하위 함수를 결합하여 문자열의 모든 문자를 제거합니다.

import re
str1 = &#39;asd \tf12d vdve4gb4&#39;
new_str = re.sub(&#39;\s*&#39;,&#39;&#39;,str)
print(new_str)
#输出结果
asdf12dvdve4gb4

로그인 후 복사

5. 메타 문자:

우리가 일반적으로 이진 문자라고 부르는 것은 ;2 메타 문자입니다: . ^ $ * + ? | ( )

　 먼저 살펴볼 메타문자는 "["와 "]"입니다. 일치시키려는 문자 세트인 문자 범주를 지정하는 데 자주 사용됩니다. 문자를 개별적으로 나열할 수도 있고, "-" 기호로 구분된 두 개의
문자를 사용하여 문자 범위를 나타낼 수도 있습니다. 예를 들어, [abc]는 "a", "b" 또는 "c" 사이의 모든 문자와 일치합니다. 간격 [a-c]를 사용하여 이전과 동일한 효과를 갖는 동일한 문자 집합을 나타낼 수도 있습니다. 소문자만 일치시키려면 RE를 [a-z]로 작성해야 합니다. 메타문자는 카테고리에 영향을 주지 않습니다. 예를 들어, [akm$]는 "a", "k", "m" 또는 "$" 문자와 일치합니다. "$"는 일반적으로 메타 문자로 사용되지만 문자 클래스 내에서는 해당 특성이 제거됩니다. , 일반 문자
기호로 되돌립니다.

　　　　[]:元字符[]表示字符类，在一个字符类中，只有字符^、-、]和\有特殊含义。字符\仍然表示转义，字符-可以定义字符范围，字符^放在前面，表示非.(这个在上面的特殊字符示例中也有提现)，

　　　　+ 匹配+号前内容1次至无限次
　　　　? 匹配?号前内容0次到1次
　　　　{m} 匹配前面的内容m次
　　　　{m,n} 匹配前面的内容m到n次

　　　　下面通过一个小例子，来阐述一下上面的字符在元字符[]中的使用：(在下面的这个例子中，要注意的有两点：一是在\d+后面的？号的含义，二是在匹配的前面加上了一个字符r,其实在这个示例中，加与不加都可以显示一样的结果)

>>> import re
>>> print(re.findall(r"a(\d+?)","a123b"))
[&#39;1&#39;]
>>> print(re.findall(r"a(\d+)","a123b"))
[&#39;123&#39;]
>>>

로그인 후 복사

以上所述是小编给大家介绍的python 正则表达式学习小结，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对PHP中文网的支持！

更多python 正则表达式学习小结相关文章请关注PHP中文网！