Python의 정규식 및 일반적인 일치 함수 소개

풀어 주다: 2023-07-25 17:17:08
앞으로
1554명이 탐색했습니다.

/Introduction/

Python은 버전 1.5부터 Perl 스타일 정규식 패턴을 제공하는 re 모듈을 추가했습니다. re 모듈을 사용하면 Python 언어가 모든 정규식 기능을 가질 수 있습니다.

컴파일 함수는 패턴 문자열과 선택적 플래그 매개변수를 기반으로 정규식 개체를 생성합니다. 이 객체에는 정규식 일치 및 교체를 위한 일련의 메서드가 있습니다.

re 모듈은 이러한 메서드와 정확히 동일한 함수도 제공합니다. 이러한 함수는 패턴 문자열을 첫 번째 매개 변수로 사용합니다.


/re.match function/

re.match는 문자열의 시작 위치에서 패턴을 일치시키려고 시도합니다. 시작 위치가 성공적으로 일치하지 않으면 match()가 반환됩니다. 없음. 구문은 다음과 같습니다.

re.match(pattern, string, flags=0)
로그인 후 복사

"pattern"은 정규식 "string" 및 문자열 "flags" 플래그와 일치합니다.

일치에 성공하면 re.match 메서드는 일치하는 개체를 반환하고, 그렇지 않으면 None을 반환합니다.

group(num) 또는 groups() 일치 개체 함수를 사용하여 일치하는 표현식을 얻을 수 있습니다.

group(num=0) 匹配的整个表达式的字符串,“group()”可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。

下图是个实际例子:

Python의 정규식 및 일반적인 일치 함수 소개

输出结果如下图所示:

Python의 정규식 및 일반적인 일치 함수 소개


/检索和替换/

Python 的re模块提供了re.sub用于替换字符串中的匹配项。语法如下所示:

re.sub(pattern, repl, string, count=0, flags=0)
로그인 후 복사

参数:

pattern : 正则中的模式字符串。

repl : 替换的字符串,也可为一个函数。

string : 要被查找替换的原始字符串。

count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。

flags : 编译时用的匹配模式,数字形式。

前三个为必参数,后两个为可选参数。

下图是个实际例子:

Python의 정규식 및 일반적인 일치 함수 소개

输出结果如下图所示:

Python의 정규식 및 일반적인 일치 함수 소개


/compile函数/

compile 函数用于编译正则表达式,供match() 和 search() 这两个函数使用。语法格式为:

re.compile(pattern[, flags])
로그인 후 복사

参数:

pattern : 一个字符串形式的正则表达式

flags 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:

re.I 忽略大小写

  re.L은 현재 환경에 따라 특수 문자 집합 w, W, b, B, s, S를 나타냅니다.

re.M 다중 행 모드

re.S는 ' '를 포함합니다. 개행 문자 (' . '(줄 바꿈 제외)

을 포함한 모든 문자 re.U는 특수 문자 세트 w, W, b, B, d, D, s, S를 나타내며 유니코드 문자 속성 데이터베이스에 의존합니다

레.

re.MatchObject: group()은 RE와 일치하는 문자열을 반환합니다. Start() 일치하는 시작 위치로 돌아갑니다.

END() 일치하는 위치의 위치를 ​​반환합니다. 정규식 수정자 - 선택적 플래그/

정규 표현식에는 일치하는 패턴을 제어하기 위한 선택적 플래그 수정자가 포함될 수 있습니다. 수정자는 선택적 플래그로 지정됩니다. 여러 플래그는 비트별 OR(|)로 지정할 수 있습니다. 예를 들어, re.I | re.M은 I 및 M 플래그로 설정됩니다.

re.I

대소문자를 구분하지 않습니다.

re.L

locale-aware 일치

re ^

$을 수행합니다. 레.

re.U

Unicode
문자 집합에 따라 문자를 구문 분석합니다. 이 기호는

w, W, b, B.에 영향을 미칩니다.

레.


/regular 표현식 패턴/

패턴 문자열은 특수 구문을 사용하여 정규 표현식을 나타냅니다.

문자와 숫자는 자신을 나타냅니다. 정규식 패턴의 문자와 숫자는 동일한 문자열과 일치합니다.

대부분의 문자와 숫자 앞에 백슬래시가 있으면 다른 의미를 갖습니다.

구두점은 이스케이프된 경우에만 일치하며, 그렇지 않은 경우에는 특별한 의미를 나타냅니다.

백슬래시 자체는 백슬래시로 이스케이프 처리해야 합니다.

정규식에는 일반적으로 백슬래시가 포함되므로 이를 표현하려면 원시 문자열을 사용하는 것이 좋습니다. 패턴 요소(예: r't', \t와 동일)는 해당 특수 문자와 일치합니다.

다음 표에는 정규식 패턴 구문의 특수 요소가 나열되어 있습니다. 패턴을 사용하고 선택적 플래그 인수를 제공하면 일부 패턴 요소의 의미가 변경됩니다.

Python의 정규식 및 일반적인 일치 함수 소개

정규식 예

문자 일치

설명

파이썬

은 "python"과 일치합니다.

字符类

Python의 정규식 및 일반적인 일치 함수 소개

/实际应用/

以猫眼电影为例。我们需要获取(电影的名字作者,上映时间)等等都可以用正则表达式来解析。

Python의 정규식 및 일반적인 일치 함수 소개

分析一下,利用正则表达式提取。Python의 정규식 및 일반적인 일치 함수 소개

可以看到我们要的名字在一个a里面,而他们被一个div包裹着。

我们把div想象成一个盒子,可以看到div里面还有一个div 我们可以先找他上面一层的div是一个表单

再找到它的上一层的盒子div
一般来说我们找到前两层就可以找到我们要的结果。如果不对就再找几层。

分析完再实际操作一下:

pattern = re.compile(&#39;<div>.*?title="(.*?)".*?class="star">(.*?)</p>.*?releasetime">(.*?)</p>&#39;,re.S)
로그인 후 복사

    (.*?)表示我们要的内容

(.*?)

里面的主演也是我们要的这样我们就可以得到我们想要得多个数据。


/小结/

1. 정규식은 여러 데이터를 얻어야 하는 시나리오에 적합합니다. 우리가 원하는 데이터를 더 빠르게 얻을 수 있습니다.

2. 이 글에서는 주로 정규식과 그 기본 사용법을 소개합니다. 각 문자의 구체적인 사용법은 서문의 정규식 시리즈 기사를 참조하여 정규식 사용법을 더 잘 이해하는 데 도움이 되기를 바랍니다. .

위 내용은 Python의 정규식 및 일반적인 일치 함수 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:Go语言进阶学习
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿