> 백엔드 개발 > 파이썬 튜토리얼 > Pandas DataFrames에서 부분 문자열 일치를 효율적으로 수행하려면 어떻게 해야 합니까?

Pandas DataFrames에서 부분 문자열 일치를 효율적으로 수행하려면 어떻게 해야 합니까?

Patricia Arquette
풀어 주다: 2024-12-16 15:15:15
원래의
878명이 탐색했습니다.

How Can I Efficiently Perform Partial String Matching in Pandas DataFrames?

Pandas DataFrames의 부분 문자열 일치

문자열 기준에 따라 DataFrame을 필터링하는 것은 데이터 분석에서 일반적인 작업입니다. 정확한 문자열 일치는 == 연산자를 사용하면 간단하지만, 부분 문자열 일치에는 다른 접근 방식이 필요합니다.

한 가지 옵션은 질문의 코드 조각에서 볼 수 있듯이 정규식을 사용하는 것입니다.

re.search(pattern, cell_in_question)
로그인 후 복사

그러나 대규모 DataFrame의 경우 이 접근 방식은 반복 특성으로 인해 비효율적일 수 있습니다.

Pandas를 사용하는 벡터화된 솔루션' Series.str 메소드를 사용할 수 있으며 더 나은 성능을 위해 적극 권장됩니다.

df[df['A'].str.contains("hello")]
로그인 후 복사

이 메소드는 내장된 contain() 함수를 사용하여 일련의 문자열에 하위 문자열이 있는지 확인합니다. DataFrame을 필터링하는 데 사용할 수 있는 부울 마스크를 반환합니다.

이전 버전의 Pandas(0.8.1 이전)에서는 약간 다른 구문이 사용되었습니다.

df['A'].apply(lambda x: "hello" in x)
로그인 후 복사

상관없이 선택한 접근 방식에 따라 Pandas DataFrames의 부분 문자열 일치는 데이터를 효율적이고 효과적으로 필터링하기 위한 강력한 도구입니다.

위 내용은 Pandas DataFrames에서 부분 문자열 일치를 효율적으로 수행하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿