Pandas DataFrames 및 시리즈의 효율적인 필터링
Pandas DataFrames 및 시리즈의 데이터 필터링은 데이터 조작 및 분석에 필수적입니다. 여러 필터를 효율적으로 적용하려면 Pandas의 내장 연산자와 부울 인덱싱을 활용하는 것이 좋습니다.
DataFrame 또는 Series의 경우 아래 예와 같이 사전 형식으로 작업 및 값 목록을 제공합니다.
<code class="python">relops = {'>=': [1], '<=': [1]}
이러한 필터를 적용하려면:
<code class="python">import numpy as np def boolean_filter(x, relops): filters = [] for op, vals in relops.items(): op_func = getattr(np, op) for val in vals: filters.append(op_func(x, val)) return x[(np.logical_and(*filters))] ## Example: df = pandas.DataFrame({'col1': [0, 1, 2], 'col2': [10, 11, 12]}) result = boolean_filter(df['col1'], {'>=': [1]}) print(result) ## Output: # col1 # 1 1 # 2 2 # Name: col1</code>
부울 인덱싱을 활용하여 이 방법은 불필요한 복사를 피하고 특히 대규모 데이터 세트의 경우 매우 효율적입니다.
위 내용은 Pandas DataFrames 및 시리즈에 여러 필터를 효율적으로 적용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!