Pandas DataFrames의 이상값 감지 및 제외
데이터세트로 작업할 때 이상값은 분석과 오류를 왜곡할 수 있으므로 이를 식별하고 처리하는 것이 중요합니다. 결과. Pandas에서는 우아하고 효율적인 접근 방식을 사용하여 특정 열 값을 기반으로 이상값을 감지하고 제외할 수 있습니다.
문제 이해
여러 열이 있는 Pandas DataFrame이 제공됩니다. , 특정 행에는 "Vol"로 표시된 특정 열의 이상값이 포함될 수 있습니다. 작업은 DataFrame을 필터링하고 "Vol" 열 값이 평균에서 크게 벗어나는 행을 제외하는 것입니다.
scipy.stats.zscore를 사용한 솔루션
이를 통해 scipy.stats.zscore 기능을 활용할 수 있습니다.
import pandas as pd import numpy as np from scipy import stats # Calculate Z-scores for the specified column z_scores = stats.zscore(df['Vol']) # Define a threshold for outlier detection (e.g., 3 standard deviations) threshold = 3 # Create a mask to identify rows with outlier values mask = np.abs(z_scores) < threshold # Filter the DataFrame using the mask outlier_filtered_df = df[mask]
이것은 솔루션은 지정된 열 값을 기반으로 이상값을 탐지하고 제외하는 효과적인 방법을 제공합니다. Z-점수를 사용하면 평균에서 개별 값의 편차를 정량화하고 임계값을 적용하여 이상값을 식별할 수 있습니다. 결과 outlier_filtered_df에는 지정된 범위 내의 "Vol" 값이 있는 행만 포함됩니다.
위 내용은 Z 점수를 사용하여 Pandas DataFrames에서 이상값을 효과적으로 감지하고 제외하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!