Z 점수를 사용하여 Pandas DataFrames에서 이상값을 효과적으로 감지하고 제외하는 방법은 무엇입니까?-파이썬 튜토리얼-php.cn

Z 점수를 사용하여 Pandas DataFrames에서 이상값을 효과적으로 감지하고 제외하는 방법은 무엇입니까?

Mary-Kate Olsen

풀어 주다： 2024-12-01 04:54:14

원래의

185명이 탐색했습니다.

How to Effectively Detect and Exclude Outliers in Pandas DataFrames Using Z-scores?

Pandas DataFrames의 이상값 감지 및 제외

데이터세트로 작업할 때 이상값은 분석과 오류를 왜곡할 수 있으므로 이를 식별하고 처리하는 것이 중요합니다. 결과. Pandas에서는 우아하고 효율적인 접근 방식을 사용하여 특정 열 값을 기반으로 이상값을 감지하고 제외할 수 있습니다.

문제 이해

여러 열이 있는 Pandas DataFrame이 제공됩니다. , 특정 행에는 "Vol"로 표시된 특정 열의 이상값이 포함될 수 있습니다. 작업은 DataFrame을 필터링하고 "Vol" 열 값이 평균에서 크게 벗어나는 행을 제외하는 것입니다.

scipy.stats.zscore를 사용한 솔루션

이를 통해 scipy.stats.zscore 기능을 활용할 수 있습니다.

import pandas as pd
import numpy as np
from scipy import stats

# Calculate Z-scores for the specified column
z_scores = stats.zscore(df['Vol'])

# Define a threshold for outlier detection (e.g., 3 standard deviations)
threshold = 3

# Create a mask to identify rows with outlier values
mask = np.abs(z_scores) < threshold

# Filter the DataFrame using the mask
outlier_filtered_df = df[mask]

로그인 후 복사

이것은 솔루션은 지정된 열 값을 기반으로 이상값을 탐지하고 제외하는 효과적인 방법을 제공합니다. Z-점수를 사용하면 평균에서 개별 값의 편차를 정량화하고 임계값을 적용하여 이상값을 식별할 수 있습니다. 결과 outlier_filtered_df에는 지정된 범위 내의 "Vol" 값이 있는 행만 포함됩니다.

위 내용은 Z 점수를 사용하여 Pandas DataFrames에서 이상값을 효과적으로 감지하고 제외하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!