如何使用 Z 分数有效检测和排除 Pandas DataFrame 中的异常值？-Python教程-PHP中文网

如何使用 Z 分数有效检测和排除 Pandas DataFrame 中的异常值？

Mary-Kate Olsen

发布： 2024-12-01 04:54:14

原创

186 人浏览过

How to Effectively Detect and Exclude Outliers in Pandas DataFrames Using Z-scores?

Pandas DataFrame 中的离群值检测和排除

使用数据集时，识别和处理离群值至关重要，因为它们可能会影响分析和结果结果。在 pandas 中，可以使用优雅且高效的方法来实现基于特定列值的异常值检测和排除。

理解问题

给定一个包含多个列的 pandas DataFrame ，某些行可能在特定列中包含异常值，表示为“Vol”。任务是过滤 DataFrame 并排除“Vol”列值显着偏离平均值的行。

解决方案使用 scipy.stats.zscore

来实现这个，我们可以利用 scipy.stats.zscore 函数：

import pandas as pd
import numpy as np
from scipy import stats

# Calculate Z-scores for the specified column
z_scores = stats.zscore(df['Vol'])

# Define a threshold for outlier detection (e.g., 3 standard deviations)
threshold = 3

# Create a mask to identify rows with outlier values
mask = np.abs(z_scores) < threshold

# Filter the DataFrame using the mask
outlier_filtered_df = df[mask]

登录后复制

这个解决方案提供一种根据指定列值检测和排除异常值的有效方法。通过使用 Z 分数，我们可以量化各个值与平均值的偏差，并应用阈值来识别异常值。生成的 outlier_filtered_df 将仅包含“Vol”值在指定范围内的行。

以上是如何使用 Z 分数有效检测和排除 Pandas DataFrame 中的异常值？的详细内容。更多信息请关注PHP中文网其他相关文章！