在 Pandas DataFrame 中用组均值填充缺失值
在数据操作任务中,经常会遇到表示为 NaN 的缺失值。为了解决这个问题,一种方法是用特定组内计算的平均值来填充这些缺失值。
考虑示例数据框:
name | value |
---|---|
A | 1 |
A | NaN |
B | NaN |
B | 2 |
B | 3 |
B | 1 |
C | 3 |
C | NaN |
C | 3 |
我们的目标是替换 NaN具有相应组平均值“值”的值。为了实现这一点,我们可以利用transform()方法:
mean_values = df.groupby('name').transform(lambda x: x.fillna(x.mean())) df["value"] = mean_values
执行后,数据帧被更新:
name | value |
---|---|
A | 1 |
A | 1 |
B | 2 |
B | 2 |
B | 3 |
B | 1 |
C | 3 |
C | 3 |
C | 3 |
每个NaN值都被替换为其各自的组平均值,保留数据的完整性以供进一步分析。
以上是如何使用组均值估算 Pandas DataFrame 中的缺失值?的详细内容。更多信息请关注PHP中文网其他相关文章!