了解 Pandas 中大小和计数之间的差异
在 Pandas 中,groupby 操作为数据探索和聚合提供了强大的工具。常用的 groupby 操作包括计数和大小。了解它们的区别对于有效分析数据至关重要。
计数与大小
计数操作对组内非空值的数量进行计数。相反,大小运算对所有值进行计数,包括 NaN 值。当处理包含缺失值的数据集时,这种差异变得很明显。
例如,考虑以下 DataFrame:
df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})
如果我们按列“a”分组并将计数应用于列“b” ':
print(df.groupby(['a'])['b'].count())
我们得到以下输出:
a 0 2 1 1 2 2 Name: b, dtype: int64
这表明有组 0 的两个非空值,组 1 的一个,组 2 的两个非空值。
另一方面,如果我们使用大小:
print(df.groupby(['a'])['b'].size())
我们获得:
a 0 2 1 1 2 3 dtype: int64
在这种情况下,结果包括第 2 组中的 NaN 值,表明 size 占了所有
因此,根据特定上下文和所需分析在数量和大小之间进行选择变得至关重要。如果您希望从计数中排除空值,请使用 count。如果您需要考虑所有值,无论它们是否存在,请使用大小。
以上是Pandas GroupBy:什么时候应该使用 `count()` 和 `size()`?的详细内容。更多信息请关注PHP中文网其他相关文章!