了解 Pandas 中大小和数量之间的区别
数据操作通常涉及利用 Pandas 的 groupby 函数根据特定条件聚合数据。两个常用的聚合函数:count 和 size,为分组数据提供了不同的见解。
groupby("x").count 与 groupby("x").size
计数和大小之间的根本区别在于它们对缺失值的处理。 count 计算组内非空值的数量,不包括任何缺失值(例如 NaN 或 None)。另一方面,大小计算组中的观察总数,无论它们是否包含缺失值。
示例
考虑以下 DataFrame:
df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})
使用计数和尺寸,我们可以观察以下:
df.groupby(['a'])['b'].count() # Output: # a # 0 2 # 1 1 # 2 2 # Name: b, dtype: int64 df.groupby(['a'])['b'].size() # Output: # a # 0 2 # 1 1 # 2 3 # dtype: int64
如您所见,count 排除了第 2 组中的缺失值,导致该组的计数为 2。相反,大小包括缺失值,总计为 3。这种区别凸显了在处理缺失数据时理解这些函数的行为的重要性。
以上是Pandas GroupBy:何时使用'count()”与'size()”?的详细内容。更多信息请关注PHP中文网其他相关文章!