与 Series groupby 对象不同,使用字典将多个函数应用于 DataFrame groupby 对象并不简单。但是,有一些有效的方法可以使用以下方法来实现此目的:
使用 apply 方法
如果所需的函数在各个列上运行,则利用 apply 方法是一个合适的选择。 apply 方法允许传递将整个组(DataFrame)转换为另一个对象的函数。例如:
grouped = df.groupby('group') aggregated = grouped.apply(lambda x: pd.Series({ 'a_sum': x['a'].sum(), 'a_max': x['a'].max(), 'b_mean': x['b'].mean(), }))
此方法有效地聚合多个列并返回具有所需列的 DataFrame。
从 apply 返回一个系列
当处理需要交互的多个列时,不能使用 agg 方法,因为它隐式地将 Series 传递给聚合函数。相反,可以创建一个返回 Series 的自定义函数。例如:
def aggregate_group(x): return pd.Series({ 'a_sum': x['a'].sum(), 'b_mean': x['b'].mean(), 'c_d_prod': (x['c'] * x['d']).sum() }) grouped = df.groupby('group') result = grouped.apply(aggregate_group)
此方法允许将多个函数应用于多个分组列并在一个步骤中返回结果。
自定义函数名称
如果需要,可以使用 __name__ 属性为函数分配自定义名称。只需在定义函数后将 __name__ 设置为所需的名称,这将提高生成列的清晰度。
值得注意的是,与上述方法相比,使用循环迭代 groupby 对象通常效率较低。 Pandas 针对矢量化操作进行了优化,使这些内置方法成为高效组级分析的首选方法。
以上是如何有效地将多个函数应用于 Pandas 中的分组 DataFrame 列?的详细内容。更多信息请关注PHP中文网其他相关文章!