如何将 Pandas DataFrame 列分解为多行？-Python教程-PHP中文网

如何将 Pandas DataFrame 列分解为多行？

Susan Sarandon

发布： 2024-12-25 09:46:16

原创

602 人浏览过

How to Explode a Pandas DataFrame Column into Multiple Rows?

如何将 Pandas DataFrame 中的列取消嵌套（分解）为多行

在 Pandas 中，分解列涉及将数据从单行转换为多行。当您有一列包含列表类型单元格并且需要将它们拆分为单独的行时，这非常有用。

考虑一个包含列表“B”列的 DataFrame：

df = pd.DataFrame({'A': [1, 2], 'B': [[1, 2], [1, 2]]})

Output:

   A       B
0  1  [1, 2]
1  2  [1, 2]

登录后复制

到爆炸这列“B”，我们提出了各种方法：

方法 0 [Pandas >= 0.25]
从 Pandas 0.25 开始，如果只需要爆炸一列，请使用 pandas.DataFrame.explode 函数：

df.explode('B')

Output:

   A  B
0  1  1
1  1  2
3  2  1
4  2  2

登录后复制

方法 1
应用pd.Series（容易理解，但不推荐性能）：

df.set_index('A').B.apply(pd.Series).stack().reset_index(level=0).rename(columns={0:'B'})

登录后复制

方法 2
在 DataFrame 构造函数中使用重复：

df = pd.DataFrame({'A': df.A.repeat(df.B.str.len()), 'B': np.concatenate(df.B.values)})

登录后复制

方法 3
Re -创建list:

pd.DataFrame([[x] + [z] for x, y in df.values for z in y], columns=df.columns)

登录后复制

方法 4
使用 reindex 或 loc:

df.reindex(df.index.repeat(df.B.str.len())).assign(B=np.concatenate(df.B.values))

登录后复制

方法 5
当列表仅包含唯一的值：

from collections import ChainMap
d = dict(ChainMap(*map(dict.fromkeys, df['B'], df['A'])))
pd.DataFrame(list(d.items()), columns=df.columns[::-1])

登录后复制

方法 6
使用 NumPy 实现高性能：

newvalues = np.dstack((np.repeat(df.A.values, list(map(len, df.B.values))), np.concatenate(df.B.values)))
pd.DataFrame(data=newvalues[0], columns=df.columns)

登录后复制

方法 7
使用 itertools循环和chain:

from itertools import cycle, chain
l = df.values.tolist()
l1 = [list(zip([x[0]], cycle(x[1])) if len([x[0]]) > len(x[1]) else list(zip(cycle([x[0]]), x[1]))) for x in l]
pd.DataFrame(list(chain.from_iterable(l1)), columns=df.columns)

登录后复制

泛化为多列
要处理多个爆炸列，可以定义一个函数：

def unnesting(df, explode):
    idx = df.index.repeat(df[explode[0]].str.len())
    df1 = pd.concat([
        pd.DataFrame({x: np.concatenate(df[x].values)}) for x in explode], axis=1)
    df1.index = idx

    return df1.join(df.drop(explode, 1), how='left')

unnesting(df, ['B', 'C'])

登录后复制

Column-明智的取消嵌套
要水平扩展列表，请使用 pd.DataFrame构造函数：

df.join(pd.DataFrame(df.B.tolist(), index=df.index).add_prefix('B_'))

登录后复制

以上是如何将 Pandas DataFrame 列分解为多行？的详细内容。更多信息请关注PHP中文网其他相关文章！