Maison > développement back-end > Tutoriel Python > Comment exploser une colonne Pandas DataFrame en plusieurs lignes ?

Comment exploser une colonne Pandas DataFrame en plusieurs lignes ?

Susan Sarandon
Libérer: 2024-12-25 09:46:16
original
634 Les gens l'ont consulté

How to Explode a Pandas DataFrame Column into Multiple Rows?

Comment dissocier (exploser) une colonne dans un DataFrame Pandas, en plusieurs lignes

Dans Pandas, l'éclatement d'une colonne implique de transformer les données d'une seule ligne en plusieurs lignes . Ceci est utile lorsque vous avez une colonne contenant des cellules de type liste et que vous devez les diviser en lignes individuelles.

Considérez un DataFrame avec une colonne « B » contenant des listes :

df = pd.DataFrame({'A': [1, 2], 'B': [[1, 2], [1, 2]]})

Output:

   A       B
0  1  [1, 2]
1  2  [1, 2]
Copier après la connexion

Pour Explosez cette colonne 'B', nous présentons différentes méthodes :

Méthode 0 [Pandas >= 0.25]
À partir de Pandas 0.25, si vous devez exploser une seule colonne, utilisez la fonction pandas.DataFrame.explode :

df.explode('B')

Output:

   A  B
0  1  1
1  1  2
3  2  1
4  2  2
Copier après la connexion

Méthode 1
appliquer pd.Series (facile à comprendre mais non recommandé pour performances):

df.set_index('A').B.apply(pd.Series).stack().reset_index(level=0).rename(columns={0:'B'})
Copier après la connexion

Méthode 2
Utilisation de la répétition avec le constructeur DataFrame :

df = pd.DataFrame({'A': df.A.repeat(df.B.str.len()), 'B': np.concatenate(df.B.values)})
Copier après la connexion

Méthode 3
Re -créer la liste :

pd.DataFrame([[x] + [z] for x, y in df.values for z in y], columns=df.columns)
Copier après la connexion

Méthode 4
Utilisation de réindexation ou loc :

df.reindex(df.index.repeat(df.B.str.len())).assign(B=np.concatenate(df.B.values))
Copier après la connexion

Méthode 5
Lorsque la liste ne contient que des valeurs uniques :

from collections import ChainMap
d = dict(ChainMap(*map(dict.fromkeys, df['B'], df['A'])))
pd.DataFrame(list(d.items()), columns=df.columns[::-1])
Copier après la connexion

Méthode 6
Utiliser NumPy pour un niveau élevé performances :

newvalues = np.dstack((np.repeat(df.A.values, list(map(len, df.B.values))), np.concatenate(df.B.values)))
pd.DataFrame(data=newvalues[0], columns=df.columns)
Copier après la connexion

Méthode 7
Utilisation du cycle et de la chaîne itertools :

from itertools import cycle, chain
l = df.values.tolist()
l1 = [list(zip([x[0]], cycle(x[1])) if len([x[0]]) > len(x[1]) else list(zip(cycle([x[0]]), x[1]))) for x in l]
pd.DataFrame(list(chain.from_iterable(l1)), columns=df.columns)
Copier après la connexion

Généralisation à plusieurs colonnes
Pour gérer plusieurs colonnes éclatées, une fonction peut être défini :

def unnesting(df, explode):
    idx = df.index.repeat(df[explode[0]].str.len())
    df1 = pd.concat([
        pd.DataFrame({x: np.concatenate(df[x].values)}) for x in explode], axis=1)
    df1.index = idx

    return df1.join(df.drop(explode, 1), how='left')

unnesting(df, ['B', 'C'])
Copier après la connexion

Column-Wise Unnesting
Pour développer une liste horizontalement, utilisez le constructeur pd.DataFrame :

df.join(pd.DataFrame(df.B.tolist(), index=df.index).add_prefix('B_'))
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal