Maison > développement back-end > Tutoriel Python > Comment diviser des chaînes séparées par des virgules dans un DataFrame Pandas en lignes distinctes ?

Comment diviser des chaînes séparées par des virgules dans un DataFrame Pandas en lignes distinctes ?

Linda Hamilton
Libérer: 2024-12-25 21:50:14
original
838 Les gens l'ont consulté

How to Split Comma-Separated Strings in a Pandas DataFrame into Separate Rows?

Diviser les entrées de chaîne séparées par des virgules dans un DataFrame Pandas pour créer des lignes séparées

Problème :
Nous avoir un Pandas DataFrame contenant des chaînes avec des valeurs séparées par des virgules dans une colonne. Nous souhaitons diviser chaque entrée CSV et créer une nouvelle ligne pour chaque valeur unique. Par exemple, "a,b,c" devrait devenir "a", "b", "c".

Solution :

Option 1 : DataFrame.explode() (Pandas 0.25.0)

La méthode DataFrame.explode() est spécifiquement conçue à cet effet. Cela nous permet de diviser une colonne de type liste (dans ce cas, nos chaînes séparées par des virgules) en lignes individuelles.

In [1]: df.explode('var1')
Out[1]:
  var1  var2 var3
0    a     1   XX
1    b     1   XX
2    c     1   XX
3    d     2   ZZ
4    e     2   ZZ
5    f     2   ZZ
6    x     2   ZZ
7    y     2   ZZ
Copier après la connexion

Option 2 : fonction vectorisée personnalisée

Si DataFrame.explode() n'est pas disponible ou si nous avons besoin de plus de personnalisation, nous pouvons créer notre propre vecteur fonction :

import numpy as np

def explode(df, lst_cols, fill_value='', preserve_index=False):
    # Convert `lst_cols` to a list if it is a string.
    if isinstance(lst_cols, str):
        lst_cols = [lst_cols]

    # Calculate the lengths of each list in `lst_cols`.
    lens = df[lst_cols[0]].str.len()

    # Create a new index based on the lengths of the lists.
    idx = np.repeat(df.index.values, lens)

    # Create a new DataFrame with the exploded columns.
    exp_df = pd.DataFrame({
        col: np.repeat(df[col].values, lens)
        for col in df.columns.difference(lst_cols)
    }, index=idx).assign(**{
        col: np.concatenate(df.loc[lens > 0, col].values)
        for col in lst_cols
    })

    # Append rows with empty lists if necessary.
    if (lens == 0).any():
        exp_df = exp_df.append(df.loc[lens == 0, df.columns.difference(lst_cols)], sort=False).fillna(fill_value)

    # Revert the original index order and reset the index if requested.
    exp_df = exp_df.sort_index()
    if not preserve_index:
        exp_df = exp_df.reset_index(drop=True)

    return exp_df
Copier après la connexion

Exemple d'utilisation :

In [2]: explode(df, 'var1')
Out[2]:
  var1  var2 var3
0    a     1   XX
1    b     1   XX
2    c     1   XX
3    d     2   ZZ
4    e     2   ZZ
5    f     2   ZZ
6    x     2   ZZ
7    y     2   ZZ
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal