Comment diviser des chaînes séparées par des virgules dans un DataFrame Pandas en lignes distinctes ?-Tutoriel Python-php.cn

Comment diviser des chaînes séparées par des virgules dans un DataFrame Pandas en lignes distinctes ?

Linda Hamilton

Libérer： 2024-12-25 21:50:14

original

838 Les gens l'ont consulté

How to Split Comma-Separated Strings in a Pandas DataFrame into Separate Rows?

Diviser les entrées de chaîne séparées par des virgules dans un DataFrame Pandas pour créer des lignes séparées

Problème :
Nous avoir un Pandas DataFrame contenant des chaînes avec des valeurs séparées par des virgules dans une colonne. Nous souhaitons diviser chaque entrée CSV et créer une nouvelle ligne pour chaque valeur unique. Par exemple, "a,b,c" devrait devenir "a", "b", "c".

Solution :

Option 1 : DataFrame.explode() (Pandas 0.25.0)

La méthode DataFrame.explode() est spécifiquement conçue à cet effet. Cela nous permet de diviser une colonne de type liste (dans ce cas, nos chaînes séparées par des virgules) en lignes individuelles.

In [1]: df.explode('var1')
Out[1]:
  var1  var2 var3
0    a     1   XX
1    b     1   XX
2    c     1   XX
3    d     2   ZZ
4    e     2   ZZ
5    f     2   ZZ
6    x     2   ZZ
7    y     2   ZZ

Copier après la connexion

Option 2 : fonction vectorisée personnalisée

Si DataFrame.explode() n'est pas disponible ou si nous avons besoin de plus de personnalisation, nous pouvons créer notre propre vecteur fonction :

import numpy as np

def explode(df, lst_cols, fill_value='', preserve_index=False):
    # Convert `lst_cols` to a list if it is a string.
    if isinstance(lst_cols, str):
        lst_cols = [lst_cols]

    # Calculate the lengths of each list in `lst_cols`.
    lens = df[lst_cols[0]].str.len()

    # Create a new index based on the lengths of the lists.
    idx = np.repeat(df.index.values, lens)

    # Create a new DataFrame with the exploded columns.
    exp_df = pd.DataFrame({
        col: np.repeat(df[col].values, lens)
        for col in df.columns.difference(lst_cols)
    }, index=idx).assign(**{
        col: np.concatenate(df.loc[lens > 0, col].values)
        for col in lst_cols
    })

    # Append rows with empty lists if necessary.
    if (lens == 0).any():
        exp_df = exp_df.append(df.loc[lens == 0, df.columns.difference(lst_cols)], sort=False).fillna(fill_value)

    # Revert the original index order and reset the index if requested.
    exp_df = exp_df.sort_index()
    if not preserve_index:
        exp_df = exp_df.reset_index(drop=True)

    return exp_df

Copier après la connexion

Exemple d'utilisation :

In [2]: explode(df, 'var1')
Out[2]:
  var1  var2 var3
0    a     1   XX
1    b     1   XX
2    c     1   XX
3    d     2   ZZ
4    e     2   ZZ
5    f     2   ZZ
6    x     2   ZZ
7    y     2   ZZ

Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!