Création d'une nouvelle colonne basée sur les valeurs de plusieurs colonnes dans Pandas
Dans Pandas, il est possible de créer une nouvelle colonne basée sur le valeurs présentes dans plusieurs autres colonnes. Cette fonctionnalité est utile lors de l'application d'une logique complexe ou de fonctions personnalisées pour dériver des informations significatives à partir des données.
À titre d'exemple illustratif, considérons la tâche consistant à créer une nouvelle colonne intitulée « race_label » en fonction des valeurs de six colonnes d'origine ethnique. : ERI_Hispanic, ERI_AmerInd_AKNatv, ERI_Asian, ERI_Black_Afr.Amer, ERI_HI_PacIsl et ERI_White. L'exigence est de classer les individus en fonction de leur race en utilisant les critères suivants :
Solution
Pour y parvenir , une fonction personnalisée et la fonction Pandas apply() sont utilisées.
Définir la personnalisation Fonction :
def label_race(row): if row['eri_hispanic'] == 1: return 'Hispanic' if row['eri_afr_amer'] + row['eri_asian'] + row['eri_hawaiian'] + row['eri_nat_amer'] + row['eri_white'] > 1: return 'Two Or More' if row['eri_nat_amer'] == 1: return 'A/I AK Native' if row['eri_asian'] == 1: return 'Asian' if row['eri_afr_amer'] == 1: return 'Black/AA' if row['eri_hawaiian'] == 1: return 'Haw/Pac Isl.' if row['eri_white'] == 1: return 'White' return 'Other'
Appliquer la fonction personnalisée à l'aide de Pandas :
df['race_label'] = df.apply(label_race, axis=1)
Cela permettra créez une nouvelle colonne appelée "race_label" dans le dataframe Pandas, qui contient la classification appropriée pour chaque ligne en fonction de l'entrée critères.
En combinant la fonction personnalisée et la fonction Pandas apply(), nous pouvons créer une nouvelle colonne dérivée d'une logique complexe appliquée sur plusieurs colonnes, facilitant ainsi une analyse et une interprétation efficaces des données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!