Comment supprimer les colonnes en double dans Pandas
Lorsque vous travaillez avec des blocs de données dans Pandas, des colonnes en double peuvent survenir, entraînant un encombrement et des erreurs potentielles . Pour résoudre ce problème, il est essentiel de savoir comment supprimer efficacement les colonnes en double.
Pour supprimer les colonnes en double basées uniquement sur les noms de colonnes, l'extrait de code suivant peut être utilisé :
<code class="python">df = df.loc[:,~df.columns.duplicated()].copy()</code>
Cette méthode vérifie la duplication de chaque nom de colonne et ne conserve que les noms uniques.
Cependant, si l'objectif est de supprimer les colonnes en double en fonction de leurs valeurs, une méthode différente une approche est nécessaire. Une méthode efficace consiste à appliquer une fonction lambda à chaque colonne pour déterminer si elle contient des valeurs en double :
<code class="python">df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()</code>
Cette technique vérifie la duplication de chaque valeur de colonne et supprime toute colonne contenant des valeurs entièrement dupliquées.
Notez que cette approche peut ne pas convenir à tous les ensembles de données, car elle peut ne pas produire le résultat souhaité dans certains cas. Par conséquent, la prudence est de mise lors de la mise en œuvre de cette méthode.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!