Conserver d'autres colonnes lorsque GroupBy
Dans les dataframes Pandas, l'utilisation de groupby pour filtrer les lignes en fonction d'une colonne spécifique peut entraîner la perte d'autres colonnes dans la sortie. Ce problème survient lors de l'exécution d'opérations de groupe telles que la recherche de la valeur minimale d'une colonne et l'exclusion de lignes inférieures à un seuil.
Pour surmonter cette limitation et conserver d'autres colonnes lors du groupby, il existe quelques méthodes :
Méthode 1 : Utiliser idxmin()
idxmin() renvoie les indices des lignes avec la valeur minimale pour une colonne donnée. En utilisant cela, nous pouvons sélectionner les lignes spécifiques et conserver toutes leurs colonnes :
<code class="python">df_filtered = df.loc[df.groupby("item")["diff"].idxmin()]</code>
Méthode 2 : Tri et premier
Tri du dataframe par colonne à être filtré puis prendre le premier élément de chaque groupe préservera également les autres colonnes :
<code class="python">df_filtered = df.sort_values("diff").groupby("item", as_index=False).first()</code>
Les deux méthodes produisent le même résultat, comme le montre l'exemple ci-dessous :
<code class="python">df = pd.DataFrame({"item": [1, 1, 1, 2, 2, 2, 2, 3, 3], "diff": [2, 1, 3, -1, 1, 4, -6, 0, 2], "otherstuff": [1, 2, 7, 0, 3, 9, 2, 0, 9]}) # Method 1 df_filtered1 = df.loc[df.groupby("item")["diff"].idxmin()] # Method 2 df_filtered2 = df.sort_values("diff").groupby("item", as_index=False).first() print(df_filtered1) print(df_filtered2)</code>
Sortie :
item diff otherstuff 1 1 1 2 6 2 -6 2 7 3 0 0 item diff otherstuff 0 1 1 2 1 2 -6 2 2 3 0 0
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!