Wie kann ich zusätzliche Spalten beibehalten, während ich Groupby-Vorgänge in Pandas durchführe?-Python-Tutorial-php.cn

Wie kann ich zusätzliche Spalten beibehalten, während ich Groupby-Vorgänge in Pandas durchführe?

Barbara Streisand

Freigeben： 2024-10-25 06:13:29

Original

534 Leute haben es durchsucht

How Can I Keep Additional Columns While Performing Groupby Operations in Pandas?

Beibehalten zusätzlicher Spalten während Groupby-Vorgängen

Beim Durchführen von Groupby-Vorgängen mit Pandas ist es oft wünschenswert, zusätzliche Spalten beim Aggregieren eines bestimmten Elements beizubehalten Spalte. Dies ermöglicht eine effiziente Datenmanipulation, ohne dass zusätzliche Verknüpfungen oder Manipulationen erforderlich sind.

Betrachten Sie das gegebene Beispiel, in dem Sie Zeilen mit Mindestwerten für die Spalte „diff“ entfernen möchten, während andere Spalten wie „otherstuff“ erhalten bleiben ." Standardmäßig löscht Pandas die zusätzlichen Spalten, wenn Groupby- und Aggregationsfunktionen wie min() verwendet werden.

Um dieses Problem zu lösen, gibt es zwei effektive Ansätze:

Methode 1: Verwendung von idxmin () zum Identifizieren von Zeilenindizes

idxmin() gibt die Indizes von Zeilen zurück, die den Mindestwert einer angegebenen Spalte enthalten. Mithilfe dieser Funktion können Sie nur die Zeilen auswählen, die die Bedingung erfüllen. Der folgende Code demonstriert diesen Ansatz:

<code class="python">df.loc[df.groupby("item")["diff"].idxmin()]</code>

Nach dem Login kopieren

Methode 2: Sortieren und Auswählen des ersten Elements

Eine andere Methode beinhaltet das Sortieren des Datenrahmens nach der Spalte „diff“ und Auswahl des ersten Elements jeder Gruppe. Dadurch wird sichergestellt, dass Sie die Zeile mit dem minimalen „Diff“-Wert erhalten, während die anderen Spalten beibehalten werden. Der folgende Code veranschaulicht diese Methode:

<code class="python">df.sort_values("diff").groupby("item", as_index=False).first()</code>

Nach dem Login kopieren

Bei beiden Ansätzen ist das Ergebnis ein Datenrahmen mit nur den Zeilen, in denen „diff“ seinen Mindestwert hat, während die Spalte „otherstuff“ erhalten bleibt. Die Zeilenindizes können zwischen den beiden Methoden unterschiedlich sein, der Inhalt bleibt jedoch derselbe.

Das obige ist der detaillierte Inhalt vonWie kann ich zusätzliche Spalten beibehalten, während ich Groupby-Vorgänge in Pandas durchführe?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!