Pandas groupby:取得字串連線
使用其中一列包含字串的DataFrame 時,預設sum() 函數可能並不總是能提供期望的結果。在這種情況下,目標是連接每個群組的字串,這裡有一個全面的解釋和解決方案。
考慮以下DataFrame:
A B C 0 1 0.749065 This 1 2 0.301084 is 2 3 0.463468 a 3 4 0.643961 random 4 1 0.866521 string 5 2 0.120737 !
預設情況下,應用sum()到列「C」會產生以下輸出:
A 1 Thisstring 2 is! 3 a 4 random dtype: object
要取得為每個群組連接字串的所需輸出,有多種方法:
使用apply () 函數:
一種方法是將自訂函數應用於groupby對象。此函數可以連接每個組內的字串。
<code class="python">def f(x): return Series(dict(A = x['A'].sum(), B = x['B'].sum(), C = "{%s}" % ', '.join(x['C']))) df.groupby('A').apply(f)</code>
或:
您可以透過明確使用apply() 和lambda 函數來獲得相同的結果:
<code class="python">df.groupby('A')['C'].apply(lambda x: "{%s}" % ', '.join(x))</code>
應用自訂邏輯:
如果需要自訂,例如刪除空字串或套用特定分隔符,您可以在lambda 函數中實作自己的邏輯。
例如,要刪除空字串:
<code class="python">df.groupby('A')['C'].apply(lambda x: "{%s}" % ', '.join([c for c in x if c]))</code>
效能注意事項:
請注意,套用自訂函數可能比使用內建sum() 函數。因此,建議根據您的具體需求考慮效能影響。
以上是如何使用「groupby」連接 Pandas DataFrame 中群組內的字串?的詳細內容。更多資訊請關注PHP中文網其他相關文章!