Pandas GroupBy: `count()`와 `size()`를 언제 사용해야 합니까?-파이썬 튜토리얼-php.cn

Pandas GroupBy: `count()`와 `size()`를 언제 사용해야 합니까?

Barbara Streisand

풀어 주다： 2024-11-28 12:57:11

원래의

753명이 탐색했습니다.

Pandas GroupBy: When to Use `count()` vs. `size()`?

Pandas의 크기와 개수의 구별 이해

데이터 조작에는 Pandas의 그룹별 기능을 활용하여 특정 기준에 따라 데이터를 집계하는 경우가 많습니다. 일반적으로 사용되는 두 가지 집계 함수인 개수와 크기는 그룹화된 데이터에 대한 다양한 통찰력을 제공합니다.

groupby("x").count 및 groupby("x").size

개수와 크기의 근본적인 차이점은 결측값 처리에 있습니다. count는 누락된 값(예: NaN 또는 None)을 제외하고 그룹 내 null이 아닌 값의 수를 계산합니다. 반면에 크기는 누락된 값이 포함되어 있는지 여부에 관계없이 그룹의 총 관측치 수를 계산합니다.

예

다음 DataFrame을 고려하세요.

df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})

로그인 후 복사

개수와 크기를 이용하여 다음:

df.groupby(['a'])['b'].count()

# Output:
# a  
# 0    2
# 1    1
# 2    2
# Name: b, dtype: int64

df.groupby(['a'])['b'].size()

# Output:
# a  
# 0    2
# 1    1
# 2    3
# dtype: int64

로그인 후 복사

보시다시피 count는 그룹 2의 누락된 값을 제외하므로 해당 그룹의 개수는 2가 됩니다. 이와 대조적으로 크기에는 누락된 값이 포함되어 총 개수가 3이 됩니다. 이러한 구별은 누락된 데이터를 처리할 때 이러한 함수의 동작을 이해하는 것이 중요함을 강조합니다.

위 내용은 Pandas GroupBy: `count()`와 `size()`를 언제 사용해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!