> 백엔드 개발 > 파이썬 튜토리얼 > Pandas GroupBy: `count()`와 `size()`를 언제 사용해야 합니까?

Pandas GroupBy: `count()`와 `size()`를 언제 사용해야 합니까?

Barbara Streisand
풀어 주다: 2024-11-28 12:57:11
원래의
753명이 탐색했습니다.

Pandas GroupBy: When to Use `count()` vs. `size()`?

Pandas의 크기와 개수의 구별 이해

데이터 조작에는 Pandas의 그룹별 기능을 활용하여 특정 기준에 따라 데이터를 집계하는 경우가 많습니다. 일반적으로 사용되는 두 가지 집계 함수인 개수와 크기는 그룹화된 데이터에 대한 다양한 통찰력을 제공합니다.

groupby("x").count 및 groupby("x").size

개수와 크기의 근본적인 차이점은 결측값 처리에 있습니다. count는 누락된 값(예: NaN 또는 None)을 제외하고 그룹 내 null이 아닌 값의 수를 계산합니다. 반면에 크기는 누락된 값이 포함되어 있는지 여부에 관계없이 그룹의 총 관측치 수를 계산합니다.

다음 DataFrame을 고려하세요.

df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})
로그인 후 복사

개수와 크기를 이용하여 다음:

df.groupby(['a'])['b'].count()

# Output:
# a  
# 0    2
# 1    1
# 2    2
# Name: b, dtype: int64

df.groupby(['a'])['b'].size()

# Output:
# a  
# 0    2
# 1    1
# 2    3
# dtype: int64  
로그인 후 복사

보시다시피 count는 그룹 2의 누락된 값을 제외하므로 해당 그룹의 개수는 2가 됩니다. 이와 대조적으로 크기에는 누락된 값이 포함되어 총 개수가 3이 됩니다. 이러한 구별은 누락된 데이터를 처리할 때 이러한 함수의 동작을 이해하는 것이 중요함을 강조합니다.

위 내용은 Pandas GroupBy: `count()`와 `size()`를 언제 사용해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿