Pandas의 크기와 개수의 구별 이해
데이터 조작에는 Pandas의 그룹별 기능을 활용하여 특정 기준에 따라 데이터를 집계하는 경우가 많습니다. 일반적으로 사용되는 두 가지 집계 함수인 개수와 크기는 그룹화된 데이터에 대한 다양한 통찰력을 제공합니다.
groupby("x").count 및 groupby("x").size
개수와 크기의 근본적인 차이점은 결측값 처리에 있습니다. count는 누락된 값(예: NaN 또는 None)을 제외하고 그룹 내 null이 아닌 값의 수를 계산합니다. 반면에 크기는 누락된 값이 포함되어 있는지 여부에 관계없이 그룹의 총 관측치 수를 계산합니다.
예
다음 DataFrame을 고려하세요.
df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})
개수와 크기를 이용하여 다음:
df.groupby(['a'])['b'].count() # Output: # a # 0 2 # 1 1 # 2 2 # Name: b, dtype: int64 df.groupby(['a'])['b'].size() # Output: # a # 0 2 # 1 1 # 2 3 # dtype: int64
보시다시피 count는 그룹 2의 누락된 값을 제외하므로 해당 그룹의 개수는 2가 됩니다. 이와 대조적으로 크기에는 누락된 값이 포함되어 총 개수가 3이 됩니다. 이러한 구별은 누락된 데이터를 처리할 때 이러한 함수의 동작을 이해하는 것이 중요함을 강조합니다.
위 내용은 Pandas GroupBy: `count()`와 `size()`를 언제 사용해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!