데이터 작업 시 특정 기준에 따라 데이터를 요약하고 분석할 수 있는 것이 유용한 경우가 많습니다. 그룹화 기준. 데이터 조작 및 분석을 위한 강력한 Python 라이브러리인 Pandas는 GroupBy 기능을 통해 이를 수행하는 편리한 방법을 제공합니다.
각 그룹 내의 행 수를 얻으려면 .size를 활용하세요. Series를 반환하는 () 메서드:
df.groupby(['col1','col2']).size()
이를 DataFrame 형식으로 변환하려면, 고용:
df.groupby(['col1', 'col2']).size().reset_index(name='counts')
또는 각 그룹의 행 수 및 기타 통계를 계산하기 위해 다음 접근 방식을 사용할 수 있습니다.
df.groupby(['col1', 'col2'])[['col3', 'col4']].agg({ 'col3': ['mean', 'count'], 'col4': ['median', 'min', 'count'] })
col1부터 col4까지의 열이 있는 df라는 데이터 프레임이 있습니다. 설명을 위해 그룹당 행 수를 계산해 보겠습니다.
df.groupby(['col1', 'col2']).size()
출력에는 col1 및 col2 값의 각 고유 조합에 있는 행 수가 표시됩니다.
이러한 수를 열을 DataFrame에 추가하면 .reset_index(name='counts')를 활용할 수 있습니다. 메서드:
df.groupby(['col1', 'col2']).size().reset_index(name='counts')
그룹화된 데이터에 대한 여러 통계를 계산하려면 agg() 메서드를 사용할 수 있습니다. 예를 들어 col3의 평균 및 개수와 col4의 중앙값, 최소값 및 개수를 계산하려면 다음을 사용합니다.
df.groupby(['col1', 'col2']).agg({ 'col3': ['mean', 'count'], 'col4': ['median', 'min', 'count'] })
이렇게 하면 col1의 각 고유 조합에 대해 요청된 통계가 포함된 DataFrame이 반환됩니다. 및 col2 값.
Pandas GroupBy는 특정 기준에 따라 데이터를 분석하는 강력한 도구입니다. 적절한 방법과 집계를 활용하면 그룹별 통계를 효율적으로 확보하여 통찰력을 얻고 데이터를 더욱 철저하게 이해할 수 있습니다.
위 내용은 GroupBy를 사용하여 Pandas에서 그룹별 통계를 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!