Pandas GroupBy를 사용하여 Python에서 그룹별 통계를 계산하는 방법은 무엇입니까?-파이썬 튜토리얼-php.cn

Pandas GroupBy를 사용하여 Python에서 그룹별 통계를 계산하는 방법은 무엇입니까?

Barbara Streisand

풀어 주다： 2024-12-21 21:18:04

원래의

772명이 탐색했습니다.

How Can Pandas GroupBy Be Used to Calculate Group-Wise Statistics in Python?

Pandas GroupBy를 사용하여 그룹별 통계 계산

소개

데이터 작업 시 여러 그룹의 통계를 분석하고 비교하는 것이 바람직한 경우가 많습니다. 데이터 조작을 위한 유명한 Python 라이브러리인 Pandas는 이러한 작업을 손쉽게 수행할 수 있는 GroupBy 기능을 제공합니다.

그룹별 행 개수 가져오기

각 그룹의 행 개수를 가져오는 가장 간단한 방법은 다음을 사용하는 것입니다. .size() 메소드. 이 메소드는 그룹별 개수를 포함하는 시리즈를 반환합니다.

df.groupby(['col1','col2']).size()

로그인 후 복사

표 형식으로 개수를 검색하려면(즉, "counts" 열이 있는 DataFrame으로):

df.groupby(['col1', 'col2']).size().reset_index(name='counts')

로그인 후 복사

여러 그룹별 통계 계산

여러 통계를 계산하려면 사전과 함께 .agg() 메서드를 사용하세요. 키는 계산할 열을 지정하고 값은 원하는 집계 목록(예: '평균', '중앙값', '개수')입니다.

df.groupby(['col1', 'col2']).agg({
    'col3': ['mean', 'count'],
    'col4': ['median', 'min', 'count']
})

로그인 후 복사

데이터 출력 사용자 정의

출력을 더 효과적으로 제어하기 위해 개별 집계를 결합할 수 있습니다.

counts = df.groupby(['col1', 'col2']).size().to_frame(name='counts')
counts.join(gb.agg({'col3': 'mean'}).rename(columns={'col3': 'col3_mean'})) \
    .join(gb.agg({'col4': 'median'}).rename(columns={'col4': 'col4_median'})) \
    .join(gb.agg({'col4': 'min'}).rename(columns={'col4': 'col4_min'})) \
    .reset_index()

로그인 후 복사

이렇게 하면 보다 구조화된 결과가 생성됩니다. 중첩되지 않은 열 레이블이 있는 DataFrame.