여러 그룹화 및 평균을 사용한 그룹별 집계
Pandas에서는 여러 수준으로 그룹화된 데이터에 대해 집계를 수행하는 것이 일반적인 작업입니다. 다음 DataFrame을 고려하십시오.
cluster org time 1 a 8 1 a 6 2 h 34 1 c 23 2 d 74 3 w 6
일반적인 작업은 "cluster" 및 "org"와 같은 여러 변수로 정의된 그룹별로 "time"과 같은 지정된 열의 평균을 계산하는 것입니다.
해결책 1: 클러스터 그룹에만 대한 평균
"클러스터"로만 그룹화된 "시간"의 평균을 계산하려면 다음 코드를 사용할 수 있습니다.
df.groupby(['cluster']).mean()
결과:
time cluster 1 12.333333 2 54.000000 3 6.000000
해결 방법 2: 그룹 조합의 평균
계산하려는 경우 "클러스터"와 "org"의 각 조합에 대해 "시간"의 평균을 사용할 수 있습니다.
df.groupby(['cluster', 'org']).mean()
결과:
time cluster org 1 a 438886 c 23 2 d 9874 h 34 3 w 6
해결책 3: 그룹화에 대한 중첩 평균
중첩 평균을 수행하려면 먼저 "클러스터"와 "org" 조합에 대한 평균을 구한 다음 "클러스터" 그룹에 대한 평균을 구하고 다음을 사용하세요.
(df.groupby(['cluster', 'org'], as_index=False).mean() .groupby('cluster')['time'].mean())
결과:
cluster mean(time) 1 15 #=((8 + 6) / 2 + 23) / 2 2 54 #=(74 + 34) / 2 3 6
위 내용은 Pandas에서 여러 그룹으로 평균값을 계산하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!