여러 그룹화된 열에 여러 함수를 적용하는 방법
Pandas의 Groupby 작업을 사용하면 특정 열이나 키를 기반으로 데이터를 집계할 수 있습니다. 그러나 복잡한 데이터세트로 작업할 때는 그룹화된 데이터 내의 서로 다른 열에 대해 여러 작업을 수행해야 할 수도 있습니다.
시리즈 그룹별 사전 사용
Series groupby 객체의 경우 사전을 사용하여 아래와 같이 여러 함수와 출력 열 이름을 지정할 수 있습니다.
grouped['D'].agg({'result1' : np.sum, .....: 'result2' : np.mean})
이것은 그러나 이 접근 방식은 사전 키가 함수 적용을 위한 열 이름을 나타낼 것으로 예상하기 때문에 DataFrame groupby 객체에는 작동하지 않습니다.
Apply를 사용한 사용자 정의 함수
이 제한 사항으로 인해 DataFrame을 적용된 함수에 암시적으로 전달하는 Apply 메서드를 활용할 수 있습니다. 사용자 정의 함수를 정의하고 시리즈 또는 MultiIndex 시리즈를 반환하면 각 그룹 내의 여러 열에 대해 여러 작업을 수행할 수 있습니다.
시리즈 반환:
def f(x): d = {} d['a_sum'] = x['a'].sum() d['a_max'] = x['a'].max() d['b_mean'] = x['b'].mean() d['c_d_prodsum'] = (x['c'] * x['d']).sum() return pd.Series(d, index=['a_sum', 'a_max', 'b_mean', 'c_d_prodsum']) df.groupby('group').apply(f)
MultiIndex를 사용하여 시리즈 반환:
def f_mi(x): d = [] d.append(x['a'].sum()) d.append(x['a'].max()) d.append(x['b'].mean()) d.append((x['c'] * x['d']).sum()) return pd.Series(d, index=[['a', 'a', 'b', 'c_d'], ['sum', 'max', 'mean', 'prodsum']]) df.groupby('group').apply(f_mi)
이 접근 방식 그룹화된 데이터에 대해 복잡한 집계를 수행하는 유연한 방법을 제공하므로 각 그룹 내의 여러 열에 대해 여러 작업을 수행할 수 있습니다.
위 내용은 Pandas GroupBy의 여러 열에 여러 함수를 적용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!