열별로 중복 항목을 제거하고 최대값을 갖는 행을 유지하는 작업
데이터 프레임에서 중복 값을 발견하는 것은 어려울 수 있습니다. 해당 값이 가장 높은 행을 유지하는 것이 중요한 시나리오에서는 효과적인 기술을 사용하는 것이 필수적입니다.
이 문제를 해결하려면 열 A에 중복 항목이 있는 다음 데이터 프레임을 고려하세요.
A | B |
---|---|
1 | 10 |
1 | 20 |
2 | 30 |
2 | 40 |
3 | 10 |
목표는 A열에서 중복 항목을 제거하고 B열에 최대값이 있는 행을 유지하는 것입니다. 이상적으로 결과는 다음과 같아야 합니다. 이:
A | B |
---|---|
1 | 20 |
2 | 40 |
3 | 10 |
한 가지 접근 방식은 중복 항목을 제거하기 전에 데이터프레임을 정렬하는 것입니다.
df = df.sort_values(by='B', ascending=False) df.drop_duplicates(subset='A', keep='first')
이 방법은 작동하지만 행을 오름차순으로 정렬하므로 최대값 유지를 보장하지 않습니다. . 이 제한을 극복하기 위해 다음 접근 방식을 사용할 수 있습니다.
df.groupby('A', group_keys=False).apply(lambda x: x.loc[x.B.idxmax()])
이 작업은 데이터 프레임을 A 열로 그룹화하고 B 열의 최대값을 가진 인덱스를 찾아 해당 행을 선택합니다. 그 결과 중복 항목이 제거되고 최대값이 보존된 업데이트된 데이터프레임이 생성됩니다.
위 내용은 열별로 중복 항목을 제거하고 최대값을 가진 행을 유지하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!