열별로 중복 항목을 제거하고 최대값을 가진 행을 유지하는 방법은 무엇입니까?-파이썬 튜토리얼-php.cn

열별로 중복 항목을 제거하고 최대값을 가진 행을 유지하는 방법은 무엇입니까?

Mary-Kate Olsen

풀어 주다： 2024-11-16 11:35:03

원래의

236명이 탐색했습니다.

How to Remove Duplicates by Columns and Retain Rows with Maximum Values?

열별로 중복 항목을 제거하고 최대값을 갖는 행을 유지하는 작업

데이터 프레임에서 중복 값을 발견하는 것은 어려울 수 있습니다. 해당 값이 가장 높은 행을 유지하는 것이 중요한 시나리오에서는 효과적인 기술을 사용하는 것이 필수적입니다.

이 문제를 해결하려면 열 A에 중복 항목이 있는 다음 데이터 프레임을 고려하세요.

목표는 A열에서 중복 항목을 제거하고 B열에 최대값이 있는 행을 유지하는 것입니다. 이상적으로 결과는 다음과 같아야 합니다. 이:

한 가지 접근 방식은 중복 항목을 제거하기 전에 데이터프레임을 정렬하는 것입니다.

df = df.sort_values(by='B', ascending=False)
df.drop_duplicates(subset='A', keep='first')

로그인 후 복사

이 방법은 작동하지만 행을 오름차순으로 정렬하므로 최대값 유지를 보장하지 않습니다. . 이 제한을 극복하기 위해 다음 접근 방식을 사용할 수 있습니다.

df.groupby('A', group_keys=False).apply(lambda x: x.loc[x.B.idxmax()])

로그인 후 복사

이 작업은 데이터 프레임을 A 열로 그룹화하고 B 열의 최대값을 가진 인덱스를 찾아 해당 행을 선택합니다. 그 결과 중복 항목이 제거되고 최대값이 보존된 업데이트된 데이터프레임이 생성됩니다.

위 내용은 열별로 중복 항목을 제거하고 최대값을 가진 행을 유지하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!