> 백엔드 개발 > 파이썬 튜토리얼 > Pandas DataFrame에서 모든 중복 행을 식별하는 방법은 무엇입니까?

Pandas DataFrame에서 모든 중복 행을 식별하는 방법은 무엇입니까?

Barbara Streisand
풀어 주다: 2024-10-25 15:15:02
원래의
1109명이 탐색했습니다.

How to Identify All Duplicate Rows in a Pandas DataFrame?

Python에서 Pandas를 사용하여 모든 중복 항목 목록을 어떻게 얻나요?

문제:

Pandas DataFrame에 중복 행이 포함되어 있지만 Duplicated() 메서드를 사용하면 첫 번째 중복 인스턴스만 반환됩니다. 수동 비교를 위해 모든 중복 행 발생에 대한 포괄적인 목록이 필요합니다.

해결책 1: 중복 ID가 있는 행 격리

  1. Pandas를 pd로 가져오기
  2. 데이터를 DataFrame df로 읽습니다.
  3. ID 열을 별도의 시리즈 ID로 추출합니다.
  4. ID 값이 다음의 중복 ID와 일치하는지 여부에 따라 df를 필터링합니다. ids[ids.duplicated()]:
<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
로그인 후 복사

이 방법은 모든 중복 행을 효과적으로 검색하는 반면 출력에는 중복 ID 행이 생성됩니다.

해결 방법 2 : ID별로 그룹화하고 중복 항목 필터링

  1. df에서 groupby("ID")를 사용하여 ID 값별로 행을 그룹화합니다.
  2. 결과 그룹만 필터링하여 유지합니다. 행이 두 개 이상인 경우:
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
로그인 후 복사

이 접근 방식은 중복된 ID 행 없이 간소화된 출력을 생성합니다.

위 내용은 Pandas DataFrame에서 모든 중복 행을 식별하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿