Python Pandas의 여러 열에서 중복 행 삭제
pandas drop_duplicates 함수는 데이터 정리를 위한 귀중한 도구인 DataFrame에서 중복 행을 제거합니다. . 이 기능을 확장하려면 고유성을 확인할 열을 지정할 수 있습니다.
예를 들어 다음 DataFrame을 고려해 보세요.
A B C 0 foo 0 A 1 foo 1 A 2 foo 1 B 3 bar 1 A
열에서 동일한 값을 가진 행을 제거하려고 한다고 가정해 보겠습니다. 'A'와 'C' 이 경우 행 0과 1이 제거됩니다.
이전에는 이 작업에 수동 필터링이나 복잡한 작업이 필요했습니다. 그러나 pandas의 향상된 drop_duplicates 기능을 사용하면 이제 매우 쉽습니다. keep 매개변수를 도입하면 중복 항목을 처리하는 방법을 제어할 수 있습니다.
특정 열과 일치하는 행을 삭제하려면 subset 매개변수를 사용하세요. keep을 False로 설정하면 pandas에게 모든 중복 행을 제거하도록 지시합니다.
import pandas as pd df = pd.DataFrame({"A":["foo", "foo", "foo", "bar"], "B":[0,1,1,1], "C":["A","A","B","A"]}) df.drop_duplicates(subset=['A', 'C'], keep=False)
출력:
A B C 2 foo 1 B 3 bar 1 A
보시다시피 행 0과 1이 성공적으로 제거되고 행만 남습니다. 'A' 및 'C' 열의 값을 기준으로 고유한 행
위 내용은 Pandas의 특정 열에서 중복 행을 효율적으로 제거하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!