ホームページ > バックエンド開発 > Python チュートリアル > Pandas DataFrame 内のすべての重複行を特定する方法は?

Pandas DataFrame 内のすべての重複行を特定する方法は?

Barbara Streisand
リリース: 2024-10-25 15:15:02
オリジナル
1110 人が閲覧しました

How to Identify All Duplicate Rows in a Pandas DataFrame?

Python で Pandas を使用してすべての重複アイテムのリストを取得するにはどうすればよいですか?

問題:

Pandas DataFrame には重複行が含まれていますが、duplicated() メソッドを使用すると、最初の重複インスタンスのみが返されます。手動で比較するために、重複した行がすべて含まれる包括的なリストが必要です。

解決策 1: 重複 ID を持つ行を分離する

  1. Pandas を pd としてインポートします。
  2. データを DataFrame df に読み取ります。
  3. ID 列を別のシリーズ ID に抽出します。
  4. ID 値が次の重複 ID のいずれかに一致するかどうかに基づいて df をフィルターします。 ids[ids.duplicated()]:
<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
ログイン後にコピー

このメソッドはすべての重複行を効果的に取得しますが、出力には重複した ID 行が作成されます。

解決策 2 : ID によるグループ化と重複のフィルター

  1. df で groupby("ID") を使用して ID 値で行をグループ化します。
  2. 結果のグループのみを保持するようにフィルターします。複数の行を持つもの:
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
ログイン後にコピー

このアプローチにより、冗長な ID 行のない合理化された出力が得られます。

以上がPandas DataFrame 内のすべての重複行を特定する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート