コミュニティ学ぶツールライブラリレジャー

日本語

ホームページ > バックエンド開発 > Python チュートリアル > Pandas DataFrame 内のすべての重複行を特定する方法は?

Pandas DataFrame 内のすべての重複行を特定する方法は?

Barbara Streisand

リリース： 2024-10-25 15:15:02

オリジナル

1110 人が閲覧しました

How to Identify All Duplicate Rows in a Pandas DataFrame?

Python で Pandas を使用してすべての重複アイテムのリストを取得するにはどうすればよいですか?

問題:

Pandas DataFrame には重複行が含まれていますが、duplicated() メソッドを使用すると、最初の重複インスタンスのみが返されます。手動で比較するために、重複した行がすべて含まれる包括的なリストが必要です。

解決策 1: 重複 ID を持つ行を分離する

Pandas を pd としてインポートします。
データを DataFrame df に読み取ります。
ID 列を別のシリーズ ID に抽出します。
ID 値が次の重複 ID のいずれかに一致するかどうかに基づいて df をフィルターします。 ids[ids.duplicated()]:

<code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>

ログイン後にコピー

このメソッドはすべての重複行を効果的に取得しますが、出力には重複した ID 行が作成されます。

解決策 2 : ID によるグループ化と重複のフィルター

df で groupby("ID") を使用して ID 値で行をグループ化します。
結果のグループのみを保持するようにフィルターします。複数の行を持つもの:

<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>

ログイン後にコピー

このアプローチにより、冗長な ID 行のない合理化された出力が得られます。

以上がPandas DataFrame 内のすべての重複行を特定する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース：php.cn

前の記事：Python でテキストファイルが空かどうかを確認するにはどうすればよいですか? 次の記事：## Flatten 対 Ravel: 各 Numpy 関数はいつ使用する必要がありますか?

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

最新の問題

function_exists() はカスタム関数を決定できません Function test () {return true;} if (function_exists ('test')) {echo "テストは関数です";

から 2024-04-29 11:01:01

0

3

2311

Google Chromeのモバイル版を表示する方法こんにちは、先生、Google Chrome をモバイル版に変更するにはどうすればよいですか?

から 2024-04-23 00:22:19

0

11

2445

子ウィンドウは親ウィンドウを操作しますが、出力は応答しません。最初の 2 つの文は実行可能ですが、最後の文は実装できません。

から 2024-04-19 15:37:47

0

1

2062

親ウィンドウには出力がありません document.onclick = function(){ window.opener.document.write('私は子ウィンドウの出力です');

から 2024-04-18 23:52:34

0

1

1949

CSS マインドマッピングに関するコースウェアはどこにありますか? コースウェア

から 2024-04-16 10:10:18

0

0

2012

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート