Python Pandas の複数の列にわたる重複行の削除
パンダの Drop_duplicates 関数は、データ クレンジングのための貴重なツールである DataFrame から重複行を削除します。 。この機能を拡張するには、一意性をチェックする列を指定できます。
たとえば、次の DataFrame について考えてみましょう。
A B C 0 foo 0 A 1 foo 1 A 2 foo 1 B 3 bar 1 A
列に同じ値を持つ行を削除するとします。 「A」と「C」。この場合、行 0 と行 1 は削除されます。
以前は、このタスクには手動のフィルタリングまたは複雑な操作が必要でした。ただし、pandas の強化された Drop_duplicates 関数を使用すると、それが簡単になりました。 keep パラメータの導入により、重複の処理方法を制御できるようになります。
特定の列に一致する行を削除するには、subset パラメータを使用します。 keep を False に設定すると、すべての重複行を削除するようにパンダに指示します:
import pandas as pd df = pd.DataFrame({"A":["foo", "foo", "foo", "bar"], "B":[0,1,1,1], "C":["A","A","B","A"]}) df.drop_duplicates(subset=['A', 'C'], keep=False)
出力:
A B C 2 foo 1 B 3 bar 1 A
ご覧のとおり、行 0 と 1 が正常に削除され、行 0 と 1 だけが残ります。列「A」および「C」の値に基づいて一意の行。
以上がPandas の特定の列にわたる重複行を効率的に削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。