Apakah kaedah untuk deduplikasi panda Apakah kaedah untuk deduplikasi panda?-Tutorial Python-php.cn

Apakah kaedah untuk membuang pendua dalam panda?

百草

Lepaskan： 2023-11-22 11:55:17

asal

3789 orang telah melayarinya

Kaedah deduplikasi panda ialah: 1. Gunakan kaedah drop_duplicates() 2. Gunakan kaedah duplicated() 3. Gunakan kaedah unique() 4. Gunakan kaedah value_counts(). Pengenalan terperinci: 1. Gunakan kaedah drop_duplicates() untuk memadamkan baris pendua dalam bingkai data dan mengembalikan bingkai data baharu Ia boleh menetapkan parameter untuk mengawal cara melakukan penyahduplikasian, seperti menentukan susunan pengekalan dan penyahduplikasian selepas perbandingan masa lajur dan sebagainya.

Apakah kaedah untuk membuang pendua dalam panda?

Sistem pengendalian tutorial ini: sistem Windows 10, komputer DELL G3.

Pandas ialah perpustakaan analisis data Python yang berkuasa yang menyediakan pelbagai kaedah penyingkiran pendua. Berikut ialah kaedah biasa untuk operasi penduaan menggunakan Panda:

1 Gunakan kaedah drop_duplicates()

Kaedah drop_duplicates() digunakan untuk memadamkan baris pendua dalam bingkai data dan mengembalikan bingkai data baharu. Ia boleh menetapkan parameter untuk mengawal cara melakukan penyahduplikasian, seperti menentukan susunan pengekalan selepas penyahduplikasian, lajur perbandingan semasa penyahduplikasian, dsb.

Kod contoh:

import pandas as pd  
  
df = pd.DataFrame({&#39;A&#39;: [1, 2, 1, 2, 3], &#39;B&#39;: [4, 5, 6, 7, 8]})  
df_unique = df.drop_duplicates()  # 默认情况下，按行进行去重，返回新的数据框

Salin selepas log masuk

2. Gunakan kaedah pendua()

Kaedah pendua() digunakan untuk mencari baris pendua dalam bingkai data dan mengembalikan siri Boolean. Ia boleh menetapkan parameter untuk mengawal cara melakukan penyahduplikasian, seperti menentukan susunan pengekalan selepas penyahduplikasian, lajur perbandingan semasa penyahduplikasian, dsb.

Kod sampel:

import pandas as pd  
  
df = pd.DataFrame({&#39;A&#39;: [1, 2, 1, 2, 3], &#39;B&#39;: [4, 5, 6, 7, 8]})  
df_unique = df[~df.duplicated()]  # 使用duplicated()方法查找重复的行，并使用逻辑非运算符返回不重复的行

Salin selepas log masuk

3 Gunakan kaedah unique()

unique() digunakan untuk mengembalikan semua nilai unik dalam bingkai data dan mengembalikan senarai atau objek Siri. Ia boleh digunakan untuk menyahduplikasi satu atau berbilang lajur.

Kod contoh:

import pandas as pd  
  
df = pd.DataFrame({&#39;A&#39;: [1, 2, 1, 2, 3], &#39;B&#39;: [4, 5, 6, 7, 8]})  
df_unique = df.apply(lambda x: pd.Series(x.unique()))  # 使用apply()方法对每一列进行去重，并返回一个Series对象

Salin selepas log masuk

4. Gunakan kaedah value_counts()

value_counts() digunakan untuk mengira bilangan kejadian setiap nilai dalam bingkai data dan mengembalikan objek Siri. Ia boleh digunakan untuk menyahduplikasi satu atau berbilang lajur.

Contoh kod:

import pandas as pd  
  
df = pd.DataFrame({&#39;A&#39;: [1, 2, 1, 2, 3], &#39;B&#39;: [4, 5, 6, 7, 8]})  
df_unique = df.groupby(df.columns.tolist()).size().reset_index(name=&#39;counts&#39;)  # 对整个数据框进行分组计数，并返回一个Series对象，然后使用reset_index()方法转换为数据框格式，方便查看每个值的出现次数

Salin selepas log masuk

Atas ialah kandungan terperinci Apakah kaedah untuk membuang pendua dalam panda?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!