Python對多屬性的重複資料去重

不言
發布: 2018-04-18 15:29:53
原創
2403 人瀏覽過

以下為大家分享一篇Python對多屬性的重複資料去重實例,具有很好的參考價值,希望對大家有幫助。一起來看看吧

python中的pandas模組中對重複資料去重步驟:

1)利用DataFrame中的duplicated方法傳回一個布林型的Series,顯示各行是否有重複行,沒有​​重複行顯示為FALSE,有重複行顯示為TRUE;

2)再利用DataFrame中的drop_duplicates方法用於返回一個移除了重複行的DataFrame。

註解:

如果duplicated方法和drop_duplicates方法中沒有設定參數,則這兩個方法預設會判斷全部咧,如果在這兩個方法中加入了指定的屬性名稱(或稱為列名),例如:frame.drop_duplicates(['state']),則指定部分列(state列)進行重複項的判斷。

具體實例如下:

>>> import pandas as pd 
>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']} 
>>> frame=pd.DataFrame(data) 
>>> frame 
 pop state 
0 a  1 
1 b  1 
2 c  2 
3 d  2 
>>> IsDuplicated=frame.duplicated() 
>>> print IsDuplicated 
0 False 
1 False 
2 False 
3 False 
dtype: bool 
>>> frame=frame.drop_duplicates(['state']) 
>>> frame 
 pop state 
0 a  1 
2 c  2 
>>> IsDuplicated=frame.duplicated(['state']) 
>>> print IsDuplicated 
0 False 
2 False 
dtype: bool 
>>>
登入後複製


#

以上是Python對多屬性的重複資料去重的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板