• 技术文章 >后端开发 >Python教程

    python去重函数是什么

    爱喝马黛茶的安东尼爱喝马黛茶的安东尼2019-10-25 17:57:02原创4652

    数据去重可以使用duplicated()和drop_duplicates()两个方法。

    DataFrame.duplicated(subset = None,keep =‘first’)返回boolean Series表示重复行

    参数:

    subset:列标签或标签序列,可选

    仅考虑用于标识重复项的某些列,默认情况下使用所有列

    keep:{‘first’,‘last’,False},默认’first’

    first:标记重复,True除了第一次出现。

    last:标记重复,True除了最后一次出现。

    错误:将所有重复项标记为True。

    相关推荐:《Python基础教程

    import numpy as np
    import pandas as pd
    from pandas import Series, DataFrame
    df = pd.read_csv('./demo_duplicate.csv')
    print(df)
    print(df['Seqno'].unique()) # [0. 1.]
    # 使用duplicated 查看重复值
    # 参数 keep 可以标记重复值 {'first','last',False}
    print(df['Seqno'].duplicated())
    '''
    0    False
    1     True
    2     True
    3     True
    4    False
    Name: Seqno, dtype: bool
    '''
    # 删除 series 重复数据
    print(df['Seqno'].drop_duplicates())
    '''
    0    0.0
    4    1.0
    Name: Seqno, dtype: float64
    '''
    # 删除 dataframe 重复数据
    print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来去重
    '''
       Price     Seqno   Symbol   time
    0  1623.0    0.0   APPL  1473411962
    4  1649.0    1.0   APPL  1473411963
    '''
    # drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
    print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
    '''
       Price     Seqno   Symbol   time
    3  1623.0    0.0   APPL  1473411963
    4  1649.0    1.0   APPL  1473411963
    '''

    以上就是python去重函数是什么的详细内容,更多请关注php中文网其它相关文章!

    声明:本文原创发布php中文网,转载请注明出处,感谢您的尊重!如有疑问,请联系admin@php.cn处理
    专题推荐:python 去重函数
    上一篇:python里的π怎么输入 下一篇:用python写温度转换
    大前端线上培训班

    相关文章推荐

    • python列表如何去重?• python怎么去重• python怎么对列表中元素去重复

    全部评论我要评论

  • 取消发布评论发送
  • 1/1

    PHP中文网