首页 > 后端开发 > Python教程 > 如何获取 Pandas DataFrame 中重复项的完整列表?

如何获取 Pandas DataFrame 中重复项的完整列表?

Susan Sarandon
发布: 2024-10-26 03:35:02
原创
838 人浏览过

How to Get a Complete List of Duplicate Items in a Pandas DataFrame?

获取 Pandas 中所有重复项的列表

在 pandas 中,duplicated 方法可用于基于数据集识别重复行在指定的列上。但是,默认情况下,它仅返回每个重复项的第一次出现。要获得完整的列表,请考虑以下方法:

方法#1:使用 isin 方法进行过滤

此方法涉及两个步骤:

  1. 使用以下方法从重复行中提取唯一 ID:

    <code class="python">ids = df[df.duplicated(cols='ID')]['ID']</code>
    登录后复制
  2. 利用 isin 方法过滤 ID 与任何重复 ID 匹配的所有行:

    <code class="python">df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
    登录后复制

方法 #2:使用 groupby 进行分组

此方法使用 groupby 操作按 ID 列对行进行分组并过滤掉包含多行的分组:

<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
登录后复制

通过使用这些方法,您可以有效地检索 pandas DataFrame 中重复项的完整列表。

以上是如何获取 Pandas DataFrame 中重复项的完整列表?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板