news 2026/4/15 12:11:47

pandas数据处理——取出重复数据

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
pandas数据处理——取出重复数据

pandas数据处理——取出重复数据

平常我们用pandas做重复数据处理时,常常调用到drop_duplicates方法来去除重。

现在我不想完全去除重复,而是把重复数据输出,现有数据如下所示:

dic = {'序号':[2,3,4,5,6,7,8,9,10,11,12,13,14,15],'地市缩写': ['LF','CZ','HS','ZJ','TS','HD','广阳','CD','QH','XT','XA','BD','SJ','栾城'],
'地市': ['廊坊','沧州','衡水','张家口','唐山','邯郸','廊坊','承德','秦皇岛','邢台','雄安','保定',
'石家庄','石家庄']}
p_city = pd.DataFrame(dic)

print(p_city )

输出:

方法一:

重复数据保留一个,duplicate_bool输出的是bool类型值,通过判断bool==True,取出重复行。

duplicate_bool = p_city.duplicated(subset=['地市'],keep='first')
print(duplicate_bool )
repeat =p_city.loc[duplicate_bool ==
True]
print(repeat)

输出:

方法二:

采用drop_duplicates对数据去两次重,一次将重复数据全部去除(keep=False),一次将重复数据保留一个(keep=last/first),将两个去重后的数据做差集,取出重复行。

#重复数据全部去除

data1 = p_city.drop_duplicates(subset=['地市'],keep=False)
print(data1)

输出:

#重复数据保留一个

data2 = p_city.drop_duplicates(subset=['地市'],keep='last')
print(data2)

输出:

#做差集,取出重复行

data1 = p_city.drop_duplicates(subset=['地市'],keep=False)
data2 = p_city.drop_duplicates(
subset=['地市'],keep='last')
repeat = pd.concat([data2,data1]).drop_duplicates(
keep=False)
print(repeat)

输出:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 12:10:28

5个简单步骤:用Win11Debloat一键清理Windows系统垃圾

5个简单步骤:用Win11Debloat一键清理Windows系统垃圾 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and cus…

作者头像 李华
网站建设 2026/4/15 12:09:38

2026年想提升技术?收藏这份AI大模型学习攻略,小白程序员轻松入门高薪赛道!

本文为想入行AI或提升技能的程序员/小白提供AI大模型学习指南。文章分析了AI大模型的技术优势、广泛应用场景、高薪待遇和良好前景,并详细分享了5个学习要点:明确学习方向、制定阶段计划、夯实基础、多动手实操、链接行业大佬。通过系统学习和实践&#…

作者头像 李华
网站建设 2026/4/15 12:09:35

031、FreeRTOS+POSIX接口实战:当RTOS遇见标准库

031、FreeRTOS+POSIX接口实战:当RTOS遇见标准库 从一次深夜调试说起 上周三凌晨两点,我被测试组的电话叫醒:“王工,新板子跑着跑着就HardFault了,日志停在malloc里……”赶到实验室,看到堆栈溢出,但明明FreeRTOS的堆配置得足够大。最终定位到问题:项目里混用了FreeRT…

作者头像 李华
网站建设 2026/4/15 12:08:25

告别云端!MogFace本地人脸检测工具保姆级部署指南

告别云端!MogFace本地人脸检测工具保姆级部署指南 1. 引言:为什么选择本地人脸检测? 在数字时代,人脸检测技术已经渗透到我们生活的方方面面——从手机相册的自动分类,到社交媒体的照片标记,再到安防系统…

作者头像 李华