pandas数据处理我应在江湖悠悠_经营_新闻资讯_资讯

一、查找重复值

既然我们这个系列是对比Excel，那么在Excel里是怎么查找重复值的呢？有很多种方法，这里就简单说一种：条件格式。在【开始】——【条件格式】里选择突出显示重复值，就将重复的值突出显示出来了：

Pandas里如何查找重复值呢？1、查找所有列

继之前用的短租数据集（后台回复：短租数据，即可获得），duplicated方法查找重复值，和isnull一样，得到的结果是布尔值，如果重复被标记为True，否则为False

#查看所有列都重复的数据 df_list.duplicated()

结果如下，得到的是一个序列，通过True/False来查看哪些行完全重复。

也可以把它具体的位置找出来：

#定位出所有列都重复的行 df_list[df_list.duplicated()]

结果是一个空行，说明这个数据集里没有所有列都重复的行

2、查找单独列

对重复值的判断有时不需要判断所有列，只需要对某一列进行判断，还是用duplicated方法查找，如查找id列是否重复

#查找id列是否重复 df_list[df_list.duplicated(["id"])]

结果为空，说明id列是唯一标识。

二、重复值的处理

对重复值的处理，就是删除

在Excel里专门有一个删除重复值的功能，用这个功能就可以将某一列的重复值删除，只保留不重复的值：

在Panda里用到drop_duplicates方法来删除重复值。1、所有列去重

对所有列都重复的行去重

#所有列去重 df_list=df_list.drop_duplicates() df_list.head()2、某一列去重

对某一列重复的行去重，添加subset参数

#某一列去重 df_list.drop_duplicates(subset="id")3、某几列去重

对要去重的几列的列名用列表框起来，subset参数名可以不写

#某几列去重 df_list.drop_duplicates(["id","name"])4、去重后保留最后一个值

以上去重时默认都是保留第一个重复的值，但如果想要保留最后一个重复的值呢，添加keep参数，让keep = "last"

#保留最后一个值 df_list.drop_duplicates(["id","name"],keep="last")5、查找后定位的方法去重

前面介绍了查找重复值用到的duplicated方法，那么也可以用这个方法直接去重。df_list[df_list.duplicated(["id","name"])]是定位出重复值，加个取反的符号df_list[~df_list.duplicated(["id","name"])]就将不重复的值取出来了，也就是去重了。

#查找后定位去重 df_list[~df_list.duplicated(["id","name"])]三、类型转换

这个案例里last_review字段应该是日期时间的类型，但在这里是字符型展示，因此要把字符型转换成日期时间类型的数据，使用to_datetime方法，它有两个参数，第一个参数是要转换的列，第二个参数是设置日期时间格式。

#字符转时间 df_list["last_review"]=pd.to_datetime(df_list["last_review"], format="%Y/%m/%d") df_list.info()

结果如下，可以看到这一列已经由原先的字符型转化为了时间型。

类型转换还可以将字符转数值，数值转字符，用到astype(dtype)方法，dtype参数表示要转换的数据类型，整型为int，小数型位float，字符型为str

#数值转字符 df_list["id"].astype(str).dtype

如把id列的整型转为字符型，可以看到转换话数据类型为Object。

四、字段拆分

发现这里nei**ourhood字段是“朝阳区 / Chaoyang”形式，只想要保留“/”符号前的字段，因此需要对这个字段进行拆分，在Excel里拆分很简单，就用【数据】选项卡中的【分列】功能即可，分割符号选择“/”。

在pandas里我们用split方法来拆分

#字段拆分 new_nei**or=df_list["nei**ourhood"].str.split("/",1,True) df_list[["nei**orhood_new","nei**or2"]]=new_nei**or df_list

第一个参数是指定分隔符，第二个参数填的是1，表示分割成1+1=2列，第三个参数填True，表示展开为数据框，默认是False，所以一般填True，结果如图

同样地把room_type这个字段也拆分一下

new_room_type=df_list["room_type"].str.split("/",1,True) df_list[["room_type_new","room_type2"]]=new_room_type df_list

结果如图：

猜你喜欢：
Python数据分析实战：缺失值处理

《吊打分析师》实战—我要租个好房

为什么要学统计学：**的统计学

Python数据结构大结局：Dataframe

成为数据分析师的第三年，我写了10W字（原创文章吐血整理）

@ 作者：可乐
@ 公众号/知乎专栏/头条/简书：可乐的数据分析之路
@ 加微信（data_cola）备注：进群，拉你进可乐的数据分析交流群，数据分析知识总结，不定期行业经验分享

原文链接：http://www.wswnz.cn/news/23445.html，转载和复制请保留此链接。
以上就是关于pandas数据处理我应在江湖悠悠全部的内容，关注我们，带您了解更多相关内容。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

Peak Games这款产品能否打破品类天花板？郊游儿歌

来源：罗斯基消除游戏一直是海外最热门的品类之一，长期以来一直以三消、二消、点消、线消等产品为主，虽然很多产品融入了家装、剧情、模拟经营等要素，但依旧没有跳出以上几种玩法形式。而堆叠消除的出现，为消除品

2025-04-14

下滑超35%！小熊电器，正在掉队！齐如意身高

潮水退去，谁在裸泳？当前，国内小家电市场的竞争愈发激烈，价格战此起彼伏。近日，小熊电器披露了2024年财报，其中显示，小熊电器2024年实现营收47.58亿元，同比增长0.98%；但归母净利润仅有2.

2025-04-14

从优惠券的生命周期角度，深入分析满减券设计逻辑一点一点慢慢靠近我是什么歌

优惠券作为一种营销工具，已经被各行业普遍使用，作为一种必不可少的营销利器，给各行业的营销、拓客、营收等带来了重要作用，但关于优惠券的设计很多产品借鉴其他产品的「拿来主义」，没有对优惠券的设计结合自身产

2025-04-14

为什么你的视频号总是限流？B2B企业必知的算法陷阱与破局范冰冰啪啪啪

当下自媒体浪潮中，视频号是创作者和商家的必争之地。但不少人运营时被“爆款难产”困扰，还常因限流、降权甚至封号而困惑。其实，打破僵局的关键，就是吃透视频号不断变化的算法规则。一、

2025-04-14

AI军备竞赛白热化：OPPO能否打破“高端失语症”？什么山什么水

在历经三年寒冬后，全球智能手机市场迎来了复苏曙光。据国际数据公司（IDC）最新手机季度跟踪报告显示，2024 年全年，中国智能手机市场出货量约2.86亿台，同比增长 5.6%。而这一数据同样表明市场结

2025-04-14

pandas数据处理我应在江湖悠悠

相关推荐

Peak Games这款产品能否打破品类天花板？郊游儿歌

下滑超35%！小熊电器，正在掉队！齐如意身高

从优惠券的生命周期角度，深入分析满减券设计逻辑一点一点慢慢靠近我是什么歌

为什么你的视频号总是限流？B2B企业必知的算法陷阱与破局范冰冰啪啪啪

AI军备竞赛白热化：OPPO能否打破“高端失语症”？什么山什么水

分享到：