Python对多属性的重复数据去重实例


Posted in Python onApril 18, 2018

python中的pandas模块中对重复数据去重步骤:

1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重复行显示为TRUE;

2)再利用DataFrame中的drop_duplicates方法用于返回一个移除了重复行的DataFrame。

注释:

如果duplicated方法和drop_duplicates方法中没有设置参数,则这两个方法默认会判断全部咧,如果在这两个方法中加入了指定的属性名(或者称为列名),例如:frame.drop_duplicates(['state']),则指定部分列(state列)进行重复项的判断。

具体实例如下:

>>> import pandas as pd 
>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']} 
>>> frame=pd.DataFrame(data) 
>>> frame 
 pop state 
0 a  1 
1 b  1 
2 c  2 
3 d  2 
>>> IsDuplicated=frame.duplicated() 
>>> print IsDuplicated 
0 False 
1 False 
2 False 
3 False 
dtype: bool 
>>> frame=frame.drop_duplicates(['state']) 
>>> frame 
 pop state 
0 a  1 
2 c  2 
>>> IsDuplicated=frame.duplicated(['state']) 
>>> print IsDuplicated 
0 False 
2 False 
dtype: bool 
>>>

以上这篇Python对多属性的重复数据去重实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python正则匹配抓取豆瓣电影链接和评论代码分享
Dec 27 Python
python实现文本去重且不打乱原本顺序
Jan 26 Python
Python实现带百分比的进度条
Jun 28 Python
将字典转换为DataFrame并进行频次统计的方法
Apr 08 Python
Python 面试中 8 个必考问题
Nov 16 Python
python并发编程多进程之守护进程原理解析
Aug 20 Python
Python 矩阵转置的几种方法小结
Dec 02 Python
在jupyter notebook中调用.ipynb文件方式
Apr 14 Python
python中有帮助函数吗
Jun 19 Python
Python基于gevent实现文件字符串查找器
Aug 11 Python
彻底搞懂python 迭代器和生成器
Sep 07 Python
Python中三维坐标空间绘制的实现
Sep 22 Python
Python3实现的字典遍历操作详解
Apr 18 #Python
Python基于递归算法实现的汉诺塔与Fibonacci数列示例
Apr 18 #Python
python 删除列表里所有空格项的方法总结
Apr 18 #Python
python list删除元素时要注意的坑点分享
Apr 18 #Python
python爬虫之xpath的基本使用详解
Apr 18 #Python
基于python list对象中嵌套元组使用sort时的排序方法
Apr 18 #Python
python购物车程序简单代码
Apr 18 #Python
You might like
解析php函数method_exists()与is_callable()的区别
2013/06/21 PHP
yii分页组件用法实例分析
2015/12/28 PHP
PHP中addslashes与mysql_escape_string的区别分析
2016/04/25 PHP
js apply/call/caller/callee/bind使用方法与区别分析
2009/10/28 Javascript
js multiple全选与取消全选实现代码
2012/12/04 Javascript
js动态创建及移除div的方法
2015/06/03 Javascript
JavaScript中的parse()方法使用简介
2015/06/12 Javascript
jQuery实现滚动切换的tab选项卡效果代码
2015/08/26 Javascript
总结AngularJS开发者最常犯的十个错误
2016/08/31 Javascript
Angularjs 制作购物车功能实例代码
2016/09/14 Javascript
Bootstrap分页插件之Bootstrap Paginator实例详解
2016/10/15 Javascript
详解Javascript函数声明与递归调用
2016/10/22 Javascript
thinkphp标签实现bootsrtap轮播carousel实例代码
2017/02/19 Javascript
微信小程序本作用域下调用全局JS详解及实例
2017/02/22 Javascript
浅谈Node异步编程的机制
2017/10/18 Javascript
Puppeteer 爬取动态生成的网页实战
2018/11/14 Javascript
javascript自定义加载loading效果
2020/09/15 Javascript
小程序自定义圆形进度条
2020/11/17 Javascript
[56:35]DOTA2上海特级锦标赛主赛事日 - 5 总决赛Liquid VS Secret第一局
2016/03/06 DOTA
Python面向对象class类属性及子类用法分析
2018/02/02 Python
解决Tensorflow安装成功,但在导入时报错的问题
2018/06/13 Python
深入解析神经网络从原理到实现
2019/07/26 Python
Numpy之reshape()使用详解
2019/12/26 Python
Django form表单与请求的生命周期步骤详解
2020/06/07 Python
Expected conditions模块使用方法汇总代码解析
2020/08/13 Python
mac安装python3后使用pip和pip3的区别说明
2020/09/01 Python
Python3爬虫ChromeDriver的安装实例
2021/02/06 Python
CSS3实现swap交换动画
2016/01/19 HTML / CSS
护理自荐信
2013/10/22 职场文书
会计专业大学生求职信范文
2014/01/28 职场文书
铁路个人事迹材料
2014/01/30 职场文书
考核工作实施方案
2014/03/30 职场文书
导游词300字
2015/02/13 职场文书
2015年共青团工作总结
2015/05/15 职场文书
入党转正介绍人意见
2015/06/03 职场文书
中学生运动会广播稿
2015/08/19 职场文书