Python对多属性的重复数据去重实例


Posted in Python onApril 18, 2018

python中的pandas模块中对重复数据去重步骤:

1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重复行显示为TRUE;

2)再利用DataFrame中的drop_duplicates方法用于返回一个移除了重复行的DataFrame。

注释:

如果duplicated方法和drop_duplicates方法中没有设置参数,则这两个方法默认会判断全部咧,如果在这两个方法中加入了指定的属性名(或者称为列名),例如:frame.drop_duplicates(['state']),则指定部分列(state列)进行重复项的判断。

具体实例如下:

>>> import pandas as pd 
>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']} 
>>> frame=pd.DataFrame(data) 
>>> frame 
 pop state 
0 a  1 
1 b  1 
2 c  2 
3 d  2 
>>> IsDuplicated=frame.duplicated() 
>>> print IsDuplicated 
0 False 
1 False 
2 False 
3 False 
dtype: bool 
>>> frame=frame.drop_duplicates(['state']) 
>>> frame 
 pop state 
0 a  1 
2 c  2 
>>> IsDuplicated=frame.duplicated(['state']) 
>>> print IsDuplicated 
0 False 
2 False 
dtype: bool 
>>>

以上这篇Python对多属性的重复数据去重实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
比较详细Python正则表达式操作指南(re使用)
Sep 06 Python
Python使用Flask框架获取当前查询参数的方法
Mar 21 Python
使用Python编写简单的画图板程序的示例教程
Dec 08 Python
Python for Informatics 第11章 正则表达式(一)
Apr 21 Python
Flask和Django框架中自定义模型类的表名、父类相关问题分析
Jul 19 Python
Python 实现两个列表里元素对应相乘的方法
Nov 14 Python
pycharm打开命令行或Terminal的方法
Jan 16 Python
python占位符输入方式实例
May 27 Python
PyQt QCombobox设置行高的方法
Jun 20 Python
Python 进程之间共享数据(全局变量)的方法
Jul 16 Python
python 如何将数据写入本地txt文本文件的实现方法
Sep 11 Python
执行Python程序时模块报错问题
Mar 26 Python
Python3实现的字典遍历操作详解
Apr 18 #Python
Python基于递归算法实现的汉诺塔与Fibonacci数列示例
Apr 18 #Python
python 删除列表里所有空格项的方法总结
Apr 18 #Python
python list删除元素时要注意的坑点分享
Apr 18 #Python
python爬虫之xpath的基本使用详解
Apr 18 #Python
基于python list对象中嵌套元组使用sort时的排序方法
Apr 18 #Python
python购物车程序简单代码
Apr 18 #Python
You might like
Content-type 的说明
2006/10/09 PHP
利用PHP创建动态图像
2006/10/09 PHP
PHP下利用header()函数设置浏览器缓存的代码
2010/09/01 PHP
php设计模式 Decorator(装饰模式)
2011/06/26 PHP
解析web文件操作常见安全漏洞(目录、文件名检测漏洞)
2013/06/29 PHP
destoon调用discuz论坛中带图片帖子的实现方法
2014/08/21 PHP
php用正则判断是否为数字的方法
2016/03/25 PHP
centos 7.2下搭建LNMP环境教程
2016/11/20 PHP
[原创]PHPCMS遭遇会员投稿审核无效的解决方法
2017/01/11 PHP
PHP addAttribute()函数讲解
2019/02/03 PHP
Sample script that deletes a SQL Server database
2007/06/16 Javascript
jquery 页面全选框实践代码
2010/04/02 Javascript
jquery监听div内容的变化具体实现思路
2013/11/04 Javascript
javascript如何创建对象
2016/08/29 Javascript
原生JavaScript制作计算器
2016/10/16 Javascript
关于Jquery中的bind(),on()绑定事件方式总结
2016/10/26 Javascript
js document.getElementsByClassName的使用介绍与自定义函数
2016/11/25 Javascript
React native ListView 增加顶部下拉刷新和底下点击刷新示例
2018/04/27 Javascript
微信小程序制作扭蛋机代码实例
2019/09/24 Javascript
vue-cli4.x创建企业级项目的方法步骤
2020/06/18 Javascript
修改NPM全局模式的默认安装路径的方法
2020/12/15 Javascript
Python中的pprint折腾记
2015/01/21 Python
Python获取文件所在目录和文件名的方法
2017/01/12 Python
Python中异常重试的解决方案详解
2017/05/05 Python
python unittest实现api自动化测试
2018/04/04 Python
Python在groupby分组后提取指定位置记录方法
2018/04/20 Python
利用python实现在微信群刷屏的方法
2019/02/21 Python
Python IDE Pycharm中的快捷键列表用法
2019/08/08 Python
python修改FTP服务器上的文件名
2019/09/11 Python
python cookie反爬处理的实现
2020/11/01 Python
Sublime Text3最新激活注册码分享适用2020最新版 亲测可用
2020/11/12 Python
解决pytorch 数据类型报错的问题
2021/03/03 Python
英国50岁以上人群的交友网站:Ourtime
2018/03/28 全球购物
家长会主持词
2014/03/26 职场文书
《记金华的双龙洞》教学反思
2014/04/19 职场文书
使用CSS实现六边形的图片效果
2022/08/05 HTML / CSS