python 删除excel表格重复行,数据预处理操作


Posted in Python onJuly 06, 2020

使用python删除excel表格重复行。

# 导入pandas包并重命名为pd
import pandas as pd
 
# 读取Excel中Sheet1中的数据
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
 
# 查看读取数据内容
print(data)
 
# 查看是否有重复行
re_row = data.duplicated()
print(re_row)
 
# 查看去除重复行的数据
no_re_row = data.drop_duplicates()
print(no_re_row)
 
# 查看基于[物品]列去除重复行的数据
#wp = data.drop_duplicates(['物品'])
#print(wp)
 
# 将去除重复行的数据输出到excel表中
no_re_row.to_excel("test2.xls")

补充知识:Python数据预处理(删除重复值和空值)

pandas几个函数的使用,大数据的预处理(删除重复值和空值),人工删除很麻烦

Python恰好能够解决

注释很详细在这不一一解释了

######################################
##### 读写excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('数据量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,无表头
print('数据集中存在重复观测的数量:\n',np.sum(df_excel.duplicated())) #F为不存在,T为存在,用sum显示重复的数量
print('删除行重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行,结果删除了第二行保留第一行
              ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
              #### 代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。
              #####keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。
              #####inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本

print('数据集列中是否存在缺失值:\n',df_excel.isnull().any())       #F为不存在,T为存在
print('每一行的缺失值个数:',df_excel.isnull().sum(axis=1))
print('每一列的缺失值个数:',df_excel.isnull().sum(axis=0))

          ####### df.isnull().sum(axis=0)每一列的缺失值个数
          #####df.isnull().any()则会判断哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
                # #axis=0: 删除包含缺失值(NaN)的行
                # #axis=1: 删除包含缺失值(NaN)的列
                # # how=‘any' :要有缺失值(NaN)出现删除
                # # how=‘all': 所有的值都缺失(NaN)才删除
                # 还有一个thresh参数
                # thresh=n,保留至少有 n 个非 NaN 数的行

######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列删除edu这一列
print(df_excel.drop([0],axis=0))#按照行删除0这一行

以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
详解Python中映射类型(字典)操作符的概念和使用
Aug 19 Python
利用Python为iOS10生成图标和截屏
Sep 24 Python
Python基于QRCode实现生成二维码的方法【下载,安装,调用等】
Jul 11 Python
浅谈Python中的私有变量
Feb 28 Python
python RabbitMQ 使用详细介绍(小结)
Nov 08 Python
对python生成业务报表的实例详解
Feb 03 Python
python 获取毫秒数,计算调用时长的方法
Feb 20 Python
python 求某条线上特定x值或y值的点坐标方法
Jul 09 Python
Python实现自动打开电脑应用的示例代码
Apr 17 Python
Python如何使用正则表达式爬取京东商品信息
Jun 01 Python
在keras中对单一输入图像进行预测并返回预测结果操作
Jul 09 Python
Python获取android设备cpu和内存占用情况
Nov 15 Python
pandas.DataFrame.drop_duplicates 用法介绍
Jul 06 #Python
TensorFlow Autodiff自动微分详解
Jul 06 #Python
Keras loss函数剖析
Jul 06 #Python
keras 模型参数,模型保存,中间结果输出操作
Jul 06 #Python
Python自省及反射原理实例详解
Jul 06 #Python
如何通过命令行进入python
Jul 06 #Python
解决TensorFlow调用Keras库函数存在的问题
Jul 06 #Python
You might like
PHP mail()函数使用及配置方法
2014/01/14 PHP
php类中的$this,static,final,const,self这几个关键字使用方法
2015/12/14 PHP
一些有关检查数据的JS代码
2006/09/07 Javascript
javascript中字符串拼接需注意的问题
2010/07/13 Javascript
window.parent与window.openner区别介绍
2012/04/12 Javascript
Javascript查询DBpedia小应用实例学习
2013/03/07 Javascript
仿新浪微博登陆邮箱提示效果的js代码
2013/08/02 Javascript
js实现倒计时时钟的示例代码
2013/12/17 Javascript
jquery缓动swing liner控制动画过程不同时刻的速度
2014/05/29 Javascript
ext前台接收action传过来的json数据示例
2014/06/17 Javascript
JavaScript设计模式之观察者模式(发布者-订阅者模式)
2014/09/24 Javascript
jQuery消息提示框插件Tipso
2015/05/04 Javascript
基于JS实现简单的样式切换效果代码
2015/09/04 Javascript
浅谈jquery拼接字符串效率比较高的方法
2017/02/22 Javascript
selenium 与 chrome 进行qq登录并发邮件操作实例详解
2017/04/06 Javascript
react-router4 配合webpack require.ensure 实现异步加载的示例
2018/01/18 Javascript
解决bootstrap中下拉菜单点击后不关闭的问题
2018/08/10 Javascript
微信小程序中使用自定义图标(阿里icon)的方法
2018/08/20 Javascript
IDEA安装vue插件图文详解
2019/09/26 Javascript
Vue+webpack实现懒加载过程解析
2020/02/17 Javascript
vue-cli4使用全局less文件中的变量配置操作
2020/10/21 Javascript
[49:58]完美世界DOTA2联赛PWL S3 Magma vs DLG 第一场 12.18
2020/12/19 DOTA
Python线程指南详细介绍
2017/01/05 Python
python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比
2019/04/15 Python
用python3读取python2的pickle数据方式
2019/12/25 Python
python3获取文件中url内容并下载代码实例
2019/12/27 Python
使用Python求解带约束的最优化问题详解
2020/02/11 Python
安装pyinstaller遇到的各种问题(小结)
2020/11/20 Python
美国高街时尚品牌:OASAP
2016/07/24 全球购物
巴西电子、家电、智能手机购物网站:Girafa
2019/06/04 全球购物
《值日生》教学反思
2014/02/17 职场文书
幼儿园安全生产月活动总结
2014/07/05 职场文书
秋季运动会广播稿(30篇)
2014/09/13 职场文书
2014年班长个人工作总结
2014/11/14 职场文书
入党后的感想
2015/08/10 职场文书
CSS3通过var()和calc()函数实现动画特效
2021/03/30 HTML / CSS