python 删除excel表格重复行,数据预处理操作


Posted in Python onJuly 06, 2020

使用python删除excel表格重复行。

# 导入pandas包并重命名为pd
import pandas as pd
 
# 读取Excel中Sheet1中的数据
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
 
# 查看读取数据内容
print(data)
 
# 查看是否有重复行
re_row = data.duplicated()
print(re_row)
 
# 查看去除重复行的数据
no_re_row = data.drop_duplicates()
print(no_re_row)
 
# 查看基于[物品]列去除重复行的数据
#wp = data.drop_duplicates(['物品'])
#print(wp)
 
# 将去除重复行的数据输出到excel表中
no_re_row.to_excel("test2.xls")

补充知识:Python数据预处理(删除重复值和空值)

pandas几个函数的使用,大数据的预处理(删除重复值和空值),人工删除很麻烦

Python恰好能够解决

注释很详细在这不一一解释了

######################################
##### 读写excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('数据量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,无表头
print('数据集中存在重复观测的数量:\n',np.sum(df_excel.duplicated())) #F为不存在,T为存在,用sum显示重复的数量
print('删除行重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行,结果删除了第二行保留第一行
              ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
              #### 代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。
              #####keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。
              #####inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本

print('数据集列中是否存在缺失值:\n',df_excel.isnull().any())       #F为不存在,T为存在
print('每一行的缺失值个数:',df_excel.isnull().sum(axis=1))
print('每一列的缺失值个数:',df_excel.isnull().sum(axis=0))

          ####### df.isnull().sum(axis=0)每一列的缺失值个数
          #####df.isnull().any()则会判断哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
                # #axis=0: 删除包含缺失值(NaN)的行
                # #axis=1: 删除包含缺失值(NaN)的列
                # # how=‘any' :要有缺失值(NaN)出现删除
                # # how=‘all': 所有的值都缺失(NaN)才删除
                # 还有一个thresh参数
                # thresh=n,保留至少有 n 个非 NaN 数的行

######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列删除edu这一列
print(df_excel.drop([0],axis=0))#按照行删除0这一行

以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python的Flask中使用WTForms表单框架的基础教程
Jun 07 Python
Windows平台Python连接sqlite3数据库的方法分析
Jul 12 Python
python3实现SMTP发送邮件详细教程
Jun 19 Python
浅谈django三种缓存模式的使用及注意点
Sep 30 Python
Python hashlib模块加密过程解析
Nov 05 Python
python多线程高级锁condition简单用法示例
Nov 07 Python
浅谈Python中threading join和setDaemon用法及区别说明
May 02 Python
关于python3.7安装matplotlib始终无法成功的问题的解决
Jul 28 Python
python 提高开发效率的5个小技巧
Oct 19 Python
python 装饰器的基本使用
Jan 13 Python
python geopandas读取、创建shapefile文件的方法
Jun 29 Python
python神经网络Xception模型
May 06 Python
pandas.DataFrame.drop_duplicates 用法介绍
Jul 06 #Python
TensorFlow Autodiff自动微分详解
Jul 06 #Python
Keras loss函数剖析
Jul 06 #Python
keras 模型参数,模型保存,中间结果输出操作
Jul 06 #Python
Python自省及反射原理实例详解
Jul 06 #Python
如何通过命令行进入python
Jul 06 #Python
解决TensorFlow调用Keras库函数存在的问题
Jul 06 #Python
You might like
javascript让setInteval里的函数参数中的this指向特定的对象
2010/01/31 Javascript
JavaScript高级程序设计 阅读笔记(十八) js跨平台的事件
2012/08/14 Javascript
自己动手实现jQuery Callbacks完整功能代码详解
2013/11/25 Javascript
js实现单行文本向上滚动效果实例代码
2013/11/28 Javascript
js实现鼠标触发图片抖动效果的方法
2015/02/27 Javascript
jQuery中fadein与fadeout方法用法示例
2016/09/16 Javascript
Angular2 环境配置详细介绍
2016/09/21 Javascript
动态JavaScript所造成一些你不知道的危害
2016/09/25 Javascript
javascript中BOM基础知识总结
2017/02/14 Javascript
JavaScript定义及输出螺旋矩阵的方法详解
2017/12/01 Javascript
React Native 截屏组件的示例代码
2017/12/06 Javascript
Angular 作用域scope的具体使用
2017/12/11 Javascript
从零开始搭建一个react项目开发
2018/02/09 Javascript
vue实现2048小游戏功能思路详解
2018/05/09 Javascript
老生常谈JS中的继承及实现代码
2018/07/06 Javascript
js实现鼠标点击页面弹出自定义文字效果
2019/12/24 Javascript
Javascript Web Worker使用过程解析
2020/03/16 Javascript
从零学python系列之教你如何根据图片生成字符画
2014/05/23 Python
Python利用IPython提高开发效率
2016/08/10 Python
django 按时间范围查询数据库实例代码
2018/02/11 Python
python构建深度神经网络(续)
2018/03/10 Python
Django 实现admin后台显示图片缩略图的例子
2019/07/28 Python
Python导入数值型Excel数据并生成矩阵操作
2020/06/09 Python
安装pyecharts1.8.0版本后导入pyecharts模块绘图时报错: “所有图表类型将在 v1.9.0 版本开始强制使用 ChartItem 进行数据项配置 ”的解决方法
2020/08/18 Python
如何使用pycharm连接Databricks的步骤详解
2020/09/23 Python
python中xlutils库用法浅析
2020/12/29 Python
使用css实现android系统的loading加载动画
2019/07/25 HTML / CSS
美国睫毛、眉毛精华液领导品牌:RevitaLash Cosmetics
2018/03/26 全球购物
洛杉矶时尚女装系列:J.ING US
2019/03/17 全球购物
初级软件工程师面试题 Junior Software Engineer Interview
2015/02/15 面试题
项目投资意向书
2014/04/01 职场文书
《苏珊的帽子》教学反思
2014/04/07 职场文书
2015年社区综治工作总结
2015/04/21 职场文书
张丽莉观后感
2015/06/16 职场文书
2016年“我们的节日·中秋节”活动总结
2016/04/05 职场文书
Docker下安装Oracle19c
2022/04/13 Servers