python 删除excel表格重复行,数据预处理操作


Posted in Python onJuly 06, 2020

使用python删除excel表格重复行。

# 导入pandas包并重命名为pd
import pandas as pd
 
# 读取Excel中Sheet1中的数据
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
 
# 查看读取数据内容
print(data)
 
# 查看是否有重复行
re_row = data.duplicated()
print(re_row)
 
# 查看去除重复行的数据
no_re_row = data.drop_duplicates()
print(no_re_row)
 
# 查看基于[物品]列去除重复行的数据
#wp = data.drop_duplicates(['物品'])
#print(wp)
 
# 将去除重复行的数据输出到excel表中
no_re_row.to_excel("test2.xls")

补充知识:Python数据预处理(删除重复值和空值)

pandas几个函数的使用,大数据的预处理(删除重复值和空值),人工删除很麻烦

Python恰好能够解决

注释很详细在这不一一解释了

######################################
##### 读写excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('数据量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,无表头
print('数据集中存在重复观测的数量:\n',np.sum(df_excel.duplicated())) #F为不存在,T为存在,用sum显示重复的数量
print('删除行重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行,结果删除了第二行保留第一行
              ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
              #### 代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。
              #####keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。
              #####inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本

print('数据集列中是否存在缺失值:\n',df_excel.isnull().any())       #F为不存在,T为存在
print('每一行的缺失值个数:',df_excel.isnull().sum(axis=1))
print('每一列的缺失值个数:',df_excel.isnull().sum(axis=0))

          ####### df.isnull().sum(axis=0)每一列的缺失值个数
          #####df.isnull().any()则会判断哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
                # #axis=0: 删除包含缺失值(NaN)的行
                # #axis=1: 删除包含缺失值(NaN)的列
                # # how=‘any' :要有缺失值(NaN)出现删除
                # # how=‘all': 所有的值都缺失(NaN)才删除
                # 还有一个thresh参数
                # thresh=n,保留至少有 n 个非 NaN 数的行

######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列删除edu这一列
print(df_excel.drop([0],axis=0))#按照行删除0这一行

以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中使用第三方库xlrd来写入Excel文件示例
Apr 05 Python
Python实现建立SSH连接的方法
Jun 03 Python
使用Python+Splinter自动刷新抢12306火车票
Jan 03 Python
Python Django Vue 项目创建过程详解
Jul 29 Python
信号生成及DFT的python实现方式
Feb 25 Python
Python列表解析操作实例总结
Feb 26 Python
python GUI库图形界面开发之PyQt5滑块条控件QSlider详细使用方法与实例
Feb 28 Python
Python图片处理模块PIL操作方法(pillow)
Apr 07 Python
详解Python 循环嵌套
Jul 09 Python
Python如何急速下载第三方库详解
Nov 02 Python
在pyCharm中下载第三方库的方法
Apr 18 Python
Matplotlib可视化之添加让统计图变得简单易懂的注释
Jun 11 Python
pandas.DataFrame.drop_duplicates 用法介绍
Jul 06 #Python
TensorFlow Autodiff自动微分详解
Jul 06 #Python
Keras loss函数剖析
Jul 06 #Python
keras 模型参数,模型保存,中间结果输出操作
Jul 06 #Python
Python自省及反射原理实例详解
Jul 06 #Python
如何通过命令行进入python
Jul 06 #Python
解决TensorFlow调用Keras库函数存在的问题
Jul 06 #Python
You might like
输出控制类
2006/10/09 PHP
php中强制下载文件的代码(解决了IE下中文文件名乱码问题)
2011/05/09 PHP
关于IIS php调用com组件的权限问题
2012/01/11 PHP
PHP输出九九乘法表代码实例
2015/03/27 PHP
浅谈PHP链表数据结构(单链表)
2016/06/08 PHP
php数组指针操作详解
2017/02/14 PHP
小程序微信支付功能配置方法示例详解【基于thinkPHP】
2019/05/05 PHP
php5与php7的区别点总结
2019/10/11 PHP
phpstudy隐藏index.php的方法
2020/09/21 PHP
封装好的省市地区联动控件附下载
2007/08/13 Javascript
IE6下js通过css隐藏select的一个bug
2010/08/16 Javascript
JS 实现导航栏悬停效果
2013/09/23 Javascript
JavaScript实现格式化字符串函数String.format
2016/12/16 Javascript
jQuery实现字体颜色渐变效果的方法
2017/03/29 jQuery
ES6中Symbol类型用法实例详解
2017/04/06 Javascript
angularjs2 ng2 密码隐藏显示的实例代码
2017/08/01 Javascript
node文字生成图片的示例代码
2017/10/26 Javascript
nodejs连接mysql数据库及基本知识点详解
2018/03/20 NodeJs
vue实现搜索过滤效果
2019/05/28 Javascript
浅谈Vue.use到底是什么鬼
2020/01/21 Javascript
Python中使用摄像头实现简单的延时摄影技术
2015/03/27 Python
pycharm远程linux开发和调试代码的方法
2018/07/17 Python
详解Python下Flask-ApScheduler快速指南
2018/11/04 Python
浅谈python常用程序算法
2019/03/22 Python
Python中的十大图像处理工具(小结)
2019/06/10 Python
python网络爬虫 Scrapy中selenium用法详解
2019/09/28 Python
全球最受追捧的运动服品牌领先数字目的地:Stylerunner
2020/11/25 全球购物
人力资源行政经理自我评价
2013/10/23 职场文书
船舶专业个人求职信范文
2014/01/02 职场文书
办公室综合文员岗位职责范本
2014/02/13 职场文书
校园标语大全
2014/06/19 职场文书
2014年高中生自我评价范文
2014/09/26 职场文书
2015年“公民道德宣传日”活动方案
2015/05/06 职场文书
导游词之上海杜莎夫人蜡像馆
2019/11/22 职场文书
详细分析PHP7与PHP5区别
2021/06/26 PHP
python+pytest接口自动化之token关联登录的实现
2022/04/06 Python