python 删除excel表格重复行,数据预处理操作


Posted in Python onJuly 06, 2020

使用python删除excel表格重复行。

# 导入pandas包并重命名为pd
import pandas as pd
 
# 读取Excel中Sheet1中的数据
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
 
# 查看读取数据内容
print(data)
 
# 查看是否有重复行
re_row = data.duplicated()
print(re_row)
 
# 查看去除重复行的数据
no_re_row = data.drop_duplicates()
print(no_re_row)
 
# 查看基于[物品]列去除重复行的数据
#wp = data.drop_duplicates(['物品'])
#print(wp)
 
# 将去除重复行的数据输出到excel表中
no_re_row.to_excel("test2.xls")

补充知识:Python数据预处理(删除重复值和空值)

pandas几个函数的使用,大数据的预处理(删除重复值和空值),人工删除很麻烦

Python恰好能够解决

注释很详细在这不一一解释了

######################################
##### 读写excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('数据量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,无表头
print('数据集中存在重复观测的数量:\n',np.sum(df_excel.duplicated())) #F为不存在,T为存在,用sum显示重复的数量
print('删除行重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行,结果删除了第二行保留第一行
              ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
              #### 代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。
              #####keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。
              #####inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本

print('数据集列中是否存在缺失值:\n',df_excel.isnull().any())       #F为不存在,T为存在
print('每一行的缺失值个数:',df_excel.isnull().sum(axis=1))
print('每一列的缺失值个数:',df_excel.isnull().sum(axis=0))

          ####### df.isnull().sum(axis=0)每一列的缺失值个数
          #####df.isnull().any()则会判断哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
                # #axis=0: 删除包含缺失值(NaN)的行
                # #axis=1: 删除包含缺失值(NaN)的列
                # # how=‘any' :要有缺失值(NaN)出现删除
                # # how=‘all': 所有的值都缺失(NaN)才删除
                # 还有一个thresh参数
                # thresh=n,保留至少有 n 个非 NaN 数的行

######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列删除edu这一列
print(df_excel.drop([0],axis=0))#按照行删除0这一行

以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python发腾讯微博代码分享
Jan 10 Python
Python迭代用法实例教程
Sep 08 Python
Python中shutil模块的学习笔记教程
Apr 04 Python
python多进程使用及线程池的使用方法代码详解
Oct 24 Python
对python模块中多个类的用法详解
Jan 10 Python
Python模块的加载讲解
Jan 15 Python
django项目环境搭建及在虚拟机本地创建django项目的教程
Aug 02 Python
解决Python计算矩阵乘向量,矩阵乘实数的一些小错误
Aug 26 Python
Python 通过监听端口实现唯一脚本运行方式
May 05 Python
浅析Python 抽象工厂模式的优缺点
Jul 13 Python
python给视频添加背景音乐并改变音量的具体方法
Jul 19 Python
python遍历路径破解表单的示例
Nov 21 Python
pandas.DataFrame.drop_duplicates 用法介绍
Jul 06 #Python
TensorFlow Autodiff自动微分详解
Jul 06 #Python
Keras loss函数剖析
Jul 06 #Python
keras 模型参数,模型保存,中间结果输出操作
Jul 06 #Python
Python自省及反射原理实例详解
Jul 06 #Python
如何通过命令行进入python
Jul 06 #Python
解决TensorFlow调用Keras库函数存在的问题
Jul 06 #Python
You might like
PHP开发中常用的字符串操作函数
2011/02/08 PHP
php结合js实现点击超链接执行删除确认操作
2014/10/31 PHP
laravel 框架配置404等异常页面
2019/01/07 PHP
js字符编码函数区别分析
2008/06/05 Javascript
如何使用jquery控制CSS样式,并且取消Css样式(如背景色,有实例)
2013/07/09 Javascript
文档对象模型DOM通俗讲解
2013/11/01 Javascript
jquery html动态生成select标签出问题的解决方法
2013/11/20 Javascript
jQuery针对各类元素操作基础教程
2014/08/29 Javascript
jQuery的观察者模式详解
2014/12/22 Javascript
javascript截图 jQuery插件imgAreaSelect使用详解
2016/05/04 Javascript
关于jQuery.ajax()的jsonp碰上post详解
2017/07/02 jQuery
vue 实现类似淘宝星级评分的示例
2018/03/01 Javascript
jQuery内容选择器与表单选择器实例分析
2019/06/28 jQuery
node.js中path路径模块的使用方法实例分析
2020/02/13 Javascript
[11:42]2018DOTA2国际邀请赛寻真——OG卷土重来
2018/08/17 DOTA
python使用scrapy解析js示例
2014/01/23 Python
在Python中marshal对象序列化的相关知识
2015/07/01 Python
利用Anaconda完美解决Python 2与python 3的共存问题
2017/05/25 Python
python提取图像的名字*.jpg到txt文本的方法
2018/05/10 Python
解决Pycharm调用Turtle时 窗口一闪而过的问题
2019/02/16 Python
用python实现刷点击率的示例代码
2019/02/21 Python
详解如何管理多个Python版本和虚拟环境
2019/05/10 Python
python代码实现逻辑回归logistic原理
2019/08/07 Python
python TCP包注入方式
2020/05/05 Python
Pycharm如何导入python文件及解决报错问题
2020/05/10 Python
Django框架安装及项目创建过程解析
2020/09/14 Python
HTML5播放实现rtmp流直播
2020/06/16 HTML / CSS
Under Armour安德玛德国官网:美国高端运动科技品牌
2019/03/09 全球购物
Linux Interview Questions For software testers
2013/05/17 面试题
应届大学生求职信
2013/12/01 职场文书
黄河的主人教学反思
2014/02/07 职场文书
党的群众路线教育实践活动自我剖析材料
2014/10/08 职场文书
2015年统战工作总结
2015/05/19 职场文书
2016学习依法治国心得体会
2016/01/15 职场文书
详解Redis的三种常用的缓存读写策略步骤
2022/05/06 Redis
Win2008系统搭建DHCP服务器
2022/06/25 Servers