python 删除excel表格重复行,数据预处理操作


Posted in Python onJuly 06, 2020

使用python删除excel表格重复行。

# 导入pandas包并重命名为pd
import pandas as pd
 
# 读取Excel中Sheet1中的数据
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
 
# 查看读取数据内容
print(data)
 
# 查看是否有重复行
re_row = data.duplicated()
print(re_row)
 
# 查看去除重复行的数据
no_re_row = data.drop_duplicates()
print(no_re_row)
 
# 查看基于[物品]列去除重复行的数据
#wp = data.drop_duplicates(['物品'])
#print(wp)
 
# 将去除重复行的数据输出到excel表中
no_re_row.to_excel("test2.xls")

补充知识:Python数据预处理(删除重复值和空值)

pandas几个函数的使用,大数据的预处理(删除重复值和空值),人工删除很麻烦

Python恰好能够解决

注释很详细在这不一一解释了

######################################
##### 读写excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('数据量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,无表头
print('数据集中存在重复观测的数量:\n',np.sum(df_excel.duplicated())) #F为不存在,T为存在,用sum显示重复的数量
print('删除行重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行,结果删除了第二行保留第一行
              ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
              #### 代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。
              #####keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。
              #####inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本

print('数据集列中是否存在缺失值:\n',df_excel.isnull().any())       #F为不存在,T为存在
print('每一行的缺失值个数:',df_excel.isnull().sum(axis=1))
print('每一列的缺失值个数:',df_excel.isnull().sum(axis=0))

          ####### df.isnull().sum(axis=0)每一列的缺失值个数
          #####df.isnull().any()则会判断哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
                # #axis=0: 删除包含缺失值(NaN)的行
                # #axis=1: 删除包含缺失值(NaN)的列
                # # how=‘any' :要有缺失值(NaN)出现删除
                # # how=‘all': 所有的值都缺失(NaN)才删除
                # 还有一个thresh参数
                # thresh=n,保留至少有 n 个非 NaN 数的行

######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列删除edu这一列
print(df_excel.drop([0],axis=0))#按照行删除0这一行

以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python制作简单的朴素基数估计器的教程
Apr 01 Python
使用python和Django完成博客数据库的迁移方法
Jan 05 Python
python requests爬取高德地图数据的实例
Nov 10 Python
Python 使用 attrs 和 cattrs 实现面向对象编程的实践
Jun 12 Python
python3实现斐波那契数列(4种方法)
Jul 15 Python
学习和使用python的13个理由
Jul 30 Python
使用Python实现 学生学籍管理系统
Nov 26 Python
linux环境下安装python虚拟环境及注意事项
Jan 07 Python
python使用梯度下降和牛顿法寻找Rosenbrock函数最小值实例
Apr 02 Python
keras 如何保存最佳的训练模型
May 25 Python
python简单利用字典破解zip文件口令
Sep 07 Python
Python类的继承super相关原理解析
Oct 22 Python
pandas.DataFrame.drop_duplicates 用法介绍
Jul 06 #Python
TensorFlow Autodiff自动微分详解
Jul 06 #Python
Keras loss函数剖析
Jul 06 #Python
keras 模型参数,模型保存,中间结果输出操作
Jul 06 #Python
Python自省及反射原理实例详解
Jul 06 #Python
如何通过命令行进入python
Jul 06 #Python
解决TensorFlow调用Keras库函数存在的问题
Jul 06 #Python
You might like
解决GD中文乱码问题
2007/02/14 PHP
PHP容易被忽略而出错陷阱 数字与字符串比较
2011/11/10 PHP
深入apache配置文件httpd.conf的部分参数说明
2013/06/28 PHP
thinkphp3.2.2前后台公用类架构问题分析
2014/11/25 PHP
php抽象类用法实例分析
2015/07/07 PHP
如何解决PHP无法实现多线程的问题
2015/09/25 PHP
win平台安装配置Nginx+php+mysql 环境
2016/01/12 PHP
PHP 验证身份证是否合法的函数
2017/02/09 PHP
js操作CheckBoxList实现全选/反选(在客服端完成)
2013/02/02 Javascript
jQuery仿Excel表格编辑功能的实现代码
2013/05/01 Javascript
thinkphp中常用的系统常量和系统变量
2014/03/05 Javascript
JavaScript Sort 的一个错误用法示例
2015/03/20 Javascript
JavaScript实现的浮动层框架用法实例分析
2015/10/10 Javascript
jQuery实现分隔条左右拖动功能
2015/11/21 Javascript
JavaScript中的Number数字类型学习笔记
2016/05/26 Javascript
javascript的replace方法结合正则使用实例总结
2016/06/16 Javascript
如何提高数据访问速度
2016/12/26 Javascript
详谈jQuery unbind 删除绑定事件 / 移除标签方法
2017/03/02 Javascript
把vue-router和express项目部署到服务器的方法
2018/02/21 Javascript
简单明了区分escape、encodeURI和encodeURIComponent
2018/05/26 Javascript
vue中v-model的应用及使用详解
2018/06/27 Javascript
微信小程序自定义tabbar custom-tab-bar 6s出不来解决方案(cover-view不兼容)
2019/11/01 Javascript
Javascript模拟实现new原理解析
2020/03/03 Javascript
python处理html转义字符的方法详解
2016/07/01 Python
微信跳一跳小游戏python脚本
2018/01/05 Python
浅谈python 导入模块和解决文件句柄找不到问题
2018/12/15 Python
Django时区详解
2019/07/24 Python
python基础教程之while循环
2019/08/14 Python
python加密解密库cryptography使用openSSL生成的密匙加密解密
2020/02/11 Python
澳大利亚设计的优质鞋类和适合澳大利亚生活方式的服装:Rivers
2019/04/23 全球购物
建筑毕业生自我鉴定
2013/10/18 职场文书
国际贸易毕业生求职信
2014/07/20 职场文书
运动会通讯稿600字
2015/07/20 职场文书
Python图像处理之图像拼接
2021/04/28 Python
浅谈Java实现分布式事务的三种方案
2021/06/11 Java/Android
基于PyQt5制作一个群发邮件工具
2022/04/08 Python