python 删除excel表格重复行,数据预处理操作


Posted in Python onJuly 06, 2020

使用python删除excel表格重复行。

# 导入pandas包并重命名为pd
import pandas as pd
 
# 读取Excel中Sheet1中的数据
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
 
# 查看读取数据内容
print(data)
 
# 查看是否有重复行
re_row = data.duplicated()
print(re_row)
 
# 查看去除重复行的数据
no_re_row = data.drop_duplicates()
print(no_re_row)
 
# 查看基于[物品]列去除重复行的数据
#wp = data.drop_duplicates(['物品'])
#print(wp)
 
# 将去除重复行的数据输出到excel表中
no_re_row.to_excel("test2.xls")

补充知识:Python数据预处理(删除重复值和空值)

pandas几个函数的使用,大数据的预处理(删除重复值和空值),人工删除很麻烦

Python恰好能够解决

注释很详细在这不一一解释了

######################################
##### 读写excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('数据量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,无表头
print('数据集中存在重复观测的数量:\n',np.sum(df_excel.duplicated())) #F为不存在,T为存在,用sum显示重复的数量
print('删除行重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行,结果删除了第二行保留第一行
              ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
              #### 代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。
              #####keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。
              #####inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本

print('数据集列中是否存在缺失值:\n',df_excel.isnull().any())       #F为不存在,T为存在
print('每一行的缺失值个数:',df_excel.isnull().sum(axis=1))
print('每一列的缺失值个数:',df_excel.isnull().sum(axis=0))

          ####### df.isnull().sum(axis=0)每一列的缺失值个数
          #####df.isnull().any()则会判断哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
                # #axis=0: 删除包含缺失值(NaN)的行
                # #axis=1: 删除包含缺失值(NaN)的列
                # # how=‘any' :要有缺失值(NaN)出现删除
                # # how=‘all': 所有的值都缺失(NaN)才删除
                # 还有一个thresh参数
                # thresh=n,保留至少有 n 个非 NaN 数的行

######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列删除edu这一列
print(df_excel.drop([0],axis=0))#按照行删除0这一行

以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python3中的2to3转换工具使用示例
Jun 12 Python
Python urls.py的三种配置写法实例详解
Apr 28 Python
python 创建弹出式菜单的实现代码
Jul 11 Python
Python3实战之爬虫抓取网易云音乐的热门评论
Oct 09 Python
Python实现合并同一个文件夹下所有txt文件的方法示例
Apr 26 Python
利用nohup来开启python文件的方法
Jan 14 Python
对Python 获取类的成员变量及临时变量的方法详解
Jan 22 Python
Python3环境安装Scrapy爬虫框架过程及常见错误
Jul 12 Python
python实现提取COCO,VOC数据集中特定的类
Mar 10 Python
Python分析最近大火的网剧《隐秘的角落》
Jul 02 Python
python中如何打包用户自定义模块
Sep 23 Python
Python爬虫之Selenium警告框(弹窗)处理
Dec 04 Python
pandas.DataFrame.drop_duplicates 用法介绍
Jul 06 #Python
TensorFlow Autodiff自动微分详解
Jul 06 #Python
Keras loss函数剖析
Jul 06 #Python
keras 模型参数,模型保存,中间结果输出操作
Jul 06 #Python
Python自省及反射原理实例详解
Jul 06 #Python
如何通过命令行进入python
Jul 06 #Python
解决TensorFlow调用Keras库函数存在的问题
Jul 06 #Python
You might like
PHP中在数据库中保存Checkbox数据(1)
2006/10/09 PHP
UCenter Home二次开发指南
2009/05/28 PHP
thinkphp模板的包含与渲染实例分析
2014/11/26 PHP
php fseek函数读取大文件两种方法
2016/10/12 PHP
php使用正则表达式获取字符串中的URL
2016/12/29 PHP
Laravel框架自定义验证过程实例分析
2019/02/01 PHP
PHP程序员简单的开展服务治理架构操作详解(一)
2020/05/14 PHP
实用的JS正则表达式(手机号码/IP正则/邮编正则/电话等)
2013/01/11 Javascript
Jquery实现自定义弹窗示例
2014/03/12 Javascript
jquery自定义下拉列表示例
2014/04/25 Javascript
JS实现页面超时后自动跳转到登陆页面
2015/01/19 Javascript
jquery获取多个checkbox的值异步提交给php
2015/07/07 Javascript
jQuery实现平滑滚动页面到指定锚点链接的方法
2015/07/15 Javascript
vue2.0实现倒计时的插件(时间戳 刷新 跳转 都不影响)
2017/03/30 Javascript
vue props传值失败 输出undefined的解决方法
2018/09/11 Javascript
webpack 最佳配置指北(推荐)
2020/01/07 Javascript
node.js中stream流中可读流和可写流的实现与使用方法实例分析
2020/02/13 Javascript
JavaScript检测浏览器是否支持CSS变量代码实例
2020/04/03 Javascript
JavaScript实现手机号码 3-4-4格式并控制新增和删除时光标的位置
2020/06/02 Javascript
js实现3D旋转效果
2020/08/18 Javascript
vue element ui validate 主动触发错误提示操作
2020/09/21 Javascript
Python 匹配任意字符(包括换行符)的正则表达式写法
2009/10/29 Python
python正则表达式修复网站文章字体不统一的解决方法
2013/02/21 Python
跟老齐学Python之玩转字符串(2)
2014/09/14 Python
Python中random模块生成随机数详解
2016/03/10 Python
运动检测ViBe算法python实现代码
2018/01/09 Python
opencv python 2D直方图的示例代码
2018/07/20 Python
python实现微信小程序自动回复
2018/09/10 Python
Python使用pymongo库操作MongoDB数据库的方法实例
2019/02/22 Python
python 计算平均平方误差(MSE)的实例
2019/06/29 Python
老板电器官方购物商城:老板油烟机、燃气灶、消毒柜、电烤箱
2018/05/30 全球购物
什么是规则表达式
2012/05/03 面试题
机械工程系毕业生求职信
2013/09/27 职场文书
机关班子查摆问题及整改措施
2014/10/28 职场文书
同意转租证明
2015/06/24 职场文书
Python实战之OpenCV实现猫脸检测
2021/06/26 Python