python 删除excel表格重复行,数据预处理操作


Posted in Python onJuly 06, 2020

使用python删除excel表格重复行。

# 导入pandas包并重命名为pd
import pandas as pd
 
# 读取Excel中Sheet1中的数据
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
 
# 查看读取数据内容
print(data)
 
# 查看是否有重复行
re_row = data.duplicated()
print(re_row)
 
# 查看去除重复行的数据
no_re_row = data.drop_duplicates()
print(no_re_row)
 
# 查看基于[物品]列去除重复行的数据
#wp = data.drop_duplicates(['物品'])
#print(wp)
 
# 将去除重复行的数据输出到excel表中
no_re_row.to_excel("test2.xls")

补充知识:Python数据预处理(删除重复值和空值)

pandas几个函数的使用,大数据的预处理(删除重复值和空值),人工删除很麻烦

Python恰好能够解决

注释很详细在这不一一解释了

######################################
##### 读写excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('数据量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,无表头
print('数据集中存在重复观测的数量:\n',np.sum(df_excel.duplicated())) #F为不存在,T为存在,用sum显示重复的数量
print('删除行重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行,结果删除了第二行保留第一行
              ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
              #### 代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。
              #####keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。
              #####inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本

print('数据集列中是否存在缺失值:\n',df_excel.isnull().any())       #F为不存在,T为存在
print('每一行的缺失值个数:',df_excel.isnull().sum(axis=1))
print('每一列的缺失值个数:',df_excel.isnull().sum(axis=0))

          ####### df.isnull().sum(axis=0)每一列的缺失值个数
          #####df.isnull().any()则会判断哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
                # #axis=0: 删除包含缺失值(NaN)的行
                # #axis=1: 删除包含缺失值(NaN)的列
                # # how=‘any' :要有缺失值(NaN)出现删除
                # # how=‘all': 所有的值都缺失(NaN)才删除
                # 还有一个thresh参数
                # thresh=n,保留至少有 n 个非 NaN 数的行

######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列删除edu这一列
print(df_excel.drop([0],axis=0))#按照行删除0这一行

以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python自动化部署工具Fabric的简单上手指南
Apr 19 Python
用pickle存储Python的原生对象方法
Apr 28 Python
Python调用C# Com dll组件实战教程
Oct 12 Python
对python list 遍历删除的正确方法详解
Jun 29 Python
Flask框架web开发之零基础入门
Dec 10 Python
python操作文件的参数整理
Jun 11 Python
python实现的发邮件功能示例
Sep 11 Python
Python urlopen()和urlretrieve()用法解析
Jan 07 Python
Python reversed函数及使用方法解析
Mar 17 Python
python requests包的request()函数中的参数-params和data的区别介绍
May 05 Python
python 使用建议与技巧分享(四)
Aug 18 Python
python中的时区问题
Jan 14 Python
pandas.DataFrame.drop_duplicates 用法介绍
Jul 06 #Python
TensorFlow Autodiff自动微分详解
Jul 06 #Python
Keras loss函数剖析
Jul 06 #Python
keras 模型参数,模型保存,中间结果输出操作
Jul 06 #Python
Python自省及反射原理实例详解
Jul 06 #Python
如何通过命令行进入python
Jul 06 #Python
解决TensorFlow调用Keras库函数存在的问题
Jul 06 #Python
You might like
《Re:从零开始的异世界生活 冰结之绊》
2020/04/09 日漫
谈谈PHP语法(5)
2006/10/09 PHP
用PHP为SHOPEX增加日志功能代码
2010/07/02 PHP
PHP利用APC模块实现文件上传进度条的方法
2015/01/26 PHP
基于jQueryUI和Corethink实现百度的搜索提示功能
2016/11/09 PHP
Django中通过定时任务触发页面静态化的处理方式
2018/08/29 PHP
jQuery数组处理方法汇总
2011/06/20 Javascript
浅谈jquery回调函数callback的使用
2015/01/30 Javascript
JS数组合并push与concat区别分析
2015/12/17 Javascript
简单的JS时钟实例讲解
2016/01/13 Javascript
js+html5实现canvas绘制椭圆形图案的方法
2016/05/21 Javascript
js简单正则验证汉字英文及下划线的方法
2016/11/28 Javascript
JavaScript使用readAsDataUrl方法预览图片
2017/05/10 Javascript
详解 vue.js用法和特性
2017/10/15 Javascript
html中通过JS获取JSON数据并加载的方法
2017/11/30 Javascript
JS实现的计数排序与基数排序算法示例
2017/12/04 Javascript
js实现手机web图片左右滑动效果
2017/12/29 Javascript
vue动态渲染svg、添加点击事件的实现
2020/03/13 Javascript
原生js实现随机点名
2020/07/05 Javascript
jQuery中getJSON跨域原理的深入讲解
2020/09/02 jQuery
vue将文件/图片批量打包下载zip的教程
2020/10/21 Javascript
python实现列表中由数值查到索引的方法
2018/06/27 Python
pandas 实现字典转换成DataFrame的方法
2018/07/04 Python
python 3.6.7实现端口扫描器
2019/09/04 Python
From CSV to SQLite3 by python 导入csv到sqlite实例
2020/02/14 Python
python读写文件write和flush的实现方式
2020/02/21 Python
使用python执行shell脚本 并动态传参 及subprocess的使用详解
2020/03/06 Python
Django使用rest_framework写出API
2020/05/21 Python
在HTML5 Canvas中放入图片和保存为图片的方法
2014/05/03 HTML / CSS
美国最大的团购网站:Groupon
2016/07/23 全球购物
保安员岗位职责
2013/11/17 职场文书
12月红领巾广播稿
2014/02/13 职场文书
优秀管理者获奖感言
2014/02/17 职场文书
消防工作实施方案
2014/06/09 职场文书
村主任“四风”问题个人对照检查材料思想汇报
2014/10/02 职场文书
Python数据分析之绘图和可视化详解
2021/06/02 Python