python 删除excel表格重复行,数据预处理操作


Posted in Python onJuly 06, 2020

使用python删除excel表格重复行。

# 导入pandas包并重命名为pd
import pandas as pd
 
# 读取Excel中Sheet1中的数据
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
 
# 查看读取数据内容
print(data)
 
# 查看是否有重复行
re_row = data.duplicated()
print(re_row)
 
# 查看去除重复行的数据
no_re_row = data.drop_duplicates()
print(no_re_row)
 
# 查看基于[物品]列去除重复行的数据
#wp = data.drop_duplicates(['物品'])
#print(wp)
 
# 将去除重复行的数据输出到excel表中
no_re_row.to_excel("test2.xls")

补充知识:Python数据预处理(删除重复值和空值)

pandas几个函数的使用,大数据的预处理(删除重复值和空值),人工删除很麻烦

Python恰好能够解决

注释很详细在这不一一解释了

######################################
##### 读写excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('数据量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,无表头
print('数据集中存在重复观测的数量:\n',np.sum(df_excel.duplicated())) #F为不存在,T为存在,用sum显示重复的数量
print('删除行重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行,结果删除了第二行保留第一行
              ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
              #### 代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。
              #####keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。
              #####inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本

print('数据集列中是否存在缺失值:\n',df_excel.isnull().any())       #F为不存在,T为存在
print('每一行的缺失值个数:',df_excel.isnull().sum(axis=1))
print('每一列的缺失值个数:',df_excel.isnull().sum(axis=0))

          ####### df.isnull().sum(axis=0)每一列的缺失值个数
          #####df.isnull().any()则会判断哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
                # #axis=0: 删除包含缺失值(NaN)的行
                # #axis=1: 删除包含缺失值(NaN)的列
                # # how=‘any' :要有缺失值(NaN)出现删除
                # # how=‘all': 所有的值都缺失(NaN)才删除
                # 还有一个thresh参数
                # thresh=n,保留至少有 n 个非 NaN 数的行

######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列删除edu这一列
print(df_excel.drop([0],axis=0))#按照行删除0这一行

以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现用户登陆邮件通知的方法
Jul 09 Python
Django框架下在URLconf中指定视图缓存的方法
Jul 23 Python
深入理解Python中的内置常量
May 20 Python
详解Python self 参数
Aug 30 Python
解决Numpy中sum函数求和结果维度的问题
Dec 06 Python
pytorch加载自定义网络权重的实现
Jan 07 Python
Python Flask框架实现简单加法工具过程解析
Jun 03 Python
vscode调试django项目的方法
Aug 06 Python
python爬虫--selenium模块
Mar 31 Python
Pytest之测试命名规则的使用
Apr 16 Python
Flask response响应的具体使用
Jul 15 Python
利用Python实现Picgo图床工具
Nov 23 Python
pandas.DataFrame.drop_duplicates 用法介绍
Jul 06 #Python
TensorFlow Autodiff自动微分详解
Jul 06 #Python
Keras loss函数剖析
Jul 06 #Python
keras 模型参数,模型保存,中间结果输出操作
Jul 06 #Python
Python自省及反射原理实例详解
Jul 06 #Python
如何通过命令行进入python
Jul 06 #Python
解决TensorFlow调用Keras库函数存在的问题
Jul 06 #Python
You might like
PHP 时间日期操作实战
2011/08/26 PHP
深入php socket的讲解与实例分析
2013/06/13 PHP
php ckeditor上传图片文件名乱码解决方法
2013/11/15 PHP
php根据日期判断星座的函数分享
2014/02/13 PHP
PHP中使用Imagick实现各种图片效果实例
2015/01/21 PHP
PHP中捕获超时事件的方法实例
2015/02/12 PHP
PHP 7.4 新语法之箭头函数实例详解
2019/05/09 PHP
xmlHTTP实例
2006/10/24 Javascript
javascript取消文本选定的实现代码
2010/11/14 Javascript
EXTjs4.0的store的findRecord的BUG演示代码
2013/06/08 Javascript
javascript 获取HTML DOM父、子、临近节点
2014/06/16 Javascript
node.js中的fs.mkdir方法使用说明
2014/12/17 Javascript
jQuery简单tab切换效果实现方法
2015/04/08 Javascript
JS实现响应鼠标点击动画渐变弹出层效果代码
2016/03/25 Javascript
VUEJS实战之构建基础并渲染出列表(1)
2016/06/13 Javascript
js中 计算两个日期间的工作日的简单实例
2016/08/08 Javascript
移动端日期插件Mobiscroll.js使用详解
2016/12/19 Javascript
javascript设计模式之单体模式学习笔记
2017/02/15 Javascript
使用jQuery操作DOM的方法小结
2017/02/27 Javascript
javascript 中关于array的常用方法详解
2017/05/05 Javascript
jQuery length 和 size()区别总结
2018/04/26 jQuery
详解angular脏检查原理及伪代码实现
2018/06/08 Javascript
Vue 列表上下过渡效果的实例代码
2019/06/25 Javascript
node 文件上传接口的转发的实现
2019/09/23 Javascript
Centos7 安装Node.js10以上版本的方法步骤
2019/10/15 Javascript
javascript中的with语句学习笔记及用法
2020/02/17 Javascript
vue项目在webpack2实现移动端字体自适配功能
2020/06/02 Javascript
通过python+selenium3实现浏览器刷简书文章阅读量
2017/12/26 Python
使用Python通过win32 COM实现Word文档的写入与保存方法
2018/05/08 Python
Python button选取本地图片并显示的实例
2019/06/13 Python
Python中一个for循环循环多个变量的示例
2019/07/16 Python
pyqt5 QScrollArea设置在自定义侧(任何位置)
2019/09/25 Python
Python使用turtle库绘制小猪佩奇(实例代码)
2020/01/16 Python
python+requests接口自动化框架的实现
2020/08/31 Python
测试工程师岗位职责
2013/11/28 职场文书
计算机个人求职信范例
2014/01/24 职场文书