编程 Python

python 删除excel表格重复行,数据预处理操作

Posted in Python onJuly 06, 2020

使用python删除excel表格重复行。

# 导入pandas包并重命名为pd
import pandas as pd
 
# 读取Excel中Sheet1中的数据
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
 
# 查看读取数据内容
print(data)
 
# 查看是否有重复行
re_row = data.duplicated()
print(re_row)
 
# 查看去除重复行的数据
no_re_row = data.drop_duplicates()
print(no_re_row)
 
# 查看基于[物品]列去除重复行的数据
#wp = data.drop_duplicates(['物品'])
#print(wp)
 
# 将去除重复行的数据输出到excel表中
no_re_row.to_excel("test2.xls")

补充知识：Python数据预处理（删除重复值和空值）

pandas几个函数的使用，大数据的预处理（删除重复值和空值），人工删除很麻烦

Python恰好能够解决

注释很详细在这不一一解释了

######################################
##### 读写excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('数据量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存，无表头
print('数据集中存在重复观测的数量：\n',np.sum(df_excel.duplicated())) #F为不存在，T为存在，用sum显示重复的数量
print('删除行重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行，结果删除了第二行保留第一行
              ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
              #### 代码中subset对应的值是列名，表示只考虑这两列，将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。
              #####keep='first'表示保留第一次出现的重复行，是默认值。keep另外两个取值为"last"和False，分别表示保留最后一次出现的重复行和去除所有重复行。
              #####inplace=True表示直接在原来的DataFrame上删除重复项，而默认值False表示生成一个副本

print('数据集列中是否存在缺失值：\n',df_excel.isnull().any())       #F为不存在，T为存在
print('每一行的缺失值个数：',df_excel.isnull().sum(axis=1))
print('每一列的缺失值个数：',df_excel.isnull().sum(axis=0))

          ####### df.isnull().sum(axis=0)每一列的缺失值个数
          #####df.isnull().any()则会判断哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
                # #axis=0: 删除包含缺失值（NaN）的行
                # #axis=1: 删除包含缺失值（NaN）的列
                # # how=‘any' :要有缺失值（NaN）出现删除
                # # how=‘all': 所有的值都缺失（NaN）才删除
                # 还有一个thresh参数
                # thresh=n，保留至少有 n 个非 NaN 数的行

######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列删除edu这一列
print(df_excel.drop([0],axis=0))#按照行删除0这一行

以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python 删除excel表格重复行,数据预处理操作

- Author -

HelenLee01

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现的几个常用排序算法实例

Jun 16 Python

Python实现设置windows桌面壁纸代码分享

Mar 28 Python

Python基于更相减损术实现求解最大公约数的方法

Apr 04 Python

如何优雅地处理Django中的favicon.ico图标详解

Jul 05 Python

python爬虫基础教程：requests库（二）代码实例

Apr 09 Python

Python Pandas 如何shuffle（打乱）数据

Jul 30 Python

python并发编程多进程之守护进程原理解析

Aug 20 Python

python conda操作方法

Sep 11 Python

Pytorch中Tensor与各种图像格式的相互转化详解

Dec 26 Python

python处理RSTP视频流过程解析

Jan 11 Python

Python中的X[:,0]、X[:,1]、X[:,:,0]、X[:,:,1]、X[:,m:n]和X[:,:,m:n]

Feb 13 Python

python如何利用paramiko执行服务器命令

Nov 07 Python

pandas.DataFrame.drop_duplicates 用法介绍

Jul 06 #Python

TensorFlow Autodiff自动微分详解

Jul 06 #Python

Keras loss函数剖析

Jul 06 #Python

keras 模型参数,模型保存,中间结果输出操作

Jul 06 #Python

Python自省及反射原理实例详解

Jul 06 #Python

如何通过命令行进入python

Jul 06 #Python

解决TensorFlow调用Keras库函数存在的问题

Jul 06 #Python

You might like

关于url地址传参数时字符串有回车造成页面脚本赋值失败的解决方法

2013/06/28 PHP

PHP 7.0.2 正式版发布

2016/01/08 PHP

php提供实现反射的方法和实例代码

2019/09/17 PHP

如何通过PHP实现Des加密算法代码实例

2020/05/09 PHP

PHP7 其他语言层面的修改

2021/03/09 PHP

在html页面上拖放移动标签

2010/01/08 Javascript

jQuery EasyUI 中文API Button使用实例

2010/04/14 Javascript

jquery 列表双向选择器之改进版

2013/08/09 Javascript

两种方法基于jQuery实现IE浏览器兼容placeholder效果

2014/10/14 Javascript

JavaScript中判断函数、变量是否存在

2015/06/10 Javascript

Vue.js实现价格计算器功能

2020/03/30 Javascript

JavaScript设计模式之观察者模式(发布订阅模式)原理与实现方法示例

2018/07/27 Javascript

react native 获取地理位置的方法示例

2018/08/28 Javascript

在vue项目中引入vue-beauty操作方法

2019/02/11 Javascript

Vue前端项目部署IIS的实现

2020/01/06 Javascript

node.js使用zlib模块进行数据压缩和解压操作示例

2020/02/12 Javascript

JavaScript检测浏览器是否支持CSS变量代码实例

2020/04/03 Javascript

Python解析xml中dom元素的方法

2015/03/12 Python

python用来获得图片exif信息的库实例分析

2015/03/16 Python

python计算auc指标实例

2017/07/13 Python

用Python将结果保存为xlsx的方法

2019/01/28 Python

PyQt5实现让QScrollArea支持鼠标拖动的操作方法

2019/06/19 Python

Python解析json时提示“string indices must be integers”问题解决方法

2019/07/31 Python

深入浅析python 中的self和cls的区别

2020/06/20 Python

锐步美国官方网站：Reebok美国

2018/01/10 全球购物

英国领先的票务代理商之一：The Ticket Factory

2019/02/09 全球购物

写出一个方法实现冒泡排序

2016/07/08 面试题

技校生自我鉴定范文

2013/09/26 职场文书

成人大专生实习期的自我评价

2013/10/02 职场文书

餐饮业员工工作决心书

2014/03/11 职场文书

英语故事演讲稿

2014/04/29 职场文书

法律专业大学生职业生涯规划书：向目标一步步迈进

2014/09/22 职场文书

《正面管教》读后有感：和善而坚定的旅程

2019/12/19 职场文书

python实现过滤敏感词

2021/05/08 Python

MySQL 使用事件（Events）完成计划任务

2021/05/24 MySQL

Python与C++中梯度方向直方图的实现

2022/03/17 Python