python 删除excel表格重复行,数据预处理操作


Posted in Python onJuly 06, 2020

使用python删除excel表格重复行。

# 导入pandas包并重命名为pd
import pandas as pd
 
# 读取Excel中Sheet1中的数据
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
 
# 查看读取数据内容
print(data)
 
# 查看是否有重复行
re_row = data.duplicated()
print(re_row)
 
# 查看去除重复行的数据
no_re_row = data.drop_duplicates()
print(no_re_row)
 
# 查看基于[物品]列去除重复行的数据
#wp = data.drop_duplicates(['物品'])
#print(wp)
 
# 将去除重复行的数据输出到excel表中
no_re_row.to_excel("test2.xls")

补充知识:Python数据预处理(删除重复值和空值)

pandas几个函数的使用,大数据的预处理(删除重复值和空值),人工删除很麻烦

Python恰好能够解决

注释很详细在这不一一解释了

######################################
##### 读写excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('数据量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,无表头
print('数据集中存在重复观测的数量:\n',np.sum(df_excel.duplicated())) #F为不存在,T为存在,用sum显示重复的数量
print('删除行重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行,结果删除了第二行保留第一行
              ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
              #### 代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。
              #####keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。
              #####inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本

print('数据集列中是否存在缺失值:\n',df_excel.isnull().any())       #F为不存在,T为存在
print('每一行的缺失值个数:',df_excel.isnull().sum(axis=1))
print('每一列的缺失值个数:',df_excel.isnull().sum(axis=0))

          ####### df.isnull().sum(axis=0)每一列的缺失值个数
          #####df.isnull().any()则会判断哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
                # #axis=0: 删除包含缺失值(NaN)的行
                # #axis=1: 删除包含缺失值(NaN)的列
                # # how=‘any' :要有缺失值(NaN)出现删除
                # # how=‘all': 所有的值都缺失(NaN)才删除
                # 还有一个thresh参数
                # thresh=n,保留至少有 n 个非 NaN 数的行

######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列删除edu这一列
print(df_excel.drop([0],axis=0))#按照行删除0这一行

以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python备份文件的脚本
Aug 11 Python
django框架如何集成celery进行开发
May 24 Python
TensorFlow实现卷积神经网络CNN
Mar 09 Python
解决pycharm remote deployment 配置的问题
Jun 27 Python
python实现几种归一化方法(Normalization Method)
Jul 31 Python
python爬虫 2019中国好声音评论爬取过程解析
Aug 26 Python
Python 迭代,for...in遍历,迭代原理与应用示例
Oct 12 Python
Python 依赖库太多了该如何管理
Nov 08 Python
浅谈tensorflow中张量的提取值和赋值
Jan 19 Python
Python列表去重复项的N种方法(实例代码)
May 12 Python
python 爬虫网页登陆的简单实现
Nov 30 Python
使用Django的JsonResponse返回数据的实现
Jan 15 Python
pandas.DataFrame.drop_duplicates 用法介绍
Jul 06 #Python
TensorFlow Autodiff自动微分详解
Jul 06 #Python
Keras loss函数剖析
Jul 06 #Python
keras 模型参数,模型保存,中间结果输出操作
Jul 06 #Python
Python自省及反射原理实例详解
Jul 06 #Python
如何通过命令行进入python
Jul 06 #Python
解决TensorFlow调用Keras库函数存在的问题
Jul 06 #Python
You might like
咖啡豆要不要放冰箱的原因
2021/03/04 冲泡冲煮
对淘宝URL中ID提取的PHP代码
2013/09/01 PHP
服务器上配置PHP运行环境教程
2015/02/12 PHP
PHP中使用Memache作为进程锁的操作类分享
2015/03/30 PHP
php验证手机号码
2015/11/11 PHP
php 在字符串指定位置插入新字符的简单实现
2016/06/28 PHP
Kindeditor编辑器添加图片上传水印功能(php代码)
2017/08/03 PHP
PHP的mysqli_select_db()函数讲解
2019/01/23 PHP
PHP设计模式之命令模式示例详解
2020/12/20 PHP
jquery表单验证框架提供的身份证验证方法(示例代码)
2013/12/27 Javascript
Angular-Ui-Router+ocLazyLoad动态加载脚本示例
2017/03/02 Javascript
Node.js v8.0.0正式发布!看看带来了哪些主要新特性
2017/06/02 Javascript
JS实现给json数组动态赋值的方法示例
2020/03/19 Javascript
详解vue.js移动端导航navigationbar的封装
2017/07/05 Javascript
Vue 表单控件绑定的实现示例
2017/08/11 Javascript
javascript 面向对象实战思想分享
2017/09/07 Javascript
解决Angular.js中使用Swiper插件不能滑动的问题
2018/02/26 Javascript
微信小程序开发之tabbar图标和颜色的实现
2018/10/17 Javascript
微信小程序调用后台service教程详解
2020/11/06 Javascript
如何在 Vue 表单中处理图片
2021/01/26 Vue.js
Python3实现的字典、列表和json对象互转功能示例
2018/05/22 Python
TensorFlow实现模型评估
2018/09/07 Python
解决Pycharm调用Turtle时 窗口一闪而过的问题
2019/02/16 Python
Python简单基础小程序的实例代码
2019/04/28 Python
Django中文件上传和文件访问微项目的方法
2020/04/27 Python
BeautifulSoup获取指定class样式的div的实现
2020/12/07 Python
python中PyQuery库用法分享
2021/01/15 Python
python+selenium自动化实战携带cookies模拟登陆微博
2021/01/19 Python
HTML5对比HTML4的主要改变和改进总结
2016/05/27 HTML / CSS
Hashtable 添加内容的方式有哪几种,有什么区别?
2012/04/08 面试题
采购员岗位职责
2013/11/15 职场文书
机工车间主任岗位职责
2014/03/05 职场文书
企业总经理助理岗位职责
2014/09/12 职场文书
2014年仓库管理工作总结
2014/12/17 职场文书
关于办理居住证的介绍信模板
2019/11/27 职场文书
Python爬虫基础之简单说一下scrapy的框架结构
2021/06/26 Python