python批量查询、汉字去重处理CSV文件


Posted in Python onMay 31, 2018

CSV文件用记事本打开后一般为由逗号隔开的字符串,其处理方法用Python的代码如下。为方便各种程度的人阅读在代码中有非常详细的注释。

1.查询指定列,并保存到新的csv文件。

# -*- coding: utf-8 -*- 
''''' 
Author: Good_Night 
Time: 2018/1/30 03:50 
Edition: 1.0 
''' 
# 导入必须的csv库 
import csv 
 
# 创建临时文件temp.csv找出所需要的列 
temp_file = open("temp.csv", "w", newline='') # 如果不指定newline='',则每写入一行将有一空行被写入 
temp_csv_writer = csv.writer(temp_file, dialect="excel") 
# 读取input.csv文件,此时只有指定的一列数据 
with open('input.csv') as file: 
  temp_readcsv = csv.reader(file, delimiter=',') 
  for row in temp_readcsv: # 取出input.csv所有列数据 
    temp = [row[3]] # 得到指定列数据 
#    print(row[3])  #print()打印input.csv文件中第3列所有数据 
    temp_csv_writer.writerow(temp) # 第3列每行数据循环写入temp.csv文件中 
temp_file.close()

2.查询指定列中,每行数据出现在所有行数据的次数,并保存到新的csv文件。

# -*- coding: utf-8 -*- 
''''' 
Author: Good_Night 
Time: 2018/1/30 03:50 
Edition: 1.0 
''' 
# 导入必须的csv库 
import csv 
 
# 创建临时文件temp.csv找出所需要的列 
temp_file = open("temp.csv", "w", newline='') # 如果不指定newline='',则每写入一行将有一空行被写入 
temp_csv_writer = csv.writer(temp_file, dialect="excel") 
# 读取input.csv文件,此时只有指定的一列数据 
with open('input.csv') as file: 
  temp_readcsv = csv.reader(file, delimiter=',') 
  for row in temp_readcsv: # 取出input.csv所有列数据 
    temp = [row[3]] # 得到指定列数据 
#    print(row[3])  #print()打印input.csv文件中第3列所有数据 
    temp_csv_writer.writerow(temp) # 第3列每行数据循环写入temp.csv文件中 
temp_file.close() 
 
# 在临时文件基础上匹配所要找的数据,计算出次数生成out.csv文件 
flag = 0 # 临时变量 
out1 = [] # 新建数组来保存指定列的每行数据 
time = [] # 新建数组来保存指定列的每行数据出现的次数 
out_file = open("out.csv", "w", newline='') # 如果不指定newline='',则每写入一行将有一空行被写入 
out_csv_writer = csv.writer(out_file, dialect="excel") 
out_csv_writer.writerow(["TIMES"]) 
# 读取temp.csv文件,此时只有指定的一列数据 
with open('temp.csv') as file2: 
  out_readcsv = csv.reader(file2, delimiter=',') 
  for St in out_readcsv: # 循环取出列的每行数据 
    out1.append(St) # append()将列的每行数据变为out1链表(list)的后续增加的元素,即将列数据变为一维数组。 
#  print(out1[1]) # 打印out1[n]的第n个元素,即原列的第n行元素 
  for i in range(len(out1)): # len()获得out1链表(list)中元素的个数,便于判断循环次数。 
#    print(out1[i]) # 打印out1链表所有元素,检验循环是否出错 
    flag = out1.count(out1[i]) # count()获得out1链表中第i个元素在所有元素中出现的次数。 
    time.append(flag) # 将获得的某元素出现的次数按顺序保存至time[]数组里 
#  print(time) # 打印显示所有元素出现的次数,判断是否出错 
  for j in range(len(out1)): # len()得到out1链表元素个数,依此作为time[]查找下标 
    times = [time[j]] # 取出元素对应出现的次数 
    out_csv_writer.writerow(times) # 写入out.csv文件里 
    print(times) # 打印显示次数 
out_file.close()

因为是批量处理嘛~所以写的是所有数据重复出现的次数(但这个有点BUG,可能看完代码就知道了,没有去重!!!举个例子说a出现在第一行和第三行共2次,结果出来后就是第一行出现a,对应次数为2,第三行又出现a,对应次数也是2....这就是没有去重的麻烦之处,重复的数据会再次显示。)。但稍微修改一下可实现搜索某一数据出现的次数啦~

3.查询指定列中,每行数据出现在所有行数据的次数,去重处理后,并保存到新的csv文件。

一般去重都是数字或者字符去重,可以直接调用相应函数,而汉字去重就比只能循环比较了。所以这个算是包容性相当大的一种方式。

# -*- coding: utf-8 -*- 
''''' 
Author: Good Night 
Time: 2018/2/7 18:50 
Edition: 2.0 
''' 
# 导入必须的csv库 
import csv 
 
# 创建临时文件temp.csv找出所需要的列 
temp_file = open("temp.csv", "w", newline='') # 如果不指定newline='',则每写入一行将有一空行被写入 
temp_csv_writer = csv.writer(temp_file, dialect="excel") 
# 读取input.csv文件,此时只有指定的一列数据 
with open('input.csv') as file: 
  temp_readcsv = csv.reader(file, delimiter=',') 
  for row in temp_readcsv: # 取出input.csv所有列数据 
    temp = [row[3]] # 得到指定列数据 
#    print(row[3]) #print()打印input.csv文件中第3列所有数据 
    temp_csv_writer.writerow(temp) # 第3列每行数据循环写入temp.csv文件中 
temp_file.close() 
 
# 在临时文件基础上匹配所要找的数据,计算出次数生成out.csv文件 
out1 = [] # 新建数组来保存指定列的每行数据 
out_time = [] # 新建数组来保存指定列的每行数据出现的次数 
out_file = open("out.csv", "w", newline='') # 如果不指定newline='',则每写入一行将有一空行被写入 
out_csv_writer = csv.writer(out_file, dialect="excel") 
out_csv_writer.writerow(["ID", "TIMES"]) # 写入标题 数据,出现次数 
# 读取temp.csv文件,此时只有指定的一列数据 
with open('temp.csv') as file2: 
  out_readcsv = csv.reader(file2, delimiter=',') 
  for St in out_readcsv: # 循环取出列的每行数据 
    out1.append(St) # append()将列的每行数据变为out1链表(list)的后续增加的元素,即将列数据变为一维数组。 
  print(out1)  # 打印out1[n]的第n个元素,即原列的第n行元素 
 
# list的迭代其实是以list中项的序列号来遍历的,不会因为list的的改变而改变, 
# 永远都是按照序号的0,1,2...遍历。当删除其中某一项时,它之后的每一项的序列号各往前移一项. 
# 当遍历list时,若发现0项是重复项(因为内嵌函数均处理第一个发现项),于是将其移除。当移除0项时, 
# 原来的1项变为0项,以此类推。此时list迭代由1开始(0项已过),但此时的1项是原list的2项,这样子就漏掉原list的1项! 
  # 可以将list反转来进行删除操作,其本质就是放当发现某项具有重复项时,就从后往前删除。 
  # 比如迭代0项发现1项是它的重复项,那么就删除1项,删除1项后2项变1项,而此时list迭代正则到了1项。 
  # 从原始list的角度上来说,就跳过了1项。但是它却不影响去重,因为它跳过的是重复项。 
  # list的不重复迭代反而使去重效率更高且不会漏掉不重复项。因此原始list直接去重的核心问题不是迭代的漏项,而是迭代不能漏掉不重复项。 
  for i in out1: 
    a = out1.count(i) # 取元素 
    out_time.append(a) # 得到出现的次数 
#    print(i, a) 
    if a > 1: 
      out1.reverse() # 将list反转来进行删除操作 
      for k in range(1, a): 
        out1.remove(i) # 从后往前删除直到最前面的第一个为止,这样即删除了后面的,又保留了第一个! 
      out1.reverse() # 将list再反转回来,保证下次循环又是从原始顺序来删除 
  print(out1) # 此时out1链表(list)即去重后的list 
  print(out_time) # 元素出现的次数 
  for j in range(len(out1)): # len()得到out1链表元素个数,依此作为time[]查找下标 
    out_row = [out1[j], out_time[j]]  # 取元素和对应的次数 
    out_csv_writer.writerow(out_row) # 写入out.csv文件里 
out_file.close()

划重点!这个代码是经过了去重处理后的,完全不用担心会有重复数据显示啦~

Python处理此类数据相当快,大概一万行数据只需要1秒.......

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python相似模块用例
Mar 04 Python
Python中list初始化方法示例
Sep 18 Python
python中os和sys模块的区别与常用方法总结
Nov 14 Python
python之当你发现QTimer不能用时的解决方法
Jun 21 Python
python3应用windows api对后台程序窗口及桌面截图并保存的方法
Aug 27 Python
使用PyTorch将文件夹下的图片分为训练集和验证集实例
Jan 08 Python
Python chardet库识别编码原理解析
Feb 18 Python
django rest framework serializer返回时间自动格式化方法
Mar 31 Python
解决python父线程关闭后子线程不关闭问题
Apr 25 Python
django ORM之values和annotate使用详解
May 19 Python
Python3内置函数chr和ord实现进制转换
Jun 05 Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 Python
python破解zip加密文件的方法
May 31 #Python
python删除本地夹里重复文件的方法
Nov 19 #Python
Python处理命令行参数模块optpars用法实例分析
May 31 #Python
python筛选出两个文件中重复行的方法
May 31 #Python
python删除文本中行数标签的方法
May 31 #Python
Python使用wget实现下载网络文件功能示例
May 31 #Python
Python使用progressbar模块实现的显示进度条功能
May 31 #Python
You might like
一个分页的论坛
2006/10/09 PHP
php mssql 日期出现中文字符的解决方法
2009/03/10 PHP
提高define性能的php扩展hidef的安装和使用
2011/06/14 PHP
利用phpexcel把excel导入数据库和数据库导出excel实现
2014/01/09 PHP
ThinkPHP做文字水印时提示call an undefined function exif_imagetype()解决方法
2014/10/30 PHP
ThinkPHP5+Layui实现图片上传加预览功能
2018/08/17 PHP
CL vs ForZe BO5 第一场 2.13
2021/03/10 DOTA
ajax 文件上传应用简单实现
2009/03/03 Javascript
使用Firebug对js进行断点调试的图文方法
2011/04/02 Javascript
formStorage 基于jquery的一个插件(存储表单中元素的状态到本地)
2012/01/20 Javascript
jquery和ajax的关系详细介绍
2013/11/29 Javascript
javascript与css3动画结合使用小结
2015/03/11 Javascript
使用javascript将时间转换成今天,昨天,前天等格式
2015/06/25 Javascript
Vue学习笔记进阶篇之vue-cli安装及介绍
2017/07/18 Javascript
Node.js简单入门前传
2017/08/21 Javascript
JavaScript防止全局变量污染的方法总结
2018/08/02 Javascript
JavaScript正则表达式验证登录实例
2020/03/18 Javascript
Vue 列表页带参数进详情页的操作(router-link)
2020/11/13 Javascript
详解JavaScript中的链式调用
2020/11/27 Javascript
[02:08]DOTA2英雄基础教程 马格纳斯
2014/01/17 DOTA
[05:09]2016国际邀请赛中国区预选赛淘汰赛首日精彩回顾
2016/06/29 DOTA
[45:16]完美世界DOTA2联赛循环赛 IO vs FTD BO2第二场 11.05
2020/11/06 DOTA
从Python程序中访问Java类的简单示例
2015/04/20 Python
在python中使用with打开多个文件的方法
2019/01/07 Python
Python解释器及PyCharm工具安装过程
2020/02/26 Python
Python调用百度OCR实现图片文字识别的示例代码
2020/07/17 Python
HTML5制作酷炫音频播放器插件图文教程
2014/12/30 HTML / CSS
Html5百叶窗效果的示例代码
2017/12/11 HTML / CSS
澳大利亚领先的男装零售连锁店:Lowes
2020/08/07 全球购物
计算机应用毕业生自荐信
2013/10/23 职场文书
腾讯广告词
2014/03/19 职场文书
机械制造专业大学生自我鉴定
2014/09/19 职场文书
祖国在我心中演讲稿(小学生)
2014/09/23 职场文书
初中语文教学反思范文
2016/03/03 职场文书
CSS3中Animation实现简单的手指点击动画的示例
2021/07/15 HTML / CSS
Java实现二分搜索树的示例代码
2022/03/17 Java/Android