Python csv文件记录流程代码解析


Posted in Python onJuly 16, 2020

1、合并所有测试集和训练集的文件:

使用cmd到所在盘下,输入copy *.CSV all_***.csv即可

2、单独提取异常数据列作为csv文件:

import csv
import codecs
#coding:utf-8
with open("G:\\data_release\\train1.0\\all_train.csv","rt",encoding="utf-8")as f:
reader=csv.DictReader(f)
column=[row['triggername'] for row in reader]
file_name="G:\\data_release\\train1.0\\triggername.csv"
file_csv = codecs.open(file_name,'w+','utf-8')
writer = csv.writer(file_csv, delimiter=' ', quotechar=' ', quoting=csv.QUOTE_MINIMAL)
for data in column:
 writer.writerow(data)

虽然可以写入,但是出现乱码原因应该为csv的BOM没有更改

解决方法:将encoding='utf8'改为encoding='gb18030'

但是打开文件发现并不是所有内容都在第一列,有一些出现第二列,原因是一句话里面出现了逗号

解决方法:遍历列表将逗号改为空格

i=0
while i < len(column):
column[i].replace(","," ")
i+=1

不知道怎么的不适合我用的csv文件,还在继续检查中

3、删除一些字符,如果知道字符的位置可以在列表的基础上进行操作

去除首部空格 line=line.lstrip()

4、导入一个csv文件的时候 data = pd.read_csv('G:\pytorch\data1.csv',encoding='utf-8')

报错的内容是这样的:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 0: invalid continuation byte

修改至data = pd.read_csv('F:\data1.csv', encoding='unicode_escape',header=None,sep = '\t',error_bad_lines=False)也没有用

删除整行重复项:

from more_itertools import unique_everseen
with open('F:\data1.csv','r') as f, open('F:\data2.csv','w') as out_file:
    out_file.writelines(unique_everseen(f))

5、unexpected index是代码的缩进出现问题

6、文本文件用rt,二进制文件用rb打开

with open("fer2013.csv", "rt", encoding="utf-8") as vsvfile:
   reader = csv.reader(vsvfile)
   rows = [row for row in reader]
      print(rows)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python求两个list的差集、交集与并集的方法
Nov 01 Python
python图像处理之反色实现方法
May 30 Python
Python for Informatics 第11章之正则表达式(二)
Apr 21 Python
一个基于flask的web应用诞生 bootstrap框架美化(3)
Apr 11 Python
JPype实现在python中调用JAVA的实例
Jul 19 Python
机器学习10大经典算法详解
Dec 07 Python
python机器学习理论与实战(五)支持向量机
Jan 19 Python
Python批量合并有合并单元格的Excel文件详解
Apr 05 Python
python web自制框架之接受url传递过来的参数实例
Dec 17 Python
Python 输出时去掉列表元组外面的方括号与圆括号的方法
Dec 24 Python
python制作抖音代码舞
Apr 07 Python
基于Keras 循环训练模型跑数据时内存泄漏的解决方式
Jun 11 Python
Python 抓取数据存储到Redis中的操作
Jul 16 #Python
django filter过滤器实现显示某个类型指定字段不同值方式
Jul 16 #Python
解决python对齐错误的方法
Jul 16 #Python
Python爬虫实例——爬取美团美食数据
Jul 15 #Python
django Model层常用验证器及自定义验证器详解
Jul 15 #Python
浅谈Django前端后端值传递问题
Jul 15 #Python
浅谈python出错时traceback的解读
Jul 15 #Python
You might like
php代码把全角数字转为半角数字
2007/12/10 PHP
zen cart新进商品的随机排序修改方法
2010/09/10 PHP
PHP中使用cURL实现Get和Post请求的方法
2013/03/13 PHP
php使用ob_flush不能每隔一秒输出原理分析
2015/06/02 PHP
php文件系统处理方法小结
2016/05/23 PHP
PHP单链表的实现代码
2016/07/05 PHP
PHP实现加密文本文件并限制特定页面的存取的效果
2016/10/21 PHP
PHP中md5()函数的用法讲解
2019/03/30 PHP
JavaScript Event学习第二章 Event浏览器兼容性
2010/02/07 Javascript
判断日期是否能跨月查询的js代码
2014/07/25 Javascript
node.js中的path.extname方法使用说明
2014/12/09 Javascript
JQuery日历插件My97DatePicker日期范围限制
2016/01/20 Javascript
Node.js编写组件的三种实现方式
2016/02/25 Javascript
jQuery 3 中的新增功能汇总介绍
2016/06/12 Javascript
浅谈JavaScript 函数参数传递到底是值传递还是引用传递
2016/08/23 Javascript
JavaScript制作弹出层效果
2016/12/02 Javascript
JS中with的替代方法与String中的正则方法详解
2016/12/23 Javascript
JavaScript使用readAsDataUrl方法预览图片
2017/05/10 Javascript
基于Vue实现图书管理功能
2017/10/17 Javascript
JavaScript中的全局属性与方法深入解析
2020/06/14 Javascript
[02:20]DOTA2英雄基础教程 黑暗贤者
2013/12/19 DOTA
python采集博客中上传的QQ截图文件
2014/07/18 Python
python读取word文档的方法
2015/05/09 Python
解决uWSGI的编码问题详解
2017/03/24 Python
Python使用sax模块解析XML文件示例
2019/04/04 Python
Django中提示消息messages的设置方式
2019/11/15 Python
Django查询优化及ajax编码格式原理解析
2020/03/25 Python
CSS3中:nth-child和:nth-of-type的区别深入理解
2014/03/10 HTML / CSS
美国领先的在线旅游网站:Orbitz
2018/11/05 全球购物
环境科学专业个人求职信
2013/09/26 职场文书
法学个人求职信范文
2014/01/27 职场文书
计算机数据库专业职业生涯规划书
2014/02/08 职场文书
护士岗位职责
2014/02/16 职场文书
校园歌咏比赛主持词
2014/03/18 职场文书
董事会决议范本
2015/07/01 职场文书
办公用品管理制度
2015/08/04 职场文书