Python csv文件记录流程代码解析


Posted in Python onJuly 16, 2020

1、合并所有测试集和训练集的文件:

使用cmd到所在盘下,输入copy *.CSV all_***.csv即可

2、单独提取异常数据列作为csv文件:

import csv
import codecs
#coding:utf-8
with open("G:\\data_release\\train1.0\\all_train.csv","rt",encoding="utf-8")as f:
reader=csv.DictReader(f)
column=[row['triggername'] for row in reader]
file_name="G:\\data_release\\train1.0\\triggername.csv"
file_csv = codecs.open(file_name,'w+','utf-8')
writer = csv.writer(file_csv, delimiter=' ', quotechar=' ', quoting=csv.QUOTE_MINIMAL)
for data in column:
 writer.writerow(data)

虽然可以写入,但是出现乱码原因应该为csv的BOM没有更改

解决方法:将encoding='utf8'改为encoding='gb18030'

但是打开文件发现并不是所有内容都在第一列,有一些出现第二列,原因是一句话里面出现了逗号

解决方法:遍历列表将逗号改为空格

i=0
while i < len(column):
column[i].replace(","," ")
i+=1

不知道怎么的不适合我用的csv文件,还在继续检查中

3、删除一些字符,如果知道字符的位置可以在列表的基础上进行操作

去除首部空格 line=line.lstrip()

4、导入一个csv文件的时候 data = pd.read_csv('G:\pytorch\data1.csv',encoding='utf-8')

报错的内容是这样的:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 0: invalid continuation byte

修改至data = pd.read_csv('F:\data1.csv', encoding='unicode_escape',header=None,sep = '\t',error_bad_lines=False)也没有用

删除整行重复项:

from more_itertools import unique_everseen
with open('F:\data1.csv','r') as f, open('F:\data2.csv','w') as out_file:
    out_file.writelines(unique_everseen(f))

5、unexpected index是代码的缩进出现问题

6、文本文件用rt,二进制文件用rb打开

with open("fer2013.csv", "rt", encoding="utf-8") as vsvfile:
   reader = csv.reader(vsvfile)
   rows = [row for row in reader]
      print(rows)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python设计模式之命令模式简单示例
Jan 10 Python
Python获取当前公网ip并自动断开宽带连接实例代码
Jan 12 Python
scrapy spider的几种爬取方式实例代码
Jan 25 Python
python抓取文件夹的所有文件
Feb 27 Python
python 正确保留多位小数的实例
Jul 16 Python
Python更新所有已安装包的操作
Feb 13 Python
用Python生成HTML表格的方法示例
Mar 06 Python
Keras Convolution1D与Convolution2D区别说明
May 22 Python
python 写一个性能测试工具(一)
Oct 24 Python
Pycharm中使用git进行合作开发的教程详解
Nov 17 Python
Django路由层如何获取正确的url
Jul 15 Python
Python基础 括号()[]{}的详解
Nov 07 Python
Python 抓取数据存储到Redis中的操作
Jul 16 #Python
django filter过滤器实现显示某个类型指定字段不同值方式
Jul 16 #Python
解决python对齐错误的方法
Jul 16 #Python
Python爬虫实例——爬取美团美食数据
Jul 15 #Python
django Model层常用验证器及自定义验证器详解
Jul 15 #Python
浅谈Django前端后端值传递问题
Jul 15 #Python
浅谈python出错时traceback的解读
Jul 15 #Python
You might like
echo(),print(),print_r()之间的区别?
2006/11/19 PHP
php调用mysql数据 dbclass类
2011/05/07 PHP
Linux环境下搭建php开发环境的操作步骤
2013/06/17 PHP
php获取英文姓名首字母的方法
2015/07/13 PHP
Laravel中的Blade模板引擎示例详解
2017/10/10 PHP
javascript动态改变img的src属性图片不显示的解决方法
2010/10/20 Javascript
jQuery基础框架浅入剖析
2012/12/27 Javascript
js获取客户端外网ip的简单实例
2013/11/21 Javascript
js实现模拟计算器退格键删除文字效果的方法
2015/05/07 Javascript
jQuery实现的精美平滑二级下拉菜单效果代码
2016/03/28 Javascript
javascript之Array 数组对象详解
2016/06/07 Javascript
vue使用 better-scroll的参数和方法详解
2018/01/25 Javascript
React中阻止事件冒泡的问题详析
2019/04/12 Javascript
Layui实现带查询条件的分页
2019/07/27 Javascript
js防抖函数和节流函数使用场景和实现区别示例分析
2020/04/11 Javascript
vue keep-alive的简单总结
2021/01/25 Vue.js
[01:37]DOTA2超级联赛专访ChuaN 传奇般的电竞之路
2013/06/19 DOTA
[01:35]2018完美盛典章节片——共竞
2018/12/17 DOTA
[49:21]TNC vs VG 2019DOTA2国际邀请赛淘汰赛 胜者组赛BO3 第三场 8.20.mp4
2019/08/22 DOTA
python开发的小球完全弹性碰撞游戏代码
2013/10/15 Python
手动实现把python项目发布为exe可执行程序过程分享
2014/10/23 Python
python文件绝对路径写法介绍(windows)
2019/12/25 Python
Python 定义只读属性的实现方式
2020/03/05 Python
Python中求对数方法总结
2020/03/10 Python
10行Python代码实现Web自动化管控的示例代码
2020/08/14 Python
html5 application cache遇到的严重问题
2012/12/26 HTML / CSS
HTML5 canvas基本绘图之图形变换
2016/06/27 HTML / CSS
香港个人化生活购物网站:Ballyhoo Limited
2016/09/10 全球购物
什么是SQL Server的确定性函数和不确定性函数
2016/08/04 面试题
连锁经营管理专业大学生求职信
2013/10/30 职场文书
预备党员入党思想汇报
2014/01/04 职场文书
银行贷款承诺书
2014/03/29 职场文书
廉政教育的心得体会
2014/09/01 职场文书
走群众路线学习心得体会
2014/10/31 职场文书
PHP控制循环操作的时间
2021/04/01 PHP
2021年国漫热度排行前十,完美世界上榜,第四是美国动画作品
2022/03/18 国漫