Python csv文件记录流程代码解析


Posted in Python onJuly 16, 2020

1、合并所有测试集和训练集的文件:

使用cmd到所在盘下,输入copy *.CSV all_***.csv即可

2、单独提取异常数据列作为csv文件:

import csv
import codecs
#coding:utf-8
with open("G:\\data_release\\train1.0\\all_train.csv","rt",encoding="utf-8")as f:
reader=csv.DictReader(f)
column=[row['triggername'] for row in reader]
file_name="G:\\data_release\\train1.0\\triggername.csv"
file_csv = codecs.open(file_name,'w+','utf-8')
writer = csv.writer(file_csv, delimiter=' ', quotechar=' ', quoting=csv.QUOTE_MINIMAL)
for data in column:
 writer.writerow(data)

虽然可以写入,但是出现乱码原因应该为csv的BOM没有更改

解决方法:将encoding='utf8'改为encoding='gb18030'

但是打开文件发现并不是所有内容都在第一列,有一些出现第二列,原因是一句话里面出现了逗号

解决方法:遍历列表将逗号改为空格

i=0
while i < len(column):
column[i].replace(","," ")
i+=1

不知道怎么的不适合我用的csv文件,还在继续检查中

3、删除一些字符,如果知道字符的位置可以在列表的基础上进行操作

去除首部空格 line=line.lstrip()

4、导入一个csv文件的时候 data = pd.read_csv('G:\pytorch\data1.csv',encoding='utf-8')

报错的内容是这样的:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 0: invalid continuation byte

修改至data = pd.read_csv('F:\data1.csv', encoding='unicode_escape',header=None,sep = '\t',error_bad_lines=False)也没有用

删除整行重复项:

from more_itertools import unique_everseen
with open('F:\data1.csv','r') as f, open('F:\data2.csv','w') as out_file:
    out_file.writelines(unique_everseen(f))

5、unexpected index是代码的缩进出现问题

6、文本文件用rt,二进制文件用rb打开

with open("fer2013.csv", "rt", encoding="utf-8") as vsvfile:
   reader = csv.reader(vsvfile)
   rows = [row for row in reader]
      print(rows)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python共享引用(多个变量引用)示例代码
Dec 04 Python
python进阶教程之词典、字典、dict
Aug 29 Python
Python Sleep休眠函数使用简单实例
Feb 02 Python
Python3实现发送QQ邮件功能(附件)
Dec 23 Python
python Spyder界面无法打开的解决方法
Apr 27 Python
Python中创建二维数组
Oct 17 Python
Python装饰器语法糖
Jan 02 Python
解决Pycharm界面的子窗口不见了的问题
Jan 17 Python
python关于矩阵重复赋值覆盖问题的解决方法
Jul 19 Python
Python 合并多个TXT文件并统计词频的实现
Aug 23 Python
python实现udp传输图片功能
Mar 20 Python
基于Python实现视频的人脸融合功能
Jun 12 Python
Python 抓取数据存储到Redis中的操作
Jul 16 #Python
django filter过滤器实现显示某个类型指定字段不同值方式
Jul 16 #Python
解决python对齐错误的方法
Jul 16 #Python
Python爬虫实例——爬取美团美食数据
Jul 15 #Python
django Model层常用验证器及自定义验证器详解
Jul 15 #Python
浅谈Django前端后端值传递问题
Jul 15 #Python
浅谈python出错时traceback的解读
Jul 15 #Python
You might like
用IE远程创建Mysql数据库的简易程序
2006/10/09 PHP
ubuntu 编译安装php 5.3.3+memcache的方法
2010/08/05 PHP
php数组保存文本与文本反编成数组实例
2014/11/13 PHP
PHP通过微信跳转的Code参数获取用户的openid(关键代码)
2016/07/06 PHP
基于jquery封装的一个js分页
2011/11/15 Javascript
常用一些Javascript判断函数
2012/08/14 Javascript
js中eval()函数和trim()去掉字符串左右空格应用
2013/02/02 Javascript
jquery将一个表单序列化为一个对象的方法
2014/01/03 Javascript
jQuery事件用法实例汇总
2014/08/29 Javascript
基于Bootstrap+jQuery.validate实现Form表单验证
2014/12/16 Javascript
JavaScript中的alert()函数使用技巧详解
2014/12/29 Javascript
原生javascript实现图片按钮切换
2015/01/12 Javascript
浅谈javascript的call()、apply()、bind()的用法
2016/02/21 Javascript
Bootstrap组件之下拉菜单,多级菜单及按钮布局方法实例
2017/05/25 Javascript
利用node.js爬取指定排名网站的JS引用库详解
2017/07/25 Javascript
详解Node.js模板引擎Jade入门
2018/01/19 Javascript
解决vue页面DOM操作不生效的问题
2018/03/17 Javascript
小程序Request的另类用法详解
2019/08/09 Javascript
基于form-data请求格式详解
2019/10/29 Javascript
vue-cli3 热更新配置操作
2020/09/18 Javascript
[02:41]DOTA2英雄基础教程 亚巴顿
2014/01/02 DOTA
wxPython窗口中文乱码解决方法
2014/10/11 Python
在Python中编写数据库模块的教程
2015/04/29 Python
kaggle+mnist实现手写字体识别
2018/07/26 Python
Python基于滑动平均思想实现缺失数据填充的方法
2019/02/21 Python
Python3.5常见内置方法参数用法实例详解
2019/04/29 Python
python自动生成sql语句的脚本
2021/02/24 Python
html5的自定义data-*属性与jquery的data()方法的使用
2014/07/02 HTML / CSS
英国和国际包裹递送:ParcelCompare
2019/08/26 全球购物
寄语十八大感言
2014/02/07 职场文书
意外伤害赔偿协议书范文
2014/09/23 职场文书
党的群众路线教育实践活动对照检查材料范文
2014/09/24 职场文书
优秀教师自我评价范文
2014/09/27 职场文书
委托培训协议书
2014/11/17 职场文书
SQL Server数据库基本概念、组成、常用对象与约束
2022/03/20 SQL Server
MySQL导致索引失效的几种情况
2022/06/25 MySQL