python 读写文件包含多种编码格式的解决方式


Posted in Python onDecember 20, 2019

今天写一个脚本文件,需要将多个文件中的内容汇总到一个txt文件中,由于多个文件有三种不同的编码方式,读写出现错误,先将解决方法记录如下:

# -*- coding: utf-8 -*-
import wave
import pylab as pl
import numpy as np
import pandas as pd
import os
import time
import datetime
import arrow
import chardet
import sys 
reload(sys) 
sys.setdefaultencoding('utf8') 
os.chdir("F:/new_srt")


#get words of srt file
###########################################
def get_word():
 path = "F:/new_srt"
 filelist = os.listdir(path)
 for files in filelist:
  print files
  encoding = chardet.detect(open(files,'r').read())['encoding']
  if encoding == 'utf-8':
   data=pd.read_csv(files,encoding="utf-8",sep='\r',header=None)
  elif encoding == 'GB2312':
   try:
    data=pd.read_csv(files,encoding="gbk",sep='\r',header=None)
   except UnicodeDecodeError:
    data=pd.read_csv(files,encoding="utf-8",sep='\r',header=None)
  elif encoding == 'UTF-8-SIG':
   data=pd.read_csv(files,encoding="UTF-8-SIG",sep='\r',header=None)
  else:
   print 'this is an error about %s' % files 

  data_new=pd.DataFrame(np.reshape(data.values, (-1,3)))
  data_new.columns=['index','timecut','content']
  filename = os.path.splitext(files)[0]  #filetype = os.path.splitext(files)[1]
  with open('F:/result.txt', 'a') as file:
   file.write(str(filename)+' ' )
   for item in data_new['content']:
    file.write(item.decode("utf-8") +' ') #s=s.decode("utf-8") 
   file.write('\n')


if __name__ == '__main__':
 get_word()

以上这篇python 读写文件包含多种编码格式的解决方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用python + hadoop streaming 分布式编程(一) -- 原理介绍,样例程序与本地调试
Jul 14 Python
python实现绘制树枝简单示例
Jul 24 Python
Python中给List添加元素的4种方法分享
Nov 28 Python
python使用socket连接远程服务器的方法
Apr 29 Python
Python ftp上传文件
Feb 13 Python
Python爬虫番外篇之Cookie和Session详解
Dec 27 Python
django-rest-framework解析请求参数过程详解
Jul 18 Python
windows环境中利用celery实现简单任务队列过程解析
Nov 29 Python
基于Python爬取爱奇艺资源过程解析
Mar 02 Python
python装饰器实现对异常代码出现进行自动监控的实现方法
Sep 15 Python
关于Kotlin中SAM转换的那些事
Sep 15 Python
python 爬取豆瓣网页的示例
Apr 13 Python
pandas 中对特征进行硬编码和onehot编码的实现
Dec 20 #Python
使用python3批量下载rbsp数据的示例代码
Dec 20 #Python
Python使用QQ邮箱发送邮件报错smtplib.SMTPAuthenticationError
Dec 20 #Python
Python字符串、列表、元组、字典、集合的补充实例详解
Dec 20 #Python
python获取网络图片方法及整理过程详解
Dec 20 #Python
python序列化与数据持久化实例详解
Dec 20 #Python
爬虫代理池Python3WebSpider源代码测试过程解析
Dec 20 #Python
You might like
全国FM电台频率大全 - 11 浙江省
2020/03/11 无线电
PHP 开发环境配置(测试开发环境)
2010/04/28 PHP
PHP和JAVA中的重载(overload)和覆盖(override) 介绍
2012/03/01 PHP
PHP中error_log()函数的使用方法
2015/01/20 PHP
php实现cookie加密的方法
2015/03/10 PHP
PHP中foreach()用法汇总
2015/07/02 PHP
thinkphp中字符截取函数msubstr()用法分析
2016/01/09 PHP
php lcg_value与mt_rand生成0~1随机小数的效果对比分析
2017/04/05 PHP
PHP基于SMTP协议实现邮件发送实例代码
2017/04/27 PHP
JQuery设置获取下拉菜单某个选项的值(比较全)
2014/08/05 Javascript
jQuery+easyui中的combobox实现下拉框特效
2015/02/27 Javascript
javascript 使用正则test( )第一次是 true,第二次是false
2017/02/22 Javascript
vue的事件绑定与方法详解
2017/08/16 Javascript
Node.js使用cookie保持登录的方法
2018/05/11 Javascript
AngularJS中的作用域实例分析
2018/05/16 Javascript
React key值的作用和使用详解
2018/08/23 Javascript
webpack+vue-cli项目中引入外部非模块格式js的方法
2018/09/28 Javascript
详解vue-router导航守卫
2019/01/19 Javascript
vue使用过滤器格式化日期
2021/01/20 Vue.js
插入排序_Python与PHP的实现版(推荐)
2017/05/11 Python
Python获取本机所有网卡ip,掩码和广播地址实例代码
2018/01/22 Python
基于数据归一化以及Python实现方式
2018/07/11 Python
Python之inspect模块实现获取加载模块路径的方法
2018/10/16 Python
python抓取搜狗微信公众号文章
2019/04/01 Python
使用turtle绘制五角星、分形树
2019/10/06 Python
40个你可能不知道的Python技巧附代码
2020/01/29 Python
python实现引用其他路径包里面的模块
2020/03/09 Python
Baracuta官方网站:Harrington夹克,G9,G4,G10等
2018/03/06 全球购物
波兰珠宝品牌:YES
2019/08/09 全球购物
构建高效课堂实施方案
2014/03/13 职场文书
企业文化建设实施方案
2014/03/22 职场文书
欢迎家长标语
2014/10/08 职场文书
2019最新公司租房合同(例文)
2019/07/18 职场文书
小学四年级作文之写景
2019/08/23 职场文书
go原生库的中bytes.Buffer用法
2021/04/25 Golang
MySQL如何解决幻读问题
2021/08/07 MySQL