编程 Python

使用python批量转换文件编码为UTF-8的实现

Posted in Python onApril 03, 2020

由于这两天换了IDE，在导入以前的工程的时候发现了一个大问题，由于以前脑残的我不知道改编码方式，导致出现了大量的GBK，这就很难受，要是一个两个还好说，可是这么多要是一个一个的改我会觉得现在的我比以前还脑残，于是乎，我就想用python批量的修改一下，然后就产生了这篇文章，其中好多不足的地方还请大佬指导

本来一开始的思路还是比较清晰，觉得也比较简单，天真的认为用GBK的方式读取出文件内容，然后UTF8写入就好了，可是在实际的操作中我发现我就是太天真了，出现了大量的问题，比如说：

怎么查看文件的编码方式

好吧我承认就出现了这一个问题。

那么遇到问题我们该怎么办呢，没错，Google，果然功夫不负会Google人，我看到了一个函数，就是chardet.detect()函数，当然要导入chardet模块，也就是pip，如果是Anaconda的环境当我没说，pip了不要打我。言归正传，这个函数是干嘛用的呢？

这个函数会返回一个含有三个键值对的字典类型

‘encoding': 编码方式
‘confidence': 检测的正确率
‘language' : 语言

是不是看到encoding后眼前一亮，这样取出encoding的值然后比较不知道是啥了，然后我就在一边感叹python的强大的第三方库的支持一边开始了对这个函数的测试，先建两个txt，然后脸滚键盘，保存的时候一个是UTF-8，一个是GBK，值得竹注意的是读取方式应该是二进制，也就是'rb'，接着就是兴致勃勃地Ctrl Shift F10，出现了惊人的一幕：

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

看看，看看这美丽的单引号，然后直接和”utf-8”比较不就结束了，万万没想到，他竟然是False，我还以为我看错了，就疯狂Ctrl F5，等待奇迹的出现，功夫不负有心人，果然，奇迹没有出现，于是我type了一下，嗯，果然是str类型的，又试了下和”utf-8”比较不就结束了，没错，结果是True，你们听我解释，我昨天做的时候真不是这样的，不管了，写都写了，按昨天的思路来吧，大家凑活看吧（不要打我），现在我们假设他是False，并且类型是NoneType，并且转为str后是None，你们要相信我昨天真的是这样的！

好了就这样吧，那既然是无法比较怎么办呢，没错，拿出一开始脸滚键盘的那两个测试文件来，用他们呢读取出的字典的值作比较不就好了（一说到这我就莫名的心痛），然后我们在想一下是把文件编码改为UTF-8，所以本来就是UTF-8的我们就不用管他，我都脸滚键盘的建测试文件了我还在意这些细节干嘛，不说了，难受，效果图也不贴了，直接上代码你们自己看吧。。。

# coding utf-8
import os
import chardet


# 获得所有java文件的路径,传入根目录路径
def find_all_file(path: str) -> str:
  for root, dirs, files in os.walk(path):
    for f in files:
      if f.endswith('.java'):
        fullname = os.path.join(root, f)
        yield fullname
      pass
    pass
  pass


# 判断是不是utf-8编码方式
def judge_coding(path: str) -> dict:
  with open('utf.txt', 'rb') as f:  # 删除就行
    utf = chardet.detect(f.read()) # 同上

  with open(path, 'rb') as f:
    c = chardet.detect(f.read())

  if c != utf:            # 改为 c != 'utf-8'
    return c


# 修改文件编码方式
def change_to_utf_file(path: str):
  for i in find_all_file(path):
    c = judge_coding(i)
    if c:
      change(i, c['encoding'])
      print("{} 编码方式已从{}改为 utf-8".format(i, c['encoding']))


def change(path: str, coding: str):
  with open(path, 'r', encoding=coding) as f:
    text = f.read()

  with open(path, 'w', encoding='utf-8') as f:
    f.write(text)


# 查看所有文件编码方式
def check(path: str):
  for i in find_all_file(path):
    with open(i, 'rb') as f:
      print(chardet.detect(f.read())['encoding'], ': ', i)


def main():
  my_path = 'C:\\WorkSpace'
  change_to_utf_file(my_path)
  # check(my_path)


if __name__ == '__main__':
  main()

到此这篇关于使用python批量转换文件编码为UTF-8的实现的文章就介绍到这了,更多相关python批量转换UTF-8内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

使用python批量转换文件编码为UTF-8的实现

- Author -

Valine

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python常用模块用法分析

Sep 08 Python

使用Python脚本在Linux下实现部分Bash Shell的教程

Apr 17 Python

Python 编码Basic Auth使用方法简单实例

May 25 Python

Python变量赋值的秘密分享

Apr 03 Python

python 中值滤波,椒盐去噪,图片增强实例

Dec 18 Python

python实现五子棋游戏（pygame版）

Jan 19 Python

在TensorFlow中屏蔽warning的方式

Feb 04 Python

Python使用Matlab命令过程解析

Jun 04 Python

基于python实现操作redis及消息队列

Aug 27 Python

解决Windows下python和pip命令无法使用的问题

Aug 31 Python

Python colormap库的安装和使用详情

Oct 06 Python

如何Tkinter模块编写Python图形界面

Oct 14 Python

Python sql注入过滤字符串的非法字符实例

Apr 03 #Python

python传到前端的数据,双引号被转义的问题

Apr 03 #Python

Django实现将一个字典传到前端显示出来

Apr 03 #Python

Django 后台带有字典的列表数据与页面js交互实例

Apr 03 #Python

Django import export实现数据库导入导出方式

Apr 03 #Python

Django用户身份验证完成示例代码

Apr 03 #Python

基于Python共轭梯度法与最速下降法之间的对比

Apr 02 #Python

You might like

应用开发中涉及到的css和php笔记分享

2011/08/02 PHP

PHP CURL 多线程操作代码实例

2015/05/13 PHP

PHP实现的简单异常处理类示例

2017/05/04 PHP

PHP二维数组分页2种实现方法解析

2020/07/09 PHP

JS模块与命名空间的介绍

2013/03/22 Javascript

简单实现的JQuery文本框水印插件

2016/06/14 Javascript

jQuery搜索框效果实现代码(百度关键词联想)

2021/02/25 Javascript

用瀑布流的方式在网页上插入图片的简单实现方法

2016/09/23 Javascript

jQuery和CSS仿京东仿淘宝列表导航菜单

2017/01/04 Javascript

浅谈js中function的参数默认值

2017/02/20 Javascript

详解Vue.use自定义自己的全局组件

2017/06/14 Javascript

微信小程序从注册账号到上架（图文详解）

2019/07/17 Javascript

JavaScript实现随机五位数验证码

2019/09/27 Javascript

如何在JavaScript中创建具有多个空格的字符串？

2020/02/23 Javascript

javascript 代码是如何被压缩的示例代码

2020/05/06 Javascript

[06:15]2016国际邀请赛中国区预选赛单车采访：我顶WINGS

2016/06/27 DOTA

用python记录运行pid,并在需要时kill掉它们的实例

2017/01/16 Python

在Python的一段程序中如何使用多次事件循环详解

2017/09/07 Python

机器学习经典算法-logistic回归代码详解

2017/12/22 Python

搞清楚 Python traceback的具体使用方法

2019/05/13 Python

python将字符串转变成dict格式的实现

2019/11/18 Python

如何使用python实现模拟鼠标点击

2020/01/06 Python

Flask-SocketIO服务端安装及使用代码示例

2020/11/26 Python

贝嫂喜欢的婴儿品牌，个性化的婴儿礼物：My 1st Years

2017/11/19 全球购物

尤妮佳moony海外旗舰店：日本殿堂级纸尿裤品牌

2018/02/23 全球购物

英国购买威士忌网站：Master of Malt

2019/09/26 全球购物

Spotahome意大利：公寓和房间出租

2020/02/21 全球购物

电大毕业生自我鉴定

2013/11/10 职场文书

全国税务系统先进集体事迹材料

2014/05/19 职场文书

幼儿园保育员责任书

2014/07/22 职场文书

2014年社区工作总结

2014/11/18 职场文书

2014收银员工作总结范文

2014/12/16 职场文书

小学教师教学随笔

2015/08/14 职场文书

让人感觉高大上的讲话稿怎么写？

2019/07/08 职场文书

元素水平垂直居中的方式

2021/03/31 HTML / CSS

Python selenium绕过webdriver监测执行javascript

2022/04/12 Python