解决python大批量读写.doc文件的问题


Posted in Python onMay 08, 2018

前言:

java语言读写.doc的出现乱码问题:

大家都知道当我们利用java语言读写.doc文件时,无论是利用流的方式将.doc文件的内容输出到控制台(console),还是将其写到其他文件中,无论你采取何种编码格式(utf-8,gbk等)输出,你看到的内容99%都是乱码。

java语言读写.doc的出现乱码问题原因分析:

.doc文件是微软开发的用于办公的编辑文字的软件之一,如果说一篇word文档的字体格式采用的是utf-8,那么你采用utf-8格式读写该文档,应该能够正确输出汉字,但是一旦你的word文档里面的字体的尺寸改变,字体加上颜色属性,字体加上某种style时,那么本篇word文档的格式就变了,而不再是utf-8,因此采用utf-8格式输出99%都是乱码。

利用java语言读写.doc文档避免乱码的解决方案:(sun公司pk微软公司)

可以利用sun公司开发的poi包,该包提供修改微软办公软件的接口,利用poi包读写.doc文件,通常就不会产生乱码。如果看到这里你就大概认为,我终于可以利用java去处理.doc文件了,那么我想说的是,你开心的太早了。据我所知,截止到2017年12月22日,poi包的最新版本是3.1.7版,你也许对该版本没有什么概念,3.1.7版本的poi包只能处理微软2007版本的word,excel,ppt等,也就是说poi3.1.7版本的jar包不支持处理咱们电脑上顶配的word2016,因此可以说你可以放弃使用java读写word2016了。但是你也可以尝试用其他的接口去处理word,但是效率都不会比poi接口高,幸运的是,官网显示poi最新版本将在2017年12月份推出,但是截止到2017年12月22日,我还没有在官网看到此jar包。

正文:

python在处理文档的语言处理方面比java更胜一筹,毕竟python结合正则表达式在自然语言处理方面还是很强势的。最近在做深度学习的项目,需要解析并处理几百个数量级的.doc文件。众所周知,python读写.txt文档可以说一路畅通无阻,不管你中文是什么格式;python在读写.docx文档时,也比较畅通,最多你需要在命令行安装python-docx (0.8.6),就可以读写.docx文档了,具体读写方案,下述。

问题:python无法读取.doc文件(而不是.docx文件)

解决方案:利用python将大批.doc文件转化为.docx文件,再读写.docx文件

问题分析:python利用python-docx (0.8.6)库可以读取.docx文件或.txt文件,且一路畅通无阻,而对.doc文件本身python是无能为力的,那有很多同学就不服气,我手动把.doc文件的后缀名改为.docx或.txt不就解决问题了吗?答案是不能的,简单修改后缀名,那么文件就被你玩坏了,别说打不开,就是打开也是天书啊(乱码)。python无法操作.doc文件是他的先天不足,但是我们不要钻牛角尖一定要在互联网上找到一种源码直接读取.doc文件,一调用就好了,但是不幸的是,你可能在网上也找不到解决方案。正当我一筹莫展之时,我将.doc文档利用手动的方式“另存为”.docx文档,就能够成功打开转化后的.docx文档,于是我就尝试利用代码方式完成这个手动的“另存为”功能,问题得以解决。

直接上python代码(首先你需要先安装pypewin32库):

# -*- coding: utf-8 -*-:
import sys
import pickle
import re
import codecs
import string
import shutil
from win32com import client as wc
def doSaveAas(): # 想批处理文件,你就用for循环呗,我一次性处理了100多个文件,代码执行不超过2分钟,可以解决问题,目标文件路径可以自由改动,大家注意SaveAs方法中的参数,好多啊,别写错了
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open(u'C:\\Users\\X\\PycharmProjects\\1\\大家好.doc')  # 目标路径下的文件
doc.SaveAs(u'C:\\Users\\X\\PycharmProjects\\1\\我是一枚小小的程序员X007.docx', 12, False, "", True, "", False, False, False, False) # 转化后路径下的文件 
doc.Close()
word.Quit()

转化为.docx文件后,在处理.docx文件,一路畅通无阻,网上很多解决方案,这里我就不详细说了,有问题,可以给我留言哟

以上这篇解决python大批量读写.doc文件的问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
详解Django rest_framework实现RESTful API
May 24 Python
python自动化生成IOS的图标
Nov 13 Python
Python实现字典排序、按照list中字典的某个key排序的方法示例
Dec 18 Python
利用Python正则表达式过滤敏感词的方法
Jan 21 Python
Python基于opencv调用摄像头获取个人图片的实现方法
Feb 21 Python
python实现宿舍管理系统
Nov 22 Python
python生成特定分布数的实例
Dec 05 Python
使用Python中tkinter库简单gui界面制作及打包成exe的操作方法(二)
Oct 12 Python
解决pycharm不能自动保存在远程linux中的问题
Feb 06 Python
用python实现监控视频人数统计
May 21 Python
一劳永逸彻底解决pip install慢的办法
May 24 Python
Python 避免字典和元组的多重嵌套问题
Jul 15 Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
Python操作Oracle数据库的简单方法和封装类实例
May 07 #Python
Pandas实现数据类型转换的一些小技巧汇总
May 07 #Python
You might like
php daodb插入、更新与删除数据
2009/03/19 PHP
php设计模式  Command(命令模式)
2011/06/17 PHP
PHP+Mysql实现多关键字与多字段生成SQL语句的函数
2014/11/05 PHP
PHP版QQ互联OAuth示例代码分享
2015/07/05 PHP
JS 动态获取节点代码innerHTML分析 [IE,FF]
2009/11/30 Javascript
JavaScript 事件系统
2010/07/22 Javascript
Js获取下拉框选定项的值和文本的实现代码
2014/02/26 Javascript
浏览器缩放检测的js代码
2014/09/28 Javascript
JQuery遍历json数组的3种方法
2014/11/08 Javascript
jqGrid表格应用之新增与删除数据附源码下载
2015/12/02 Javascript
javascript运动效果实例总结(放大缩小、滑动淡入、滚动)
2016/01/08 Javascript
Bootstrap Table使用心得总结
2016/11/29 Javascript
基于iScroll实现内容滚动效果
2018/03/21 Javascript
AngularJS实现的鼠标拖动画矩形框示例【可兼容IE8】
2019/05/17 Javascript
解决vue单页面应用打包后相对路径、绝对路径相关问题
2020/08/14 Javascript
[03:46]显微镜下的DOTA2第七期——满血与残血
2014/06/20 DOTA
[02:27]2014DOTA2国际邀请赛 VG赛后采访:更大的挑战在等着我们
2014/07/13 DOTA
python的dataframe转换为多维矩阵的方法
2018/04/11 Python
Python实现合并同一个文件夹下所有PDF文件的方法示例
2018/04/28 Python
解决python图像处理图像赋值后变为白色的问题
2020/06/04 Python
python中sys模块是做什么用的
2020/08/16 Python
Python实现自动整理文件的脚本
2020/12/17 Python
简述安装Slackware Linux系统的过程
2012/05/08 面试题
涉外文秘个人求职的自我评价
2013/10/07 职场文书
材料物理专业大学毕业生求职信
2013/10/15 职场文书
个人求职简历的自我评价
2013/10/19 职场文书
委托书模板
2014/04/04 职场文书
《二泉映月》教学反思
2014/04/15 职场文书
十佳标兵事迹材料
2014/08/18 职场文书
新颖的化妆品活动方案
2014/08/21 职场文书
学位证书委托书
2014/09/30 职场文书
病人慰问信范文
2015/02/15 职场文书
红色革命电影观后感
2015/06/18 职场文书
Python requests库参数提交的注意事项总结
2021/03/29 Python
CKAD认证中部署k8s并配置Calico插件
2022/03/31 Servers
动画《平凡职业成就世界最强》宣布制作OVA
2022/04/01 日漫