python读取word文档的方法


Posted in Python onMay 09, 2015

本文实例讲述了python读取word文档的方法。分享给大家供大家参考。具体如下:

首先下载安装win32com

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open('c:/test')
doc.SaveAs('c:/test.text', 2)
doc.Close()
word.Quit()

这种方式产生的text文档,不能用python用普通的r方式读取,为了让python可以用r方式读取,应当写成

doc.SaveAs('c:/test', 4)

注意:系统执行完成后,会自动产生文件后缀txt(虽然没有指明后缀)。
在xp系统下面,应当,

open(r'c:\text','r')
wdFormatDocument = 0
wdFormatDocument97 = 0
wdFormatDocumentDefault = 16
wdFormatDOSText = 4
wdFormatDOSTextLineBreaks = 5
wdFormatEncodedText = 7
wdFormatFilteredHTML = 10
wdFormatFlatXML = 19
wdFormatFlatXMLMacroEnabled = 20
wdFormatFlatXMLTemplate = 21
wdFormatFlatXMLTemplateMacroEnabled = 22
wdFormatHTML = 8
wdFormatPDF = 17
wdFormatRTF = 6
wdFormatTemplate = 1
wdFormatTemplate97 = 1
wdFormatText = 2
wdFormatTextLineBreaks = 3
wdFormatUnicodeText = 7
wdFormatWebArchive = 9
wdFormatXML = 11
wdFormatXMLDocument = 12
wdFormatXMLDocumentMacroEnabled = 13
wdFormatXMLTemplate = 14
wdFormatXMLTemplateMacroEnabled = 15
wdFormatXPS = 18

照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字 8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API,比如PHP.

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open(r'c:/test1.doc')
doc.SaveAs('c:/test1.text', 4)
doc.Close()
import re
strings=open(r'c:\test1.text','r').read()
result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)
chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)
question=open(r'c:\question','a+')
question.write(chan)
question.close()
answer=open(r'c:\answeronly','a+')
for i,a in enumerate(result):
 m=re.search('[A-D]',a)
 answer.write(str(i+1)+' '+m.group()+'\n')
answer.close()
chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)
#不要(),容易引起歧义。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python中的高级函数map/reduce使用实例
Apr 13 Python
JPype实现在python中调用JAVA的实例
Jul 19 Python
Django分页查询并返回jsons数据(中文乱码解决方法)
Aug 02 Python
为什么从Python 3.6开始字典有序并效率更高
Jul 15 Python
Python3中urlencode和urldecode的用法详解
Jul 23 Python
python Web flask 视图内容和模板实现代码
Aug 23 Python
python实现超市商品销售管理系统
Oct 25 Python
python实现跨excel sheet复制代码实例
Mar 03 Python
SpringBoot实现登录注册常见问题解决方案
Mar 04 Python
python实现图片横向和纵向拼接
Mar 05 Python
tensorflow使用L2 regularization正则化修正overfitting过拟合方式
May 22 Python
python源文件的字符编码知识点详解
Mar 04 Python
python动态性强类型用法实例
May 09 #Python
Python functools模块学习总结
May 09 #Python
Python浅拷贝与深拷贝用法实例
May 09 #Python
九步学会Python装饰器
May 09 #Python
Python类属性与实例属性用法分析
May 09 #Python
python回调函数用法实例分析
May 09 #Python
python类和函数中使用静态变量的方法
May 09 #Python
You might like
PL-880隐藏功能
2021/03/01 无线电
php多文件上传下载示例分享
2014/02/20 PHP
codeigniter框架The URI you submitted has disallowed characters错误解决方法
2014/05/06 PHP
YII Framework框架教程之日志用法详解
2016/03/14 PHP
Yii2单元测试用法示例
2016/11/12 PHP
PHP与SQL语句常用大全
2016/12/10 PHP
锋利的jQuery jQuery中的DOM操作
2010/03/21 Javascript
javascript中onmouse事件在div中失效问题的解决方法
2012/01/09 Javascript
判断js对象是否拥有某一个属性的js代码
2013/08/16 Javascript
JavaScript/Js脚本处理html元素的自定义属性解析(亲测兼容Firefox与IE)
2013/11/25 Javascript
js跳转页面方法总结
2014/01/29 Javascript
js实现点击按钮后给Div图层设置随机背景颜色的方法
2015/05/06 Javascript
JS模式之单例模式基本用法
2015/06/30 Javascript
javascript的正则匹配方法学习
2016/02/24 Javascript
AngularJS基础 ng-model-options 指令简单示例
2016/08/02 Javascript
BootStrap 导航条实例代码
2017/05/18 Javascript
解决JS外部文件中文注释出现乱码问题
2017/07/09 Javascript
Angular5中状态管理的实现
2018/09/03 Javascript
微信小程序仿今日头条导航栏滚动解析
2019/08/20 Javascript
jQuery带控制按钮轮播图插件
2020/07/31 jQuery
[01:05:29]DOTA2-DPC中国联赛 正赛 PSG.LGD vs Aster BO3 第二场 1月24日
2021/03/11 DOTA
win7安装python生成随机数代码分享
2013/12/27 Python
Python中单、双下划线的区别总结
2017/12/01 Python
浅谈numpy生成数组的零值问题
2018/11/12 Python
Python实现字符型图片验证码识别完整过程详解
2019/05/10 Python
python射线法判断一个点在图形区域内外
2019/06/28 Python
scrapy头部修改的方法详解
2020/12/06 Python
Python解析m3u8拼接下载mp4视频文件的示例代码
2021/03/03 Python
Mixbook加拿大:照片书,照片卡,剪贴簿,年历和日历
2017/02/21 全球购物
香奈儿美国官网:CHANEL美国
2020/05/20 全球购物
迎八一活动主题
2014/01/31 职场文书
运动会标语
2014/06/21 职场文书
领导干部四风问题自我剖析材料
2014/09/25 职场文书
2014年组织部工作总结
2014/11/14 职场文书
银行中层干部培训心得体会
2016/01/11 职场文书
大学生创业,为什么都会选择快餐饮?
2019/08/08 职场文书