python读取word文档的方法


Posted in Python onMay 09, 2015

本文实例讲述了python读取word文档的方法。分享给大家供大家参考。具体如下:

首先下载安装win32com

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open('c:/test')
doc.SaveAs('c:/test.text', 2)
doc.Close()
word.Quit()

这种方式产生的text文档,不能用python用普通的r方式读取,为了让python可以用r方式读取,应当写成

doc.SaveAs('c:/test', 4)

注意:系统执行完成后,会自动产生文件后缀txt(虽然没有指明后缀)。
在xp系统下面,应当,

open(r'c:\text','r')
wdFormatDocument = 0
wdFormatDocument97 = 0
wdFormatDocumentDefault = 16
wdFormatDOSText = 4
wdFormatDOSTextLineBreaks = 5
wdFormatEncodedText = 7
wdFormatFilteredHTML = 10
wdFormatFlatXML = 19
wdFormatFlatXMLMacroEnabled = 20
wdFormatFlatXMLTemplate = 21
wdFormatFlatXMLTemplateMacroEnabled = 22
wdFormatHTML = 8
wdFormatPDF = 17
wdFormatRTF = 6
wdFormatTemplate = 1
wdFormatTemplate97 = 1
wdFormatText = 2
wdFormatTextLineBreaks = 3
wdFormatUnicodeText = 7
wdFormatWebArchive = 9
wdFormatXML = 11
wdFormatXMLDocument = 12
wdFormatXMLDocumentMacroEnabled = 13
wdFormatXMLTemplate = 14
wdFormatXMLTemplateMacroEnabled = 15
wdFormatXPS = 18

照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字 8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API,比如PHP.

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open(r'c:/test1.doc')
doc.SaveAs('c:/test1.text', 4)
doc.Close()
import re
strings=open(r'c:\test1.text','r').read()
result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)
chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)
question=open(r'c:\question','a+')
question.write(chan)
question.close()
answer=open(r'c:\answeronly','a+')
for i,a in enumerate(result):
 m=re.search('[A-D]',a)
 answer.write(str(i+1)+' '+m.group()+'\n')
answer.close()
chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)
#不要(),容易引起歧义。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Go/Python/Erlang编程语言对比分析及示例代码
Apr 23 Python
Python2.7.10以上pip更新及其他包的安装教程
Jun 12 Python
Python读取Excel表格,并同时画折线图和柱状图的方法
Oct 14 Python
Flask之请求钩子的实现
Dec 23 Python
python 利用pandas将arff文件转csv文件的方法
Feb 12 Python
python 实现交换两个列表元素的位置示例
Jun 26 Python
python中的global关键字的使用方法
Aug 20 Python
python生成器推导式用法简单示例
Oct 08 Python
Pytorch转keras的有效方法,以FlowNet为例讲解
May 26 Python
Python内置函数property()如何使用
Sep 01 Python
python 还原梯度下降算法实现一维线性回归
Oct 22 Python
手残删除python之后的补救方法
Jun 26 Python
python动态性强类型用法实例
May 09 #Python
Python functools模块学习总结
May 09 #Python
Python浅拷贝与深拷贝用法实例
May 09 #Python
九步学会Python装饰器
May 09 #Python
Python类属性与实例属性用法分析
May 09 #Python
python回调函数用法实例分析
May 09 #Python
python类和函数中使用静态变量的方法
May 09 #Python
You might like
基于PHP中的常用函数回顾
2013/07/11 PHP
php for 循环使用的简单实例
2016/06/02 PHP
php使用curl伪造来源ip和refer的方法示例
2018/05/08 PHP
关于跨站脚本攻击问题
2011/12/22 Javascript
jQuery 1.7.2中getAll方法的疑惑分析
2012/05/23 Javascript
js中parseFloat(参数1,参数2)定义和用法及注意事项
2013/01/27 Javascript
js获取某月的最后一天日期的简单实例
2013/06/22 Javascript
js导出table到excel同时兼容FF和IE示例
2013/09/03 Javascript
在ASP.NET中使用JavaScript脚本的方法
2013/11/12 Javascript
jquery ajax,ashx,json的用法总结
2014/02/12 Javascript
javascript实现根据身份证号读取相关信息
2014/12/17 Javascript
js实现完全自定义可带多级目录的网页鼠标右键菜单方法
2015/02/28 Javascript
Vue.js系列之项目搭建(1)
2017/01/03 Javascript
JavaScript三种绑定事件方式及相互之间的区别分析
2017/01/10 Javascript
Vue2仿淘宝实现省市区三级联动
2020/04/15 Javascript
bootstrap fileinput插件实现预览上传照片功能
2018/01/23 Javascript
微信小程序js文件改变参数并在视图上及时更新【推荐】
2018/06/11 Javascript
vue-router重定向不刷新问题的解决
2018/06/25 Javascript
Bootstrap开发中Tab标签页切换图表显示问题的解决方法
2018/07/13 Javascript
JQuery实现ajax请求的示例和注意事项
2018/12/10 jQuery
基于webpack4.X从零搭建React脚手架的方法步骤
2018/12/23 Javascript
vue实现按钮切换图片
2021/01/20 Vue.js
python实现的阳历转阴历(农历)算法
2014/04/25 Python
跟老齐学Python之再深点,更懂list
2014/09/20 Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
2018/05/21 Python
Django中reverse反转并且传递参数的方法
2019/08/06 Python
Python使用mongodb保存爬取豆瓣电影的数据过程解析
2019/08/14 Python
Sneaker Studio法国:购买运动鞋
2018/06/08 全球购物
彪马加拿大官网:PUMA加拿大
2018/10/04 全球购物
Desigual美国官方网站:西班牙服装品牌
2019/03/29 全球购物
美国和加拿大计算机和电子产品购物网站:TigerDirect.com
2019/09/13 全球购物
武汉世纪畅想数字传播有限公司.NET笔试题
2014/07/22 面试题
合同意向书范本
2014/07/30 职场文书
体育教师个人总结
2015/02/09 职场文书
上班迟到检讨书范文
2015/05/06 职场文书
python基础之停用词过滤详解
2021/04/21 Python