python读取word文档的方法


Posted in Python onMay 09, 2015

本文实例讲述了python读取word文档的方法。分享给大家供大家参考。具体如下:

首先下载安装win32com

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open('c:/test')
doc.SaveAs('c:/test.text', 2)
doc.Close()
word.Quit()

这种方式产生的text文档,不能用python用普通的r方式读取,为了让python可以用r方式读取,应当写成

doc.SaveAs('c:/test', 4)

注意:系统执行完成后,会自动产生文件后缀txt(虽然没有指明后缀)。
在xp系统下面,应当,

open(r'c:\text','r')
wdFormatDocument = 0
wdFormatDocument97 = 0
wdFormatDocumentDefault = 16
wdFormatDOSText = 4
wdFormatDOSTextLineBreaks = 5
wdFormatEncodedText = 7
wdFormatFilteredHTML = 10
wdFormatFlatXML = 19
wdFormatFlatXMLMacroEnabled = 20
wdFormatFlatXMLTemplate = 21
wdFormatFlatXMLTemplateMacroEnabled = 22
wdFormatHTML = 8
wdFormatPDF = 17
wdFormatRTF = 6
wdFormatTemplate = 1
wdFormatTemplate97 = 1
wdFormatText = 2
wdFormatTextLineBreaks = 3
wdFormatUnicodeText = 7
wdFormatWebArchive = 9
wdFormatXML = 11
wdFormatXMLDocument = 12
wdFormatXMLDocumentMacroEnabled = 13
wdFormatXMLTemplate = 14
wdFormatXMLTemplateMacroEnabled = 15
wdFormatXPS = 18

照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字 8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API,比如PHP.

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open(r'c:/test1.doc')
doc.SaveAs('c:/test1.text', 4)
doc.Close()
import re
strings=open(r'c:\test1.text','r').read()
result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)
chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)
question=open(r'c:\question','a+')
question.write(chan)
question.close()
answer=open(r'c:\answeronly','a+')
for i,a in enumerate(result):
 m=re.search('[A-D]',a)
 answer.write(str(i+1)+' '+m.group()+'\n')
answer.close()
chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)
#不要(),容易引起歧义。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python实现网页链接提取的方法分享
Feb 25 Python
python使用PythonMagick将jpg图片转换成ico图片的方法
Mar 26 Python
Python实现Sqlite将字段当做索引进行查询的方法
Jul 21 Python
python中实现精确的浮点数运算详解
Nov 02 Python
解决win64 Python下安装PIL出错问题(图解)
Sep 03 Python
Python3.4学习笔记之类型判断,异常处理,终止程序操作小结
Mar 01 Python
解决pyqt5中QToolButton无法使用的问题
Jun 21 Python
使用python+whoosh实现全文检索
Dec 09 Python
Keras构建神经网络踩坑(解决model.predict预测值全为0.0的问题)
Jul 07 Python
Python Selenium实现无可视化界面过程解析
Aug 25 Python
python 自定义异常和主动抛出异常(raise)的操作
Dec 11 Python
selenium携带cookies模拟登陆CSDN的实现
Jan 19 Python
python动态性强类型用法实例
May 09 #Python
Python functools模块学习总结
May 09 #Python
Python浅拷贝与深拷贝用法实例
May 09 #Python
九步学会Python装饰器
May 09 #Python
Python类属性与实例属性用法分析
May 09 #Python
python回调函数用法实例分析
May 09 #Python
python类和函数中使用静态变量的方法
May 09 #Python
You might like
Symfony2实现在controller中获取url的方法
2016/03/18 PHP
利用PHPStorm如何开发Laravel应用详解
2017/08/30 PHP
JS 文件大小判断的实现代码
2010/04/07 Javascript
window.dialogArguments 使用说明
2011/04/11 Javascript
推荐40个非常优秀的jQuery插件和教程【系列三】
2011/11/09 Javascript
用jquery方法操作radio使其默认选项是否
2013/09/10 Javascript
JQuery页面的表格数据的增加与分页的实现
2013/12/10 Javascript
不到30行JS代码实现Excel表格的方法
2014/11/15 Javascript
Javascript基础教程之if条件语句
2015/01/18 Javascript
jQuery ui实现动感的圆角渐变网站导航菜单效果代码
2015/08/26 Javascript
ES6新特性之函数的扩展实例详解
2017/04/01 Javascript
Vue关于数据绑定出错解决办法
2017/05/15 Javascript
vue2.0中click点击当前li实现动态切换class
2017/06/21 Javascript
基于js中this和event 的区别(详解)
2017/10/24 Javascript
详解nuxt路由鉴权(express模板)
2018/11/21 Javascript
vue使用高德地图点击下钻上浮效果的实现思路
2019/10/12 Javascript
微信小程序表单验证WxValidate的使用
2019/11/27 Javascript
Vant Weapp组件踩坑:picker的初始赋值解决
2020/11/12 Javascript
[00:32]2018DOTA2亚洲邀请赛EG出场
2018/04/03 DOTA
Python pass 语句使用示例
2014/03/11 Python
优化Python代码使其加快作用域内的查找
2015/03/30 Python
python操作redis方法总结
2018/06/06 Python
Python 实现「食行生鲜」签到领积分功能
2018/09/26 Python
Python3爬楼梯算法示例
2019/03/04 Python
Python数据分析pandas模块用法实例详解
2019/11/20 Python
Tensorflow全局设置可见GPU编号操作
2020/06/30 Python
Python 随机按键模拟2小时
2020/12/30 Python
美国名牌手表折扣网站:Jomashop
2020/05/22 全球购物
物理力学求职信
2014/02/18 职场文书
农民工讨薪标语
2014/06/26 职场文书
新学期开学标语
2014/06/30 职场文书
珠宝的促销活动方案
2014/08/31 职场文书
2015年教育实习工作总结
2015/04/24 职场文书
慈善募捐倡议书
2015/04/27 职场文书
严以用权学习心得体会
2016/01/12 职场文书
用人单位的规章制度,怎样制定才是有效的?
2019/07/09 职场文书