python读取word文档的方法


Posted in Python onMay 09, 2015

本文实例讲述了python读取word文档的方法。分享给大家供大家参考。具体如下:

首先下载安装win32com

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open('c:/test')
doc.SaveAs('c:/test.text', 2)
doc.Close()
word.Quit()

这种方式产生的text文档,不能用python用普通的r方式读取,为了让python可以用r方式读取,应当写成

doc.SaveAs('c:/test', 4)

注意:系统执行完成后,会自动产生文件后缀txt(虽然没有指明后缀)。
在xp系统下面,应当,

open(r'c:\text','r')
wdFormatDocument = 0
wdFormatDocument97 = 0
wdFormatDocumentDefault = 16
wdFormatDOSText = 4
wdFormatDOSTextLineBreaks = 5
wdFormatEncodedText = 7
wdFormatFilteredHTML = 10
wdFormatFlatXML = 19
wdFormatFlatXMLMacroEnabled = 20
wdFormatFlatXMLTemplate = 21
wdFormatFlatXMLTemplateMacroEnabled = 22
wdFormatHTML = 8
wdFormatPDF = 17
wdFormatRTF = 6
wdFormatTemplate = 1
wdFormatTemplate97 = 1
wdFormatText = 2
wdFormatTextLineBreaks = 3
wdFormatUnicodeText = 7
wdFormatWebArchive = 9
wdFormatXML = 11
wdFormatXMLDocument = 12
wdFormatXMLDocumentMacroEnabled = 13
wdFormatXMLTemplate = 14
wdFormatXMLTemplateMacroEnabled = 15
wdFormatXPS = 18

照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字 8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API,比如PHP.

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open(r'c:/test1.doc')
doc.SaveAs('c:/test1.text', 4)
doc.Close()
import re
strings=open(r'c:\test1.text','r').read()
result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)
chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)
question=open(r'c:\question','a+')
question.write(chan)
question.close()
answer=open(r'c:\answeronly','a+')
for i,a in enumerate(result):
 m=re.search('[A-D]',a)
 answer.write(str(i+1)+' '+m.group()+'\n')
answer.close()
chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)
#不要(),容易引起歧义。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
用Python展示动态规则法用以解决重叠子问题的示例
Apr 02 Python
python集合类型用法分析
Apr 08 Python
Python中使用Queue和Condition进行线程同步的方法
Jan 19 Python
Python处理JSON数据并生成条形图
Aug 05 Python
Python绘制的二项分布概率图示例
Aug 22 Python
搞清楚 Python traceback的具体使用方法
May 13 Python
Python imread、newaxis用法详解
Nov 04 Python
详解python中各种文件打开模式
Jan 19 Python
Tensorflow 模型转换 .pb convert to .lite实例
Feb 12 Python
Django权限控制的使用
Jan 07 Python
Python基于argparse与ConfigParser库进行入参解析与ini parser
Feb 02 Python
Python超简单容易上手的画图工具库推荐
May 10 Python
python动态性强类型用法实例
May 09 #Python
Python functools模块学习总结
May 09 #Python
Python浅拷贝与深拷贝用法实例
May 09 #Python
九步学会Python装饰器
May 09 #Python
Python类属性与实例属性用法分析
May 09 #Python
python回调函数用法实例分析
May 09 #Python
python类和函数中使用静态变量的方法
May 09 #Python
You might like
乱谈我对耳机、音箱的感受
2021/03/02 无线电
ThinkPHP的截取字符串函数无法显示省略号的解决方法
2014/06/25 PHP
跟着JQuery API学Jquery 之三 筛选
2010/04/09 Javascript
基于JQuery的简单实现折叠菜单代码
2010/09/15 Javascript
JS分割字符串并放入数组的函数
2011/07/04 Javascript
JQuery选择器特辑 详细小结
2012/05/14 Javascript
jquery插件开发注意事项小结
2013/06/04 Javascript
JavaScript学习笔记之基础语法
2015/01/22 Javascript
jquery复选框多选赋值给文本框的方法
2015/01/27 Javascript
Node.js程序中的本地文件操作用法小结
2016/03/06 Javascript
BootStrap框架个人总结(bootstrap框架、导航条、下拉菜单、轮播广告carousel、栅格系统布局、标签页tabs、模态框、菜单定位)
2016/12/01 Javascript
AngularJS打开页面隐藏显示表达式用法示例
2016/12/25 Javascript
微信小程序引用公共js里的方法的实例详解
2017/08/17 Javascript
vue1.0和vue2.0的watch监听事件写法详解
2018/09/11 Javascript
js 实现ajax发送步骤过程详解
2019/07/25 Javascript
详解Element-UI中上传的文件前端处理
2019/08/07 Javascript
vue cli3 调用百度翻译API翻译页面的实现示例
2019/09/13 Javascript
使用xampp将angular项目运行在web服务器的教程
2019/09/16 Javascript
jQuery擦除插件eraser使用方法详解
2020/01/11 jQuery
JS数据类型判断的几种常用方法
2020/07/07 Javascript
Python读取环境变量的方法和自定义类分享
2014/11/22 Python
Python argv用法详解
2016/01/08 Python
Python 爬虫多线程详解及实例代码
2016/10/08 Python
python实现录屏功能(亲测好用)
2020/03/02 Python
使用Python将语音转换为文本的方法
2020/08/10 Python
15款Python编辑器的优缺点,别再问我“选什么编辑器”啦
2020/10/19 Python
详解Open Folder as PyCharm Project怎么添加的方法
2020/12/29 Python
关于HTML5你必须知道的28个新特性,新技巧以及新技术
2012/05/28 HTML / CSS
英国领先的珍珠首饰品牌:Orchira
2016/09/11 全球购物
基督教婚礼主持词
2014/03/14 职场文书
个人工作主要事迹
2014/05/08 职场文书
党的作风建设心得体会
2014/10/22 职场文书
社会实践活动报告
2015/02/05 职场文书
观后感的写法
2015/06/19 职场文书
职位证明模板
2015/06/23 职场文书
初二物理教学反思
2016/02/19 职场文书