python读取word文档的方法


Posted in Python onMay 09, 2015

本文实例讲述了python读取word文档的方法。分享给大家供大家参考。具体如下:

首先下载安装win32com

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open('c:/test')
doc.SaveAs('c:/test.text', 2)
doc.Close()
word.Quit()

这种方式产生的text文档,不能用python用普通的r方式读取,为了让python可以用r方式读取,应当写成

doc.SaveAs('c:/test', 4)

注意:系统执行完成后,会自动产生文件后缀txt(虽然没有指明后缀)。
在xp系统下面,应当,

open(r'c:\text','r')
wdFormatDocument = 0
wdFormatDocument97 = 0
wdFormatDocumentDefault = 16
wdFormatDOSText = 4
wdFormatDOSTextLineBreaks = 5
wdFormatEncodedText = 7
wdFormatFilteredHTML = 10
wdFormatFlatXML = 19
wdFormatFlatXMLMacroEnabled = 20
wdFormatFlatXMLTemplate = 21
wdFormatFlatXMLTemplateMacroEnabled = 22
wdFormatHTML = 8
wdFormatPDF = 17
wdFormatRTF = 6
wdFormatTemplate = 1
wdFormatTemplate97 = 1
wdFormatText = 2
wdFormatTextLineBreaks = 3
wdFormatUnicodeText = 7
wdFormatWebArchive = 9
wdFormatXML = 11
wdFormatXMLDocument = 12
wdFormatXMLDocumentMacroEnabled = 13
wdFormatXMLTemplate = 14
wdFormatXMLTemplateMacroEnabled = 15
wdFormatXPS = 18

照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字 8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API,比如PHP.

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open(r'c:/test1.doc')
doc.SaveAs('c:/test1.text', 4)
doc.Close()
import re
strings=open(r'c:\test1.text','r').read()
result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)
chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)
question=open(r'c:\question','a+')
question.write(chan)
question.close()
answer=open(r'c:\answeronly','a+')
for i,a in enumerate(result):
 m=re.search('[A-D]',a)
 answer.write(str(i+1)+' '+m.group()+'\n')
answer.close()
chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)
#不要(),容易引起歧义。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python多线程编程简单介绍
Apr 13 Python
两个命令把 Vim 打造成 Python IDE的方法
Mar 20 Python
python中defaultdict的用法详解
Jun 07 Python
浅谈Python实现贪心算法与活动安排问题
Dec 19 Python
python深度优先搜索和广度优先搜索
Feb 07 Python
使用python装饰器计算函数运行时间的实例
Apr 21 Python
解决.ui文件生成的.py文件运行不出现界面的方法
Jun 19 Python
python提取log文件内容并画出图表
Jul 08 Python
用Python实现BP神经网络(附代码)
Jul 10 Python
python生成器推导式用法简单示例
Oct 08 Python
PyCharm2020.1.1与Python3.7.7的安装教程图文详解
Aug 07 Python
关于Python中*args和**kwargs的深入理解
Aug 07 Python
python动态性强类型用法实例
May 09 #Python
Python functools模块学习总结
May 09 #Python
Python浅拷贝与深拷贝用法实例
May 09 #Python
九步学会Python装饰器
May 09 #Python
Python类属性与实例属性用法分析
May 09 #Python
python回调函数用法实例分析
May 09 #Python
python类和函数中使用静态变量的方法
May 09 #Python
You might like
使用PHP模拟HTTP认证
2006/10/09 PHP
安装APACHE
2007/01/15 PHP
PHP面向对象精要总结
2014/11/07 PHP
整理php防注入和XSS攻击通用过滤
2015/09/13 PHP
laravel框架中路由设置,路由参数和路由命名实例分析
2019/11/23 PHP
PHP isset empty函数相关面试题及解析
2020/12/11 PHP
JavaScript中的History历史对象
2008/01/16 Javascript
元素的内联事件处理函数的特殊作用域在各浏览器中存在差异
2011/01/12 Javascript
javascript禁用Tab键脚本实例
2013/11/22 Javascript
浅析JavaScript基本类型与引用类型
2014/05/28 Javascript
node.js中的fs.rename方法使用说明
2014/12/16 Javascript
jQuery中element选择器用法实例
2014/12/29 Javascript
javascript实现滑动解锁功能
2014/12/31 Javascript
基于Bootstrap实现tab标签切换效果
2020/04/15 Javascript
js鼠标单击和双击事件冲突问题的快速解决方法
2016/07/11 Javascript
Jquery实现上下移动和排序代码
2016/10/17 Javascript
搭建Bootstrap离线文档的方法
2016/12/02 Javascript
JavaScript在控件上添加倒计时功能的实现代码
2017/07/04 Javascript
原生js实现拖拽功能基本思路详解
2018/04/18 Javascript
使用Phantomjs和Node完成网页的截屏快照的方法
2019/07/16 Javascript
聊聊鉴权那些事(推荐)
2019/08/22 Javascript
详解Vue+elementUI build打包部署后字体图标丢失问题
2020/07/13 Javascript
微信小程序调用后台service教程详解
2020/11/06 Javascript
用Python脚本生成Android SALT扰码的方法
2013/09/18 Python
Python实现的单向循环链表功能示例
2017/11/10 Python
Python数据结构与算法之完全树与最小堆实例
2017/12/13 Python
python中的文件打开与关闭操作命令介绍
2018/04/26 Python
新手如何发布Python项目开源包过程详解
2019/07/11 Python
基于OpenCV的网络实时视频流传输的实现
2020/11/15 Python
CSS3 选择器 伪类选择器介绍
2012/01/21 HTML / CSS
Paper Cape官网:美国婴儿和儿童服装品牌
2019/11/02 全球购物
新年爱情寄语
2014/04/08 职场文书
乱世佳人观后感
2015/06/08 职场文书
2016党员学习作风建设心得体会
2016/01/21 职场文书
优胜劣汰,强者为王——读《鲁滨逊漂流记》有感
2019/08/15 职场文书
纯html+css实现Element loading效果
2021/08/02 HTML / CSS