python读取word文档的方法


Posted in Python onMay 09, 2015

本文实例讲述了python读取word文档的方法。分享给大家供大家参考。具体如下:

首先下载安装win32com

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open('c:/test')
doc.SaveAs('c:/test.text', 2)
doc.Close()
word.Quit()

这种方式产生的text文档,不能用python用普通的r方式读取,为了让python可以用r方式读取,应当写成

doc.SaveAs('c:/test', 4)

注意:系统执行完成后,会自动产生文件后缀txt(虽然没有指明后缀)。
在xp系统下面,应当,

open(r'c:\text','r')
wdFormatDocument = 0
wdFormatDocument97 = 0
wdFormatDocumentDefault = 16
wdFormatDOSText = 4
wdFormatDOSTextLineBreaks = 5
wdFormatEncodedText = 7
wdFormatFilteredHTML = 10
wdFormatFlatXML = 19
wdFormatFlatXMLMacroEnabled = 20
wdFormatFlatXMLTemplate = 21
wdFormatFlatXMLTemplateMacroEnabled = 22
wdFormatHTML = 8
wdFormatPDF = 17
wdFormatRTF = 6
wdFormatTemplate = 1
wdFormatTemplate97 = 1
wdFormatText = 2
wdFormatTextLineBreaks = 3
wdFormatUnicodeText = 7
wdFormatWebArchive = 9
wdFormatXML = 11
wdFormatXMLDocument = 12
wdFormatXMLDocumentMacroEnabled = 13
wdFormatXMLTemplate = 14
wdFormatXMLTemplateMacroEnabled = 15
wdFormatXPS = 18

照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字 8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API,比如PHP.

from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open(r'c:/test1.doc')
doc.SaveAs('c:/test1.text', 4)
doc.Close()
import re
strings=open(r'c:\test1.text','r').read()
result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)
chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)
question=open(r'c:\question','a+')
question.write(chan)
question.close()
answer=open(r'c:\answeronly','a+')
for i,a in enumerate(result):
 m=re.search('[A-D]',a)
 answer.write(str(i+1)+' '+m.group()+'\n')
answer.close()
chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)
#不要(),容易引起歧义。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
跟老齐学Python之玩转字符串(2)
Sep 14 Python
Python实现的三层BP神经网络算法示例
Feb 07 Python
python opencv 读取本地视频文件 修改ffmpeg的方法
Jan 26 Python
python实现爬取百度图片的方法示例
Jul 06 Python
pytorch多GPU并行运算的实现
Sep 27 Python
python创建学生管理系统
Nov 22 Python
django商品分类及商品数据建模实例详解
Jan 03 Python
关于TensorFlow新旧版本函数接口变化详解
Feb 10 Python
Python+Selenium随机生成手机验证码并检查页面上是否弹出重复手机号码提示框
Sep 21 Python
Python实现扫码工具的示例代码
Oct 09 Python
python+appium+yaml移动端自动化测试框架实现详解
Nov 24 Python
opencv实现图像几何变换
Mar 24 Python
python动态性强类型用法实例
May 09 #Python
Python functools模块学习总结
May 09 #Python
Python浅拷贝与深拷贝用法实例
May 09 #Python
九步学会Python装饰器
May 09 #Python
Python类属性与实例属性用法分析
May 09 #Python
python回调函数用法实例分析
May 09 #Python
python类和函数中使用静态变量的方法
May 09 #Python
You might like
php的header和asp中的redirect比较
2006/10/09 PHP
php安装xdebug/php安装pear/phpunit详解步骤(图)
2013/12/22 PHP
php修改上传图片尺寸的方法
2015/04/14 PHP
CentOS下搭建PHP环境与WordPress博客程序的全流程总结
2016/05/07 PHP
PHP通过bypass disable functions执行系统命令的方法汇总
2018/05/02 PHP
PHP实现动态压缩js与css文件的方法
2018/05/02 PHP
js兼容标准的表格变色效果
2008/06/28 Javascript
IE无法设置短域名下Cookie
2010/09/23 Javascript
仅Firefox中链接A无法实现模拟点击以触发其默认行为
2011/07/31 Javascript
js实现简单随机抽奖的方法
2015/01/27 Javascript
javascript上下方向键控制表格行选中并高亮显示的方法
2015/02/13 Javascript
javascript实现列表滚动的方法
2015/07/30 Javascript
javascript简单实现类似QQ头像弹出效果的方法
2015/08/03 Javascript
js实现仿网易点击弹出提示同时背景变暗效果
2015/08/13 Javascript
Javascript实现图片懒加载插件的方法
2016/10/20 Javascript
JS实现的二叉树算法完整实例
2017/04/06 Javascript
js 发布订阅模式的实例讲解
2017/09/10 Javascript
JS获取一个表单字段中多条数据并转化为json格式
2017/10/17 Javascript
基于twbsPagination.js分页插件使用心得(分享)
2017/10/21 Javascript
jquery实现垂直无限轮播的方法分析
2019/07/16 jQuery
vue如何在用户要关闭当前网页时弹出提示的实现
2020/05/31 Javascript
深入浅析python定时杀进程
2016/06/06 Python
Django日志模块logging的配置详解
2017/02/14 Python
Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
2019/07/31 Python
Python关于__name__属性的含义和作用详解
2020/02/19 Python
Numpy 多维数据数组的实现
2020/06/18 Python
pip 20.3 新版本发布!即将抛弃 Python 2.x(推荐)
2020/12/16 Python
SKECHERS官方旗舰店:美国舒适运动休闲品牌
2017/12/22 全球购物
Watchshop德国:欧洲在线手表No.1
2019/06/20 全球购物
资生堂英国官网:Shiseido英国
2020/12/30 全球购物
办公室文秘自我评价
2013/09/21 职场文书
《小白兔和小灰兔》教学反思
2014/02/18 职场文书
购房公证委托书(2014版)
2014/09/12 职场文书
学习新党章心得体会2016
2016/01/15 职场文书
人身损害赔偿协议书
2016/03/22 职场文书
Javascript之datagrid查询详解
2021/09/15 Javascript