Ubuntu下使用python读取doc和docx文档的内容方法


Posted in Python onMay 08, 2018

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用C语言扩展Python程序的简单入门指引
Apr 14 Python
Django + Uwsgi + Nginx 实现生产环境部署的方法
Jun 20 Python
Python3爬虫爬取英雄联盟高清桌面壁纸功能示例【基于Scrapy框架】
Dec 05 Python
详解Python爬取并下载《电影天堂》3千多部电影
Apr 26 Python
pyqt5 禁止窗口最大化和禁止窗口拉伸的方法
Jun 18 Python
python 三元运算符使用解析
Sep 16 Python
Pytorch中index_select() 函数的实现理解
Nov 19 Python
Python字符串格式化输出代码实例
Nov 22 Python
基于Tensorflow高阶读写教程
Feb 10 Python
Python更新所有已安装包的操作
Feb 13 Python
Python基于数列实现购物车程序过程详解
Jun 09 Python
Matlab使用Plot函数实现数据动态显示方法总结
Feb 25 Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
You might like
PHP批量生成缩略图的代码
2008/07/19 PHP
php模拟asp中的XmlHttpRequest实现http请求的代码
2011/03/24 PHP
asp.net和php的区别点总结
2019/10/10 PHP
使用JQuery和s3captche实现一个水果名字的验证
2009/08/14 Javascript
Javascript 面向对象 继承
2010/05/13 Javascript
javascript获取ckeditor编辑器的值(实现代码)
2013/11/18 Javascript
同域jQuery(跨)iframe操作DOM(实例讲解)
2013/12/19 Javascript
javascript获取dom的下一个节点方法
2014/09/05 Javascript
js闭包的用途详解
2014/11/09 Javascript
使用 TypeScript 重新编写的 JavaScript 坦克大战游戏代码
2015/04/07 Javascript
AngularJS ng-template寄宿方式用法分析
2016/11/07 Javascript
jQuery基于正则表达式的表单验证功能示例
2017/01/21 Javascript
JS判断键盘是否按的回车键并触发指定按钮点击操作的方法
2017/02/13 Javascript
bootstrap suggest下拉框使用详解
2017/04/10 Javascript
原生JS实现图片网格式渐显、渐隐效果
2017/06/05 Javascript
详解JS数组Reduce()方法详解及高级技巧
2017/08/18 Javascript
windows系统下更新nodejs版本的方案
2017/11/24 NodeJs
Vue实现根据hash高亮选项卡
2019/05/27 Javascript
浅谈vue生命周期共有几个阶段?分别是什么?
2020/08/07 Javascript
vue 接口请求地址前缀本地开发和线上开发设置方式
2020/08/13 Javascript
[01:05:24]Ti4 冒泡赛第二天 iG vs NEWBEE 3
2014/07/15 DOTA
Python面向对象编程基础解析(二)
2017/10/26 Python
使用python爬虫获取黄金价格的核心代码
2018/06/13 Python
Python双向循环链表实现方法分析
2018/07/30 Python
python计算Content-MD5并获取文件的Content-MD5值方式
2020/04/03 Python
pytorch随机采样操作SubsetRandomSampler()
2020/07/07 Python
PyCharm中关于安装第三方包的三个建议
2020/09/17 Python
HTML5实现晶莹剔透的雨滴特效
2014/05/14 HTML / CSS
Links of London官方网站:英国标志性的珠宝品牌
2017/04/09 全球购物
美国奢侈品在线团购网站:Gilt City
2017/11/16 全球购物
企业治理工作自我评价
2013/09/26 职场文书
莫言诺贝尔获奖演讲稿
2014/05/21 职场文书
付款承诺函范文
2015/01/21 职场文书
幽默导游词开场白
2015/05/29 职场文书
2016年心理学教育培训学习心得体会
2016/01/12 职场文书
Vue中foreach数组与js中遍历数组的写法说明
2021/06/05 Vue.js