Ubuntu下使用python读取doc和docx文档的内容方法


Posted in Python onMay 08, 2018

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
基于python实现微信模板消息
Dec 21 Python
详解Python的Django框架中manage命令的使用与扩展
Apr 11 Python
Python微信库:itchat的用法详解
Aug 14 Python
基于python实现简单日历
Jul 28 Python
Pyqt QImage 与 np array 转换方法
Jun 27 Python
基于Django的乐观锁与悲观锁解决订单并发问题详解
Jul 31 Python
python3中eval函数用法使用简介
Aug 02 Python
python标识符命名规范原理解析
Jan 10 Python
pytorch 限制GPU使用效率详解(计算效率)
Jun 27 Python
10个python爬虫入门基础代码实例 + 1个简单的python爬虫完整实例
Dec 16 Python
Django如何与Ajax交互
Apr 29 Python
python装饰器代码解析
Mar 23 Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
You might like
PHP SEO优化之URL优化方法
2011/04/21 PHP
解析web文件操作常见安全漏洞(目录、文件名检测漏洞)
2013/06/29 PHP
PHP之浮点数计算比较以及取整数不准确的解决办法
2015/07/29 PHP
基于jquery实现的服务器验证控件的启用和禁用代码
2010/04/27 Javascript
jQuery ajax serialize()方法的使用以及常见问题解决
2013/01/27 Javascript
js中apply方法的使用详细解析
2013/11/04 Javascript
jqeury-easyui-layout问题解决方法
2014/03/24 Javascript
轻松创建nodejs服务器(7):阻塞操作的实现
2014/12/18 NodeJs
BootStrap 附加导航组件
2016/07/22 Javascript
AngularJS ng-style中使用filter
2016/09/21 Javascript
JavaScript实现多栏目切换效果
2016/12/12 Javascript
关于Javascript中document.cookie的使用
2017/03/08 Javascript
详解RequireJs官方使用教程
2017/10/31 Javascript
js实现多个标题吸顶效果
2020/01/08 Javascript
解决父组件将子组件作为弹窗调用只执行一次created的问题
2020/07/24 Javascript
[05:37]DOTA2-DPC中国联赛 正赛 Elephant vs iG 选手采访
2021/03/11 DOTA
Python 字符串中的字符倒转
2008/09/06 Python
python获得图片base64编码示例
2014/01/16 Python
使用Python开发windows GUI程序入门实例
2014/10/23 Python
Python操作Oracle数据库的简单方法和封装类实例
2018/05/07 Python
python3 小数位的四舍五入(用两种方法解决round 遇5不进)
2019/04/11 Python
Python学习笔记之变量、自定义函数用法示例
2019/05/28 Python
Python中的 is 和 == 以及字符串驻留机制详解
2019/06/28 Python
利用Pycharm + Django搭建一个简单Python Web项目的步骤
2020/10/22 Python
Python使用struct处理二进制(pack和unpack用法)
2020/11/12 Python
豪华床上用品、床单和浴室必需品:Peacock Alley
2019/09/04 全球购物
简单的JAVA编程面试题
2013/03/19 面试题
一年级家长会邀请函
2014/01/25 职场文书
应聘英语教师求职信
2014/04/24 职场文书
企业领导对照检查材料
2014/08/20 职场文书
国庆65周年演讲稿:回首往昔,展望未来
2014/09/21 职场文书
2014年医院个人工作总结
2014/12/09 职场文书
2016年6.5世界环境日宣传活动总结
2016/04/01 职场文书
学习计划是什么
2019/04/30 职场文书
MySQL命令无法输入中文问题的解决方式
2021/08/30 MySQL
Python利用zhdate模块实现农历日期处理
2022/03/31 Python