Ubuntu下使用python读取doc和docx文档的内容方法


Posted in Python onMay 08, 2018

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中__call__方法示例分析
Oct 11 Python
Python使用爬虫猜密码
Feb 19 Python
基于python中staticmethod和classmethod的区别(详解)
Oct 24 Python
详解Python判定IP地址合法性的三种方法
Mar 06 Python
django认证系统实现自定义权限管理的方法
Jul 16 Python
django用户登录和注销的实现方法
Jul 16 Python
python执行精确的小数计算方法
Jan 21 Python
Django JWT Token RestfulAPI用户认证详解
Jan 23 Python
浅谈spring boot 集成 log4j 解决与logback冲突的问题
Feb 20 Python
Python环境使用OpenCV检测人脸实现教程
Oct 19 Python
Python 解决空列表.append() 输出为None的问题
May 23 Python
对Keras自带Loss Function的深入研究
May 25 Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
You might like
PHP用GD库生成高质量的缩略图片
2011/03/09 PHP
解析zend Framework如何自动加载类
2013/06/28 PHP
php使用curl通过代理获取数据的实现方法
2016/05/16 PHP
php的api数据接口书写实例(推荐)
2016/09/22 PHP
搜索附近的人PHP实现代码
2018/02/11 PHP
Windows服务器中PHP如何安装redis扩展
2019/09/27 PHP
Yii框架安装简明教程
2020/05/15 PHP
简单谈谈javascript中的变量、作用域和内存问题
2015/08/30 Javascript
jQuery实现可用于博客的动态滑动菜单完整实例
2015/09/17 Javascript
基于Bootstrap使用jQuery实现简单可编辑表格
2016/05/04 Javascript
原生javascript实现分享到朋友圈功能 支持ios和android
2016/05/11 Javascript
AngularJS 与Bootstrap实现表格分页实例代码
2016/10/14 Javascript
微信小程序链接传参并跳转新页面
2016/11/29 Javascript
详解jQuery简单的表格应用
2016/12/16 Javascript
jQuery Ajax全解析
2017/02/13 Javascript
使用JQuery实现图片轮播效果的实例(推荐)
2017/10/24 jQuery
在小程序中使用腾讯视频插件播放教程视频的方法
2018/07/10 Javascript
使用angularjs.foreach时return的问题解决
2018/09/30 Javascript
Python3.6笔记之将程序运行结果输出到文件的方法
2018/04/22 Python
详解Python的数据库操作(pymysql)
2019/04/04 Python
python调试神器PySnooper的使用
2019/07/03 Python
Python3 A*寻路算法实现方式
2019/12/24 Python
Django框架教程之中间件MiddleWare浅析
2019/12/29 Python
python 解决print数组/矩阵无法完整输出的问题
2020/02/19 Python
解决django xadmin主题不显示和只显示bootstrap2的问题
2020/03/30 Python
基于python实现模拟数据结构模型
2020/06/12 Python
网络工程师个人的自我评价范文
2013/10/01 职场文书
文明餐桌行动实施方案
2014/02/19 职场文书
市场部经理岗位职责
2014/04/10 职场文书
环保专项行动方案
2014/05/12 职场文书
安全宣传标语口号
2014/06/06 职场文书
公证委托书格式
2014/09/13 职场文书
防灾减灾标语
2014/10/07 职场文书
个人房屋转让协议书范本
2014/10/26 职场文书
青春雷锋观后感
2015/06/10 职场文书
七年级之开学家长寄语35句
2019/09/05 职场文书