Ubuntu下使用python读取doc和docx文档的内容方法


Posted in Python onMay 08, 2018

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中zip()方法应用实例分析
Apr 16 Python
Python简单获取自身外网IP的方法
Sep 18 Python
python中 chr unichr ord函数的实例详解
Aug 06 Python
用不到50行的Python代码构建最小的区块链
Nov 16 Python
Python实现找出数组中第2大数字的方法示例
Mar 26 Python
python 用下标截取字符串的实例
Dec 25 Python
python搜索包的路径的实现方法
Jul 19 Python
django fernet fields字段加密实践详解
Aug 12 Python
python groupby 函数 as_index详解
Dec 16 Python
python路径的写法及目录的获取方式
Dec 26 Python
Python中常用的高阶函数实例详解
Feb 21 Python
pycharm运行程序时看不到任何结果显示的解决
Feb 21 Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
You might like
Discuz!5的PHP代码高亮显示插件(黑暗中的舞者更新)
2007/01/29 PHP
PHP移动文件指针ftell()、fseek()、rewind()函数总结
2014/11/18 PHP
Laravel框架模板继承操作示例
2018/06/11 PHP
PhpStorm+xdebug+postman调试技巧分享
2020/09/15 PHP
基于jQuery实现的水平和垂直居中的div窗口
2011/08/08 Javascript
jQuery去掉字符串起始和结尾的空格(多种方法实现)
2013/04/01 Javascript
JS+CSS实现一个气泡提示框
2013/08/18 Javascript
基于 Docker 开发 NodeJS 应用
2014/07/30 NodeJs
浅谈Javascript中的Function与Object
2015/01/26 Javascript
JavaScript的Polymer框架中dom-repeat与VM的相关操作
2015/07/29 Javascript
jQuery实例—选项卡的简单实现(js源码和jQuery)
2016/06/14 Javascript
仿iframe效果Aajx文件上传实例
2016/11/18 Javascript
微信小程序 开发经验整理
2017/02/15 Javascript
Node.js 的模块知识汇总
2017/08/16 Javascript
微信小程序结合Storage实现搜索历史效果
2019/05/18 Javascript
JS实现数组删除指定元素功能示例
2019/06/05 Javascript
解决Idea、WebStorm下使用Vue cli脚手架项目无法使用Webpack别名的问题
2019/10/11 Javascript
vue 动态生成拓扑图的示例
2021/01/03 Vue.js
matplotlib作图添加表格实例代码
2018/01/23 Python
python实现矩阵打印
2019/03/02 Python
pandas中read_csv的缺失值处理方式
2019/12/19 Python
使用tensorflow根据输入更改tensor shape
2020/06/23 Python
使用python批量修改XML文件中图像的depth值
2020/07/22 Python
英国设计的甲板鞋和船鞋:Chatham
2018/12/06 全球购物
简历上的自我评价
2014/02/03 职场文书
董事长助理工作职责
2014/06/08 职场文书
债务追讨授权委托书范本
2014/10/16 职场文书
普通党员整改措施
2014/10/24 职场文书
2014年酒店工作总结与计划
2014/11/17 职场文书
2014年学生管理工作总结
2014/12/20 职场文书
贴吧吧主申请感言
2015/08/03 职场文书
2016年六一儿童节开幕词
2016/03/04 职场文书
Apache压力测试工具的安装使用
2021/03/31 Servers
Python人工智能之混合高斯模型运动目标检测详解分析
2021/11/07 Python
Kubernetes关键组件与结构组成介绍
2022/03/31 Servers
《地。-关于地球的运动-》单行本第七集上市,小说家朝井辽献上期待又害怕的推荐文
2022/03/31 日漫