Ubuntu下使用python读取doc和docx文档的内容方法


Posted in Python onMay 08, 2018

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python strip() 函数和 split() 函数的详解及实例
Feb 03 Python
Django原生sql也能使用Paginator分页的示例代码
Nov 15 Python
运动检测ViBe算法python实现代码
Jan 09 Python
Python cookbook(数据结构与算法)将序列分解为单独变量的方法
Feb 13 Python
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
Feb 23 Python
python与C、C++混编的四种方式(小结)
Jul 15 Python
python滑块验证码的破解实现
Nov 10 Python
python实现简易淘宝购物
Nov 22 Python
Python基于类路径字符串获取静态属性
Mar 12 Python
Django多数据库配置及逆向生成model教程
Mar 28 Python
matplotlib 使用 plt.savefig() 输出图片去除旁边的空白区域
Jan 05 Python
Python实现对齐打印 format函数的用法
Apr 28 Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
You might like
php smarty模版引擎中的缓存应用
2009/12/11 PHP
PHP Cookei记录用户历史浏览信息的代码
2016/02/03 PHP
jquery(live)中File input的change方法只起一次作用的解决办法
2011/10/21 Javascript
JQuery select控件的相关操作实现代码
2012/09/14 Javascript
JS获取键盘上任意按键的值(实例代码)
2013/11/12 Javascript
Jquery注册事件实现方法
2015/05/18 Javascript
Javascript使用post方法提交数据实例
2015/08/03 Javascript
详解jQuery Mobile自定义标签
2016/01/06 Javascript
jQuery简单操作cookie的插件实例
2016/01/13 Javascript
深入理解bootstrap框架之入门准备
2016/10/09 Javascript
Node.js下自定义错误类型详解
2016/10/17 Javascript
微信小程序 textarea 详解及简单使用方法
2016/12/05 Javascript
在Vue组件上动态添加和删除属性方法
2018/02/23 Javascript
Vue2.0实现组件数据的双向绑定问题
2018/03/06 Javascript
angular 实现同步验证器跨字段验证的方法
2019/04/11 Javascript
jquery操作select常见方法大全【7种情况】
2019/05/28 jQuery
layer扩展打开/关闭动画的方法
2019/09/23 Javascript
vscode中Vue别名路径提示的实现
2020/07/31 Javascript
解决nuxt 自定义全局方法,全局属性,全局变量的问题
2020/11/05 Javascript
[01:21:58]守擂赛DOTA2第一周决赛
2020/04/22 DOTA
[01:22:28]DOTA2-DPC中国联赛 正赛 SAG vs RNG BO3 第一场 1月18日
2021/03/11 DOTA
Python中使用gzip模块压缩文件的简单教程
2015/04/08 Python
使用Python编写爬虫的基本模块及框架使用指南
2016/01/20 Python
使用python遍历指定城市的一周气温
2017/03/31 Python
python搭建服务器实现两个Android客户端间收发消息
2018/04/12 Python
pygame实现俄罗斯方块游戏(基础篇3)
2019/10/29 Python
python实现对列表中的元素进行倒序打印
2019/11/23 Python
Python map及filter函数使用方法解析
2020/08/06 Python
PyTorch中Tensor的数据类型和运算的使用
2020/09/03 Python
纯css3显示隐藏一个div特效的具体实现
2014/02/10 HTML / CSS
canvas绘制树形结构可视图形的实现
2020/04/03 HTML / CSS
德国最大的婴儿用品网上商店:Kidsroom.de(支持中文)
2020/09/02 全球购物
介绍一下XMLHttpRequest对象
2012/02/12 面试题
司仪主持词两篇
2014/03/22 职场文书
元宵节寄语大全
2015/02/27 职场文书
python如何在word中存储本地图片
2021/04/07 Python