Ubuntu下使用python读取doc和docx文档的内容方法


Posted in Python onMay 08, 2018

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python中使用异步Socket编程性能测试
Jun 25 Python
浅谈python对象数据的读写权限
Sep 12 Python
多版本Python共存的配置方法
May 22 Python
基于Django contrib Comments 评论模块(详解)
Dec 08 Python
python如何定义带参数的装饰器
Mar 20 Python
python3 pygame实现接小球游戏
May 14 Python
python使用sklearn实现决策树的方法示例
Sep 12 Python
Django 自定义分页器的实现代码
Nov 24 Python
python获取栅格点和面值的实现
Mar 10 Python
Django模板标签{% for %}循环,获取制定条数据实例
May 14 Python
pandas实现导出数据的四种方式
Dec 13 Python
python中Tkinter 窗口之输入框和文本框的实现
Apr 12 Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
You might like
PHP四舍五入、取整、round函数使用示例
2015/02/06 PHP
PHP正则获取页面所有图片地址
2016/03/23 PHP
PHP实现数组array转换成xml的方法
2016/07/19 PHP
php封装的mongodb操作类代码
2017/08/06 PHP
PHP addAttribute()函数讲解
2019/02/03 PHP
phpinfo的知识点总结
2019/10/10 PHP
thinkphp 框架数据库切换实现方法分析
2020/05/18 PHP
WordPress 插件——CoolCode使用方法与下载
2007/07/02 Javascript
javascript 循环读取JSON数据的代码
2010/07/17 Javascript
实例说明为什么不要行内使用javascript
2014/04/18 Javascript
jquery列表拖动排列(由项目提取相当好用)
2014/06/17 Javascript
js获取IP地址的方法小结
2014/07/01 Javascript
javascript实现的简单的表单验证
2015/07/10 Javascript
javascript html5摇一摇功能的实现
2016/04/19 Javascript
jQuery each函数源码分析
2016/05/25 Javascript
jQuery EasyUI提交表单验证
2016/07/19 Javascript
JCrop+ajaxUpload 图像切割上传的实例代码
2016/07/20 Javascript
JS上传图片预览插件制作(兼容到IE6)
2016/08/07 Javascript
MUI实现上拉加载和下拉刷新效果
2017/06/30 Javascript
Angular 2父子组件数据传递之@Input和@Output详解 (上)
2017/07/05 Javascript
vue实现前台列表数据过滤搜索、分页效果
2019/05/28 Javascript
Javascript Dom元素获取和添加详解
2019/09/24 Javascript
微信小程序实现音乐播放器
2019/11/20 Javascript
Node 模块原理与用法详解
2020/05/13 Javascript
9种python web 程序的部署方式小结
2014/06/30 Python
python将视频转换为全字符视频
2019/04/26 Python
详解pandas使用drop_duplicates去除DataFrame重复项参数
2019/08/01 Python
基于Python正确读取资源文件
2020/09/14 Python
html5 canvas 画图教程案例分析
2012/11/23 HTML / CSS
Hotels.com加拿大:领先的在线住宿网站
2018/10/05 全球购物
马来西亚网上花店:FlowerAdvisor马来西亚
2020/01/03 全球购物
简历中自我评价怎么写
2014/02/12 职场文书
运动会演讲稿200字
2014/08/25 职场文书
群众路线专项整治方案
2014/10/27 职场文书
2015年银行客户经理工作总结
2015/04/01 职场文书
《自己去吧》教学反思
2016/02/16 职场文书