Ubuntu下使用python读取doc和docx文档的内容方法


Posted in Python onMay 08, 2018

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中readline判断文件读取结束的方法
Nov 08 Python
详解Python的Django框架中的中间件
Jul 24 Python
python脚本替换指定行实现步骤
Jul 11 Python
详解python里使用正则表达式的分组命名方式
Oct 24 Python
浅谈Python中的全局锁(GIL)问题
Jan 11 Python
python tkinter窗口最大化的实现
Jul 15 Python
Python使用Tkinter实现滚动抽奖器效果
Jan 06 Python
解决TensorFlow模型恢复报错的问题
Feb 06 Python
python numpy库linspace相同间隔采样的实现
Feb 25 Python
解决Keras自带数据集与预训练model下载太慢问题
Jun 12 Python
Python StringIO及BytesIO包使用方法解析
Jun 15 Python
python 制作一个gui界面的翻译工具
May 14 Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
You might like
PHP insert语法详解
2008/06/07 PHP
PHP开发的一些注意点总结
2010/10/12 PHP
约瑟夫环问题的PHP实现 使用PHP数组内部指针操作函数
2010/10/12 PHP
php中json_encode中文编码问题分析
2011/09/13 PHP
详解php中serialize()和unserialize()函数
2017/07/08 PHP
php实现的rc4加密解密类定义与用法示例
2018/08/16 PHP
js报错 Object doesn't support this property or method的原因分析
2011/03/31 Javascript
什么是DOM(Document Object Model)文档对象模型
2012/03/05 Javascript
jQuery事件绑定.on()简要概述及应用
2013/02/07 Javascript
node.js中的http.createServer方法使用说明
2014/12/14 Javascript
JavaScript中的异常捕捉介绍
2014/12/31 Javascript
深入解析AngularJS框架中$scope的作用与生命周期
2016/03/05 Javascript
详解nodejs微信公众号开发——1.接入微信公众号
2017/04/10 NodeJs
Vue.js 2.0学习教程之从基础到组件详解
2017/04/24 Javascript
使用vue2实现购物车和地址选配功能
2018/03/29 Javascript
基于ionic实现下拉刷新功能
2018/05/10 Javascript
js实现窗口全屏示例详解
2019/09/17 Javascript
jquery实现垂直手风琴导航栏
2020/02/18 jQuery
JS中间件设计模式的深入探讨与实例分析
2020/04/11 Javascript
解决vue中使用less/sass及使用中遇到无效的问题
2020/10/24 Javascript
原生js实现弹窗消息动画
2020/11/20 Javascript
python文件操作整理汇总
2014/10/21 Python
详解Django之auth模块(用户认证)
2018/04/17 Python
Django框架使用富文本编辑器Uedit的方法分析
2018/07/31 Python
Python实现简易过滤删除数字的方法小结
2019/01/09 Python
tensorflow如何批量读取图片
2019/08/29 Python
python 普通克里金(Kriging)法的实现
2019/12/19 Python
Python利用逻辑回归分类实现模板
2020/02/15 Python
python IDLE添加行号显示教程
2020/04/25 Python
Django中使用Json返回数据的实现方法
2020/06/03 Python
详解css3 Transition属性(平滑过渡菜单栏案例)
2017/09/05 HTML / CSS
非凡女性奢华谦虚风格:The Modist
2017/10/28 全球购物
在c#中using和new这两个关键字有什么意义
2013/05/19 面试题
幼儿园五一活动方案
2014/02/07 职场文书
行政部岗位职责范本
2014/03/13 职场文书
计划生育证明格式范本
2014/09/12 职场文书