Ubuntu下使用python读取doc和docx文档的内容方法


Posted in Python onMay 08, 2018

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python中处理字符串之isdigit()方法的使用
May 18 Python
使用PyInstaller将Python程序文件转换为可执行程序文件
Jul 08 Python
centos6.7安装python2.7.11的具体方法
Jan 16 Python
Python实现带参数与不带参数的多重继承示例
Jan 30 Python
Python中函数参数调用方式分析
Aug 09 Python
win10下python3.5.2和tensorflow安装环境搭建教程
Sep 19 Python
Python获取Redis所有Key以及内容的方法
Feb 19 Python
手写一个python迭代器过程详解
Aug 27 Python
Python内置方法实现字符串的秘钥加解密(推荐)
Dec 09 Python
关于python 跨域处理方式详解
Mar 28 Python
如何在scrapy中集成selenium爬取网页的方法
Nov 18 Python
Python数据可视化之绘制柱状图和条形图
May 25 Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
You might like
vs中通过剪切板循环来循环粘贴不同内容
2011/04/30 PHP
php下拉选项的批量操作的实现代码
2013/10/14 PHP
将酷狗krc歌词解析并转换为lrc歌词php源码
2014/06/20 PHP
PHP判断IP并转跳到相应城市分站的方法
2015/03/25 PHP
8个必备的PHP功能开发
2015/10/02 PHP
PHP 计算两个特别大的整数实例代码
2018/05/07 PHP
用unescape反编码得出汉字示例
2014/04/24 Javascript
node.js中的fs.readlinkSync方法使用说明
2014/12/17 Javascript
简单谈谈JavaScript的同步与异步
2015/12/31 Javascript
js中获取时间new Date()的全面介绍
2016/06/20 Javascript
jQuery插件JWPlayer视频播放器用法实例分析
2017/01/11 Javascript
有关JS中的0,null,undefined,[],{},'''''''',false之间的关系
2017/02/14 Javascript
JS实现本地存储信息的方法(基于localStorage与userData)
2017/02/18 Javascript
jQuery插件zTree实现的基本树与节点获取操作示例
2017/03/08 Javascript
原生js更改css样式的两种方式
2017/03/15 Javascript
bootstrap3使用bootstrap datetimepicker日期插件
2017/05/24 Javascript
vue实现商城购物车功能
2017/11/27 Javascript
Vue 表情包输入组件的实现代码
2019/01/21 Javascript
VUE+Element实现增删改查的示例源码
2020/11/23 Vue.js
[13:40]TI3青蛙君全程回顾 DOTA2我们为梦想再战
2013/09/13 DOTA
python 实现文件的递归拷贝实现代码
2012/08/02 Python
Python 元组(Tuple)操作详解
2014/03/11 Python
Python中使用Tkinter模块创建GUI程序实例
2015/01/14 Python
详解Python中的Descriptor描述符类
2016/06/14 Python
Python实现的凯撒密码算法示例
2018/04/12 Python
python修改txt文件中的某一项方法
2018/12/29 Python
Python中的四种交换数值的方法解析
2019/11/18 Python
python3光学字符识别模块tesserocr与pytesseract的使用详解
2020/02/26 Python
python爬取股票最新数据并用excel绘制树状图的示例
2021/03/01 Python
html5各种页面切换效果和模态对话框用法总结
2014/12/15 HTML / CSS
Superdry瑞典官网:英国日本街头风品牌
2017/05/17 全球购物
爱尔兰橄榄球店:Irish Rugby Store
2019/12/05 全球购物
销售求职信范文
2014/05/26 职场文书
MySQL EXPLAIN输出列的详细解释
2021/05/12 MySQL
PHP中国际化的字符串排序和比较对象详解
2021/08/23 PHP
解决IIS7下无法绑定https主机的问题
2022/04/29 Servers