Ubuntu下使用python读取doc和docx文档的内容方法


Posted in Python onMay 08, 2018

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
决策树的python实现方法
Nov 18 Python
详解Django中Request对象的相关用法
Jul 17 Python
python 字典(dict)按键和值排序
Jun 28 Python
python中正则的使用指南
Dec 04 Python
Python开发的实用计算器完整实例
May 10 Python
python 读取.csv文件数据到数组(矩阵)的实例讲解
Jun 14 Python
详解将Django部署到Centos7全攻略
Sep 26 Python
Python实现生成密码字典的方法示例
Sep 02 Python
python爬虫模拟浏览器访问-User-Agent过程解析
Dec 28 Python
pymysql 插入数据 转义处理方式
Mar 02 Python
python openpyxl模块的使用详解
Feb 25 Python
python中的sys模块和os模块
Mar 20 Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
You might like
php与python实现的线程池多线程爬虫功能示例
2016/10/12 PHP
php实现简单的权限管理的示例代码
2017/08/25 PHP
javascript 运算数的求值顺序
2011/08/23 Javascript
js multiple全选与取消全选实现代码
2012/12/04 Javascript
JS给Textarea文本框添加行号的方法
2015/08/20 Javascript
node.js下LDAP查询实例分享
2015/09/30 Javascript
使用JavaScript和CSS实现文本隔行换色的方法
2015/11/04 Javascript
基于jQuery实现二级下拉菜单效果
2016/02/01 Javascript
基于BootStarp的Dailog
2016/04/28 Javascript
leaflet的开发入门教程
2016/11/17 Javascript
基于canvas粒子系统的构建详解
2017/08/31 Javascript
vue params、query传参使用详解
2017/09/12 Javascript
Node.js 使用递归实现遍历文件夹中所有文件
2017/09/18 Javascript
防止页面url缓存中ajax中post请求的处理方法
2017/10/10 Javascript
vue 文件目录结构详解
2017/11/24 Javascript
微信小程序列表中item左滑删除功能
2018/11/07 Javascript
Vue项目报错:Uncaught SyntaxError: Unexpected token
2018/11/10 Javascript
mock.js模拟数据实现前后端分离
2019/07/24 Javascript
Nuxt默认模板、默认布局和自定义错误页面的实现
2020/05/11 Javascript
Vue微信公众号网页分享的示例代码
2020/05/28 Javascript
解决python 无法加载downsample模型的问题
2018/10/25 Python
python批量获取html内body内容的实例
2019/01/02 Python
解决Django中多条件查询的问题
2019/07/18 Python
python/Matplotlib绘制复变函数图像教程
2019/11/21 Python
Python编程快速上手——强口令检测算法案例分析
2020/02/29 Python
基于Tensorflow读取MNIST数据集时网络超时的解决方式
2020/06/22 Python
解决django migrate报错ORA-02000: missing ALWAYS keyword
2020/07/02 Python
python map比for循环快在哪
2020/09/21 Python
CSS3 二级导航菜单的制作的示例
2018/04/02 HTML / CSS
HTML5页面音视频在微信和app下自动播放的实现方法
2016/10/20 HTML / CSS
给男朋友的道歉信
2014/01/12 职场文书
大学生入党思想汇报
2014/01/14 职场文书
九一八事变纪念日演讲稿
2014/09/14 职场文书
通知的写法
2015/04/23 职场文书
学风建设主题班会
2015/08/17 职场文书
Nginx防盗链与服务优化配置的全过程
2022/01/18 Servers