Ubuntu下使用python读取doc和docx文档的内容方法


Posted in Python onMay 08, 2018

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)

以上这篇Ubuntu下使用python读取doc和docx文档的内容方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python网络编程示例(客户端与服务端)
Apr 24 Python
Python基础入门之seed()方法的使用
May 15 Python
python基于BeautifulSoup实现抓取网页指定内容的方法
Jul 09 Python
python装饰器深入学习
Apr 06 Python
基于Django框架利用Ajax实现点赞功能实例代码
Aug 19 Python
Python一个简单的通信程序(客户端 服务器)
Mar 06 Python
Python实现定时执行任务的三种方式简单示例
Mar 30 Python
numpy:np.newaxis 实现将行向量转换成列向量
Nov 30 Python
Django中使用MySQL5.5的教程
Dec 18 Python
pycharm 2019 最新激活方式(pycharm破解、激活)
Sep 22 Python
Python xmltodict模块安装及代码实例
Oct 05 Python
Python日志模块logging用法
Jun 05 Python
儿童编程python入门
May 08 #Python
解决python大批量读写.doc文件的问题
May 08 #Python
python在每个字符后添加空格的实例
May 07 #Python
Pycharm在创建py文件时,自动添加文件头注释的实例
May 07 #Python
python 读取DICOM头文件的实例
May 07 #Python
解决Python requests库编码 socks5代理的问题
May 07 #Python
基于python requests库中的代理实例讲解
May 07 #Python
You might like
Apache2 httpd.conf 中文版
2006/11/17 PHP
php getimagesize 上传图片的长度和宽度检测代码
2010/05/15 PHP
Yii框架应用组件用法实例分析
2020/05/15 PHP
js树形控件脚本代码
2008/07/24 Javascript
javascript 广告后加载,加载完页面再加载广告
2010/11/25 Javascript
js中各浏览器中鼠标按键值的差异
2011/04/07 Javascript
JavaScript模拟鼠标右键菜单效果
2020/12/08 Javascript
对象不支持indexOf属性或方法的解决方法(必看)
2017/05/28 Javascript
详解Webpack DLL用法以及功能
2017/07/11 Javascript
vue-cli脚手架config目录下index.js配置文件的方法
2018/03/13 Javascript
vue代理和跨域问题的解决
2018/07/18 Javascript
vue-cli 引入jQuery,Bootstrap,popper的方法
2018/09/03 jQuery
小程序测试后台服务的方法(ngrok)
2019/03/08 Javascript
vue中使用props传值的方法
2019/05/08 Javascript
微信公众号开发之微信支付代码记录的实现
2019/10/16 Javascript
使用 Github Actions 自动部署 Angular 应用到 Github Pages的方法
2020/07/20 Javascript
Python在图片中添加文字的两种方法
2017/04/29 Python
Python实现Linux中的du命令
2017/06/12 Python
Python中read()、readline()和readlines()三者间的区别和用法
2017/07/30 Python
Python字符串拼接的几种方法整理
2017/08/02 Python
python http接口自动化脚本详解
2018/01/02 Python
Python实现快速傅里叶变换的方法(FFT)
2018/07/21 Python
详解Python解决抓取内容乱码问题(decode和encode解码)
2019/03/29 Python
在TensorFlow中实现矩阵维度扩展
2020/05/22 Python
keras model.fit 解决validation_spilt=num 的问题
2020/06/19 Python
python可视化分析的实现(matplotlib、seaborn、ggplot2)
2021/02/03 Python
CSS3效果:自定义“W”形运行轨迹实例
2017/03/29 HTML / CSS
解决CSS3 transition-delay 属性默认值0不带单位失效的问题
2020/10/29 HTML / CSS
HTML5 canvas 基本语法
2009/08/26 HTML / CSS
深入解析HTML5 Canvas控制图形矩阵变换的方法
2016/03/24 HTML / CSS
客户答谢会活动方案
2014/08/31 职场文书
2014机关党员干部“正风肃纪”思想汇报
2014/09/15 职场文书
大四优秀党员个人民主评议
2014/09/19 职场文书
单位领导婚礼致辞
2015/07/28 职场文书
情感电台广播稿
2015/08/18 职场文书
安全学习心得体会范文
2016/01/18 职场文书