Python读取word文本操作详解


Posted in Python onJanuary 22, 2018

本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下。

一,docx模块

Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。

二,相关概念

如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念。

1,Document对象,表示一个word文档。
2,Paragraph对象,表示word文档中的一个段落
3,Paragraph对象的text属性,表示段落中的文本内容。

三,模块的安装和导入

需要注意,python-docx模块安装需要在cmd命令行中输入pip install python-docx,如下图表示安装成功(最后那句英文Successfully installed,成功地安装完成,十分考验英文水平。)

Python读取word文本操作详解

注意在导入模块时,用的是import docx。

也真是奇了怪了,怎么安装和导入模块时,很多都不用一个名字,看来是很有必要出一个python版本的模块管理程序python-maven了,本段纯属PS。

四,读取word文本

在了解了上面的信息之后,就很简单了,下面先创建一个D:\temp\word.docx文件,并在其中输入如下内容。

Python读取word文本操作详解

然后写一段程序,代码及输出结果如下:

#读取docx中的文本代码示例
import docx
#获取文档对象
file=docx.Document("D:\\temp\\word.docx")
print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离一段

#输出每一段的内容
for para in file.paragraphs:
 print(para.text)

#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
 print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

运行结果:

================ RESTART: F:/360data/重要数据/桌面/学习笔记/readWord.py ================
段落数:13
啊

我看见一座山

雄伟的大山

真高啊

啊

这座山是!

真的很高!
第0段的内容是:啊
第1段的内容是:
第2段的内容是:我看见一座山
第3段的内容是:
第4段的内容是:雄伟的大山
第5段的内容是:
第6段的内容是:真高啊
第7段的内容是:
第8段的内容是:啊
第9段的内容是:
第10段的内容是:这座山是!
第11段的内容是:
第12段的内容是:真的很高!
>>>

总结

以上就是本文关于Python读取word文本操作详解的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
在windows系统中实现python3安装lxml
Mar 23 Python
Python 绘图库 Matplotlib 入门教程
Apr 19 Python
python 对dataframe下面的值进行大规模赋值方法
Jun 09 Python
实例讲解Python爬取网页数据
Jul 08 Python
django数据库自动重连的方法实例
Jul 21 Python
TensorFlow基于MNIST数据集实现车牌识别(初步演示版)
Aug 05 Python
树莓派3 搭建 django 服务器的实例
Aug 29 Python
Django-xadmin后台导入json数据及后台显示信息图标和主题更改方式
Mar 11 Python
Python PIL库图片灰化处理
Apr 07 Python
sklearn和keras的数据切分与交叉验证的实例详解
Jun 19 Python
浅谈keras使用预训练模型vgg16分类,损失和准确度不变
Jul 02 Python
django restframework serializer 增加自定义字段操作
Jul 15 Python
python导出hive数据表的schema实例代码
Jan 22 #Python
Python的SimpleHTTPServer模块用处及使用方法简介
Jan 22 #Python
一道python走迷宫算法题
Jan 22 #Python
浅谈使用Python内置函数getattr实现分发模式
Jan 22 #Python
python正则表达式及使用正则表达式的例子
Jan 22 #Python
Python深度优先算法生成迷宫
Jan 22 #Python
Python使用Tkinter实现机器人走迷宫
Jan 22 #Python
You might like
PHP分页函数代码(简单实用型)
2010/12/02 PHP
PHP 图片水印类代码
2012/08/27 PHP
php错误级别的设置方法
2013/06/17 PHP
PHPUnit安装及使用示例
2014/10/29 PHP
PHP异常处理浅析
2015/05/12 PHP
js查找父节点的简单方法
2008/06/28 Javascript
javascript 获取url参数和script标签中获取url参数函数代码
2010/01/22 Javascript
IE下window.onresize 多次调用与死循环bug处理方法介绍
2013/11/12 Javascript
用js的document.write输出的广告无阻塞加载的方法
2014/06/05 Javascript
JavaScript中的原型prototype属性使用详解
2015/06/05 Javascript
JS实现漂亮的窗口拖拽效果(可改变大小、最大化、最小化、关闭)
2015/10/10 Javascript
JS组件Bootstrap Table使用方法详解
2016/02/02 Javascript
Node.js中常规的文件操作总结
2016/10/13 Javascript
详解JSON1:使用TSQL查询数据和更新JSON数据
2016/11/21 Javascript
Bootstrap中datetimepicker使用小结
2016/12/28 Javascript
tweenjs缓动算法的使用实例分析
2019/08/26 Javascript
JS实现简单的表格增删
2020/01/16 Javascript
Openlayers绘制地图标注
2020/09/28 Javascript
[01:02:18]VGJ.S vs infamous Supermajor 败者组 BO3 第一场 6.4
2018/06/05 DOTA
Python list操作用法总结
2015/11/10 Python
简单谈谈Python中的json与pickle
2017/07/19 Python
快速解决PyCharm无法引用matplotlib的问题
2018/05/24 Python
python sys.argv[]用法实例详解
2018/05/25 Python
python将一个英文语句以单词为单位逆序排放的方法
2018/12/20 Python
python实现在函数中修改变量值的方法
2019/07/16 Python
Python原始套接字编程实例解析
2020/01/29 Python
Python图像处理库PIL的ImageGrab模块介绍详解
2020/02/26 Python
jupyter notebook参数化运行python方式
2020/04/10 Python
python的Jenkins接口调用方式
2020/05/12 Python
6号汽车旅馆预订:Motel 6
2018/02/11 全球购物
维多利亚的秘密官方网站:Victoria’s Secret
2018/10/24 全球购物
华为慧通笔试题
2016/04/22 面试题
毕业自荐信
2013/12/16 职场文书
JAVA程序员自荐书
2014/01/30 职场文书
2014党员学习兰辉先进事迹思想汇报
2014/09/17 职场文书
Nginx防盗链与服务优化配置的全过程
2022/01/18 Servers