Python读取word文本操作详解


Posted in Python onJanuary 22, 2018

本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下。

一,docx模块

Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。

二,相关概念

如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念。

1,Document对象,表示一个word文档。
2,Paragraph对象,表示word文档中的一个段落
3,Paragraph对象的text属性,表示段落中的文本内容。

三,模块的安装和导入

需要注意,python-docx模块安装需要在cmd命令行中输入pip install python-docx,如下图表示安装成功(最后那句英文Successfully installed,成功地安装完成,十分考验英文水平。)

Python读取word文本操作详解

注意在导入模块时,用的是import docx。

也真是奇了怪了,怎么安装和导入模块时,很多都不用一个名字,看来是很有必要出一个python版本的模块管理程序python-maven了,本段纯属PS。

四,读取word文本

在了解了上面的信息之后,就很简单了,下面先创建一个D:\temp\word.docx文件,并在其中输入如下内容。

Python读取word文本操作详解

然后写一段程序,代码及输出结果如下:

#读取docx中的文本代码示例
import docx
#获取文档对象
file=docx.Document("D:\\temp\\word.docx")
print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离一段

#输出每一段的内容
for para in file.paragraphs:
 print(para.text)

#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
 print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

运行结果:

================ RESTART: F:/360data/重要数据/桌面/学习笔记/readWord.py ================
段落数:13
啊

我看见一座山

雄伟的大山

真高啊

啊

这座山是!

真的很高!
第0段的内容是:啊
第1段的内容是:
第2段的内容是:我看见一座山
第3段的内容是:
第4段的内容是:雄伟的大山
第5段的内容是:
第6段的内容是:真高啊
第7段的内容是:
第8段的内容是:啊
第9段的内容是:
第10段的内容是:这座山是!
第11段的内容是:
第12段的内容是:真的很高!
>>>

总结

以上就是本文关于Python读取word文本操作详解的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
tornado捕获和处理404错误的方法
Feb 26 Python
Python函数参数类型*、**的区别
Apr 11 Python
详解Python的Django框架中manage命令的使用与扩展
Apr 11 Python
Django学习笔记之Class-Based-View
Feb 15 Python
Python中的pack和unpack的使用
Mar 12 Python
python 中的list和array的不同之处及转换问题
Mar 13 Python
利用Python在一个文件的头部插入数据的实例
May 02 Python
python字符串与url编码的转换实例
May 10 Python
在Mac下使用python实现简单的目录树展示方法
Nov 01 Python
Python操作Jira库常用方法解析
Apr 10 Python
解析Python 偏函数用法全方位实现
Jun 26 Python
Python中BeautifulSoup通过查找Id获取元素信息
Dec 07 Python
python导出hive数据表的schema实例代码
Jan 22 #Python
Python的SimpleHTTPServer模块用处及使用方法简介
Jan 22 #Python
一道python走迷宫算法题
Jan 22 #Python
浅谈使用Python内置函数getattr实现分发模式
Jan 22 #Python
python正则表达式及使用正则表达式的例子
Jan 22 #Python
Python深度优先算法生成迷宫
Jan 22 #Python
Python使用Tkinter实现机器人走迷宫
Jan 22 #Python
You might like
Yii框架中memcache用法实例
2014/12/03 PHP
php输出全球各个时区列表的方法
2015/03/31 PHP
WordPress中获取指定分类及其子分类下的文章数目
2015/12/31 PHP
Laravel路由设定和子路由设定实例分析
2016/03/30 PHP
php设计模式之策略模式应用案例详解
2019/06/17 PHP
基于jquery的一个浮动框(扩展性比较好 )
2010/08/27 Javascript
js简易namespace管理器 实例代码
2013/06/21 Javascript
JS和jquery获取各种屏幕的宽度和高度的代码
2013/08/02 Javascript
jQuery 借助插件Lavalamp实现导航条动态美化效果
2013/09/27 Javascript
node.js中的console.error方法使用说明
2014/12/10 Javascript
JavaScript动态修改网页元素内容的方法
2015/03/21 Javascript
全面解析Bootstrap表单使用方法(表单控件状态)
2015/11/24 Javascript
js实现楼层效果的简单实例
2016/07/15 Javascript
JS库之Highlight.js的用法详解
2017/09/13 Javascript
在vue中使用echarts图表实例代码详解
2018/10/22 Javascript
使用vue2.6实现抖音【时间轮盘】屏保效果附源码
2019/04/24 Javascript
js实现GIF图片的分解和合成
2019/10/24 Javascript
javascript中可能用得到的全部的排序算法
2020/03/05 Javascript
JS 设计模式之:单例模式定义与实现方法浅析
2020/05/06 Javascript
jQuery HTML获取内容和属性操作实例分析
2020/05/20 jQuery
[51:36]EG vs VP 2018国际邀请赛淘汰赛BO3 第一场 8.24
2018/08/25 DOTA
Python编程对列表中字典元素进行排序的方法详解
2017/05/26 Python
python脚本作为Windows服务启动代码详解
2018/02/11 Python
Django使用unittest模块进行单元测试过程解析
2019/08/02 Python
python线程中的同步问题及解决方法
2019/08/29 Python
Python openpyxl读取单元格字体颜色过程解析
2019/09/03 Python
python制作英语翻译小工具代码实例
2019/09/09 Python
python、Matlab求定积分的实现
2019/11/20 Python
Python爬虫获取页面所有URL链接过程详解
2020/06/04 Python
Rag & Bone官网:瑞格布恩高级成衣
2018/04/19 全球购物
PHP经典面试题
2016/09/03 面试题
Sql面试题
2013/03/20 面试题
高二美术教学反思
2014/01/14 职场文书
2015教师节师德演讲稿
2015/03/19 职场文书
倡议书格式及范文
2015/04/29 职场文书
委托收款证明
2015/06/23 职场文书