Python读取word文本操作详解


Posted in Python onJanuary 22, 2018

本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下。

一,docx模块

Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。

二,相关概念

如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念。

1,Document对象,表示一个word文档。
2,Paragraph对象,表示word文档中的一个段落
3,Paragraph对象的text属性,表示段落中的文本内容。

三,模块的安装和导入

需要注意,python-docx模块安装需要在cmd命令行中输入pip install python-docx,如下图表示安装成功(最后那句英文Successfully installed,成功地安装完成,十分考验英文水平。)

Python读取word文本操作详解

注意在导入模块时,用的是import docx。

也真是奇了怪了,怎么安装和导入模块时,很多都不用一个名字,看来是很有必要出一个python版本的模块管理程序python-maven了,本段纯属PS。

四,读取word文本

在了解了上面的信息之后,就很简单了,下面先创建一个D:\temp\word.docx文件,并在其中输入如下内容。

Python读取word文本操作详解

然后写一段程序,代码及输出结果如下:

#读取docx中的文本代码示例
import docx
#获取文档对象
file=docx.Document("D:\\temp\\word.docx")
print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离一段

#输出每一段的内容
for para in file.paragraphs:
 print(para.text)

#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
 print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

运行结果:

================ RESTART: F:/360data/重要数据/桌面/学习笔记/readWord.py ================
段落数:13
啊

我看见一座山

雄伟的大山

真高啊

啊

这座山是!

真的很高!
第0段的内容是:啊
第1段的内容是:
第2段的内容是:我看见一座山
第3段的内容是:
第4段的内容是:雄伟的大山
第5段的内容是:
第6段的内容是:真高啊
第7段的内容是:
第8段的内容是:啊
第9段的内容是:
第10段的内容是:这座山是!
第11段的内容是:
第12段的内容是:真的很高!
>>>

总结

以上就是本文关于Python读取word文本操作详解的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python实现截屏的函数
Jul 25 Python
Python实现针对给定单链表删除指定节点的方法
Apr 12 Python
python3.4.3下逐行读入txt文本并去重的方法
Apr 29 Python
python 从csv读数据到mysql的实例
Jun 21 Python
Django中使用第三方登录的示例代码
Aug 20 Python
Python3爬虫全国地址信息
Jan 05 Python
python中实现控制小数点位数的方法
Jan 24 Python
python3利用ctypes传入一个字符串类型的列表方法
Feb 12 Python
Python 一键获取百度网盘提取码的方法
Aug 01 Python
python爬虫 猫眼电影和电影天堂数据csv和mysql存储过程解析
Sep 05 Python
Python爬虫爬取博客实现可视化过程解析
Jun 29 Python
Python引入多个模块及包的概念过程解析
Sep 21 Python
python导出hive数据表的schema实例代码
Jan 22 #Python
Python的SimpleHTTPServer模块用处及使用方法简介
Jan 22 #Python
一道python走迷宫算法题
Jan 22 #Python
浅谈使用Python内置函数getattr实现分发模式
Jan 22 #Python
python正则表达式及使用正则表达式的例子
Jan 22 #Python
Python深度优先算法生成迷宫
Jan 22 #Python
Python使用Tkinter实现机器人走迷宫
Jan 22 #Python
You might like
PHP聊天室技术
2006/10/09 PHP
php操作sqlserver关于时间日期读取的小小见解
2009/11/29 PHP
PHP合并两个数组的两种方式的异同
2012/09/14 PHP
PHP CURL获取返回值的方法
2014/05/04 PHP
PHP遍历目录文件的常用方法小结
2017/02/03 PHP
php获取字符串前几位的实例(substr返回字符串的子串用法)
2017/03/08 PHP
thinkPHP实现的省市区三级联动功能示例
2017/05/05 PHP
laravel框架分组控制器和分组路由实现方法示例
2020/01/25 PHP
IE6/7/8中Option元素未设value时Select将获取空字符串
2011/04/07 Javascript
javascript实现TreeView 无刷新展开的实例代码
2013/07/13 Javascript
Flexigrid在IE下不显示数据的处理的解决方法
2013/10/24 Javascript
原生JavaScript实现连连看游戏(附源码)
2013/11/05 Javascript
js判断ie版本号的简单实现代码
2014/03/05 Javascript
JS实现的鼠标跟随代码(卡通手型点击效果)
2015/10/26 Javascript
jquery简单插件制作(fn.extend)完整实例
2016/05/24 Javascript
深入理解Node.js 事件循环和回调函数
2016/11/02 Javascript
javascript中闭包概念与用法深入理解
2016/12/15 Javascript
概述一个页面从输入URL到页面加载完的过程
2016/12/16 Javascript
如何解决jQuery EasyUI 已打开Tab重新加载问题
2016/12/19 Javascript
vue 使某个组件不被 keep-alive 缓存的方法
2018/09/21 Javascript
微信小程序仿今日头条导航栏滚动解析
2019/08/20 Javascript
Python中的with...as用法介绍
2015/05/28 Python
Python数据库的连接实现方法与注意事项
2016/02/27 Python
python实现csv格式文件转为asc格式文件的方法
2018/03/23 Python
使用python读取txt文件的内容,并删除重复的行数方法
2018/04/18 Python
python暴力解压rar加密文件过程详解
2019/07/05 Python
HTML5实现音频和视频嵌入的方法
2018/08/22 HTML / CSS
有原因的手表:Flex Watches
2019/03/23 全球购物
美国球迷装备的第一来源:FOCO
2020/07/03 全球购物
小学英语教学反思
2014/01/30 职场文书
乡镇机关党员民主评议表自我评价
2014/09/21 职场文书
作文评语怎么写
2014/12/25 职场文书
2016国庆节活动宣传语
2015/11/25 职场文书
实习报告范文
2019/07/30 职场文书
读《庄子》有感:美而不自知
2019/11/06 职场文书
python使用XPath解析数据爬取起点小说网数据
2021/04/22 Python