Python读取Word(.docx)正文信息的方法


Posted in Python onMarch 15, 2018

本文介绍用Python简单读取*.docx文件信息,一些python-word库就是对这种方法的扩展。

介绍分两部分:

  • Word(*.docx)文件简述
  • Python提取Word信息

Word(*.docx)文件简述

大约在2008年以前,Office产品中Word用.doc文件格式,这种二进制格式很难与其他软件兼容。
为了跟上时代,微软采用类XML格式标准定义其新版Word文件.docx。
.docx实际上是一个zip的压缩文件,比如我们有一个test.docx的文件:

Python读取Word(.docx)正文信息的方法

其内容如下:

Python读取Word(.docx)正文信息的方法

改变其后缀名为test.zip,然后解压,会得到如下文件:

Python读取Word(.docx)正文信息的方法

其中Word文件的正文内容被保持在word/document.xml中,我们可以打开查看:

Python读取Word(.docx)正文信息的方法

Python提取Word信息

根据Word(.docx)文件格式,我们遵循如下步骤进行正文信息的提取:

1 解压.docx文件
2 用BeautifulSoup解析word/document.xml提取正文信息

具体代码如下:

from zipfile import ZipFile
from bs4 import BeautifulSoup

document=ZipFile('test.docx')
xml=document.read("word/document.xml")
wordObj=BeautifulSoup(xml.decode("utf-8"))
texts=wordObj.findAll("w:t")
for text in texts:
  print(text.text)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python同时给两个收件人发送邮件的方法
Apr 30 Python
Python装饰器入门学习教程(九步学习)
Jan 28 Python
分析Python中设计模式之Decorator装饰器模式的要点
Mar 02 Python
Python 实现一个颜色色值转换的小工具
Dec 06 Python
python3去掉string中的标点符号方法
Jan 22 Python
python+selenium实现QQ邮箱自动发送功能
Jan 23 Python
实例详解Python装饰器与闭包
Jul 29 Python
利用Python实现kNN算法的代码
Aug 16 Python
python中class的定义及使用教程
Sep 18 Python
Python之Django自动实现html代码(下拉框,数据选择)
Mar 13 Python
利用python中的matplotlib打印混淆矩阵实例
Jun 16 Python
Django REST Framework 分页(Pagination)详解
Nov 30 Python
30秒轻松实现TensorFlow物体检测
Mar 14 #Python
tensorflow识别自己手写数字
Mar 14 #Python
磁盘垃圾文件清理器python代码实现
Aug 24 #Python
Django自定义用户认证示例详解
Mar 14 #Python
python如何压缩新文件到已有ZIP文件
Mar 14 #Python
python中format()函数的简单使用教程
Mar 14 #Python
Python批量提取PDF文件中文本的脚本
Mar 14 #Python
You might like
动画 《Pokemon Sword·Shield》系列WEB动画《薄明之翼》第2话声优阵容公开!
2020/03/06 日漫
php解析html类库simple_html_dom(详细介绍)
2013/07/05 PHP
php中{}大括号是什么意思
2013/12/01 PHP
PHP中提问频率最高的11个面试题和答案
2014/09/02 PHP
php计算2个日期的差值函数分享
2015/02/02 PHP
PHP技术开发微信公众平台
2015/07/22 PHP
ThinkPHP实现转换数据库查询结果数据到对应类型的方法
2017/11/16 PHP
javascript 关于# 和 void的区别分析
2009/10/26 Javascript
UserData用法总结 lanyu出品
2010/07/01 Javascript
JavaScript Title、alt提示(Tips)实现源码解读
2010/12/12 Javascript
JavaScript EasyPager 分页函数
2011/05/25 Javascript
jquery创建一个ajax关键词数据搜索实现思路
2013/02/26 Javascript
javascript实现详细时间提醒信息效果的方法
2015/03/11 Javascript
Javascript对象Clone实例分析
2015/06/09 Javascript
nodejs加密Crypto的实例代码
2016/07/07 NodeJs
React Component存在的几种形式详解
2018/11/06 Javascript
详解基于Vue,Nginx的前后端不分离部署教程
2018/12/04 Javascript
python从入门到精通(DAY 2)
2015/12/20 Python
Python2.x利用commands模块执行Linux shell命令
2016/03/11 Python
详解Python的Twisted框架中reactor事件管理器的用法
2016/05/25 Python
Python中的 sort 和 sorted的用法与区别
2019/08/10 Python
Pytorch的mean和std调查实例
2020/01/02 Python
关于多元线性回归分析——Python&SPSS
2020/02/24 Python
django 前端页面如何实现显示前N条数据
2020/03/16 Python
Python命名空间namespace及作用域原理解析
2020/06/05 Python
编码转换,怎样实现将GB2312编码的字符串转换为ISO-8859-1编码的字符串
2014/01/07 面试题
新闻专业个人自我评价
2013/09/21 职场文书
成人大专自我鉴定范文
2013/10/19 职场文书
医务工作者先进事迹材料
2014/01/26 职场文书
中文专业学生自我评价范文
2014/02/06 职场文书
设计师求职信模板
2014/05/06 职场文书
社区党员公开承诺书
2014/08/30 职场文书
2014领导班子四风剖析对照检查材料思想汇报
2014/09/20 职场文书
2014年图书馆工作总结
2014/11/25 职场文书
小学新课改心得体会
2016/01/22 职场文书
JavaScript声明变量和数据类型的转换
2022/04/12 Javascript